扫码打开虎嗅APP
本文来自微信公众号:新硅NewGeek (ID:XinguiNewgeek),作者:董道力,编辑:张泽一,题图来自:视觉中国
在阅读正文前,先考你三个问题,回答出第三个,将会受到硅基君的膜拜。
Q1:把图片中的猫框选出来。
你:这还不简单?
图/视觉中国
Q2:下面的表情包展现的态度是积极的还是消极的?
你:有点难度,但我可是十级上网冲浪选手!
Q3:把下列图片中有病的地方圈出来,并标明出现了什么问题。
你:???
图/视觉中国
从非常简单,到汗流浃背,这三个问题展现了数据标注行业,在如今的变化,从是个人就能做,到专业性越来越强。
夸张点说,不是专业对口的985,未来连数据标注都做不了。
前不久,Scale AI创始人表示了类似的观点:“我们需要最优秀和最聪明的头脑来贡献数据。”
Scale AI是一家估值138亿美元的数据标注公司,估值都快赶上马斯克的x.AI了。它们的主要工作就是给OpenAI、Meta、谷歌等公司提供训练AI的数据,被称为“大模型公司的弹药库”。
从实际行动上来看,Scale AI也的确在“开除”低学历人群。据Rest of World的报道,Scale AI关闭了肯尼亚、尼日利亚和巴基斯坦的承包商站点。
公司的招聘重点转向美国本土,招募高知人士,来帮助标注训练大模型的专业知识。
在传统语境下,数据工人不就应该选非洲、亚洲的廉价劳动力,怎么现在还需要高知人士了?
这其实就是因为随着大模型的不断进化,所需要的数据质量水涨船高,而事实上,数据标注已经分化成了两种完全不同的行业。
首先我们要区分一下,简单数据标注和复杂数据标注有什么不同。
下图是简单数据标注的几种方式,先感受一下。
简单的数据标注也就是我们更为熟悉的“把猫框出来”“把脸部轮廓线描出来”。
用专业点的话来表述就是:针对语音、图像、文本等通过做标记、框对象、做注释等方式对数据集作出标注,再将这些数据集喂给机器训练和学习。
这类数据标注任务的特点就是,简单但量大,和在流水线上打螺丝类似,是个劳动密集型产业,是个正常人就能做。
比较知名且较为简单的数据标注就是李飞飞开发的ImageNet。在2009年推出时,是人工智能史上最大的数据集,包含1500万张图像,涉及22000个类别。
下图就是一个ImageNet数据标注案例,比如将图片中的泰迪熊框出来,并标注上Teddy Bear。
李飞飞的项目借助了亚马逊的mechanical turk平台,众包了来自167个国家的4.9万名工作者,从近10亿张候选图片中筛选出符合条件的数据。
如今类似的数据标注众包网站,需求很大,像行人轨迹采集,经久不衰的宠物图片采集,人像分析,眼球采集等。
从招聘JD上来看,只需要有基础的计算机操作能力,经过简单培训,人人都可以上手。
而随着技术进步,人们对于AI的要求越来越高,AI可执行的任务也变得复杂,因此AI对于数据的要求也变得复杂。
简单来说,是从简单的“框出某个东西”,变成了给某个数据写一串具体的描述。
举个例子,以前的AI只需要判断一张图片中的动物是不是猫,这个手写数字是1还是2,往往只需要学习二维数据。
而如今AI不光要学习光谱、热成像等数据,还要在专业场景下用术语进行准确描述。就像文章开头那个X光片,没有专业知识如何分辨不同病状?
同时,以ChatGPT为代表的生成式人工智能,还需要AI学会带有逻辑的编程工作,这时,我们就需要投喂AI带有“关系”的数据。
简单来说,简单的数据标注工作只需要告诉机器“1是1,2是2”,但复杂的数据标注工作,要告诉机器“1+1=2”。
具体来说,ChatGPT为代表的大模型所需要的数据标注,可以基于训练过程分为预训练、监督微调、人类反馈三个阶段。
阿里研究院《2024大模型训练数据白皮书》
第一阶段预训练,数据相对简单,用到的就是一些网页、书籍等,OpenAI、谷歌等公司陷入的侵权官司涉及的数据,也主要用在预训练中。
虽然预训练用到的数据很多,但大多未经过滤,存在很多暴力、反话、脏话等“垃圾信息”,此时的预训练模型有一定的逻辑,但回答的内容效果往往不佳。
比如你问预训练大模型,“张三偷税漏税该怎么处罚”,大模型原本应该根据法律条文进行回答,但预训练大模型可能直接使用罗翔讲的段子。
这时候就需要人类(数据标注员)的介入,也就是第二、三阶段。
第二阶段微调,数据标注员会设计问答,编写正确答案,将题目喂给模型,让模型学习。
这一阶段,虽然问题形式内容看起来都不难,但真正操作起来需要有一定经验。针对不同功能/形式的大模型就需要不同的微调数据集,如何快速找到/维护合适的数据,如何处理大量数据都有技术要求。
而如果你要做一个垂类行业的大模型,微调数据就要更加专业。
同样拿法律大模型为例,Gtihub上有一个LexiLaw-中文法律大模型项目,项目中的微调数据如下图所示,不说有多难,但起码要是法律科班出身吧,还要懂一点大模型的技术。
第三阶段人类反馈,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道什么才是好答案。
比如,大模型会针对“人工智能有什么用”这个问题,给出四个答案,数据标注员就需要对这四个答案的好坏排个序。有时候,针对“张三偷税漏税该怎么处罚”这类专业问题,还需要做进一步的事实核实。
与“把猫框出来”这种有标准答案的数据标注不同,大模型的数据标注没有标准答案,更像是阅读理解。在数据标注员拿不定答案时,就得向有知识储备的数据标注员求助。
如果是行业大模型的数据标注员,在微调/反馈阶段还需要具备行业知识,比如训练法律大模型就需要法律知识,微调古诗词大模型还需要具备文学素养,评价上海话大模型的回答就需要会上海话。
这也就是为什么,随着大模型向着能力越来越强的AGI、专业的垂类模型发展,对数据的要求越来越高,导致数据标注需要高学历、高素质人才。
大模型时代的数据标注行业也从劳动密集型转变成知识密集型。
面对数据标注员要求不一的情况,科技公司也采取了不同措施。
比如,OpenAI的前期数据标注员大多在肯尼亚,主要工作是帮大模型过滤掉“有害”内容,标注员月薪在200到300美元之间。
但涉及模型微调的时候,就真是一群名校毕业的博士生来操作了。
不信,你试试给下面这个甲骨文打标注?
微软亚洲研究院甲骨文校重助手Diviner
本文来自微信公众号:新硅NewGeek (ID:XinguiNewgeek),作者:董道力,编辑:张泽一