扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
本文讲述AI训练师将人类判断力拆解交付给AI,成为AI成长的养料,也制造了自身的替代者,折射出AI时代的职业与技术变迁。 ## 1. AI训练任务的演进:从给答案到拆思考 早期(2010年深度学习兴起后)的AI标注更接近流水线工作,标注员只需给AI提供明确的标准答案,比如给图片中的目标画框、整理训练语料。 随着大模型能力快速提升,训练需求从“识别对错”转向“判断优劣”,AI训练师需要把人类隐性的经验、直觉拆解成机器可学习的结构化规则与数据。 ## 2. 后训练时代的核心:人类向AI移交判断力 公开互联网高质量数据已接近天花板,仅靠扩大模型参数规模很难实现能力突破,人脑中的经验、直觉等判断力成为AI后训练时代最核心的训练材料。 现在企业购买的不是AI训练师给出的答案,而是人类形成答案的思考过程,用于补全大模型缺失的逻辑关联与决策能力,AI训练师本质是人类认知的搬运工。 ## 3. AI训练产业的矛盾:越成功,越快被替代 大模型后训练时代对AI训练师的门槛要求不断提高,项目招募要求已从人文社科硕士升级到211博士生及以上,专业背景更受追捧。 但这个职业的终点建立在自身成功之上:AI每学会一项人类能力,就会带走对应工作,训练师填补能力缺口、打磨数据帮助模型迭代后,对应的岗位需求就会消失。 ## 4. AI时代的普遍趋势:拆解“自己”,交付思考 当下很多企业要求员工“蒸馏自己”,把个人工作的决策逻辑、经验习惯拆解为标准化流程,输入系统训练数字分身,实现企业知识沉淀。 从工业革命的体力外包到信息时代的重复劳动外包,如今AI推动的是人类判断力、思考能力的系统性转移,AI训练师是这场转移的最前线,他们修通了人类能力向AI迁移的桥梁,也最可能率先被取代。
2026-06-01 18:56

人类是如何靠“出卖”自己,喂养出更聪明的AI?

本文来自微信公众号: 凤凰网科技 ,作者:凤凰网科技,编辑:赵子坤


林知夏每天都在做同一件事:教AI更像人。


她反复听模型生成的粤语语音,判断哪里不够自然,哪里带着机器味,哪里不像一个真正的粤语母语者。有时候,一个字的鼻音偏差,她能听出来;一个细微的吞音错误,她也能发现。


过去两年,她把这些经验一点点交给AI。而她也亲眼看着AI越来越“像人”。


到2025年底,她负责训练的语音模型已经能够流畅完成大部分粤语场景的表达。曾经需要反复修正的问题,越来越少出现。


模型进步的同时,一种微妙的情绪也开始出现。因为她越来越难判断:究竟是在训练AI,还是在训练一个未来可能替代自己的东西。


这种矛盾并不只属于林知夏。从互联网大厂的数据策略师,到兼职写Rubric(评分标准)的博士生;从商品图片审核员,到语音模型测评师,一群新的劳动者正在做着同一件事——把自己的知识、经验和判断力拆解成机器能够学习的形式。


他们是AI训练师。而他们或许也是第一批亲手参与制造自己替代者的人。


如果把时间拉长来看,这甚至不只是一个职业变迁的故事,而更像是人类历史上第一次大规模向机器移交判断力的过程。



从给猫打框,到教AI思考


AI训练师并不是ChatGPT时代才出现的新职业。


早在2010年前后,随着深度学习兴起,大量数据标注员就已经出现在人工智能产业链中。他们给图片里的汽车和红绿灯画框,为语音数据标记发音,为地图数据补充路况信息。


那时行业普遍相信:“数据是新时代的石油。”


2012年ImageNet竞赛成为深度学习发展的关键节点。此后十余年间,全球科技公司开始疯狂收集数据。中国也诞生了一批专门的数据标注企业,在贵州、河南、山西等地形成了庞大的数据标注产业。


那时候的标注员更像流水线工人。模型不会识别猫,人类就告诉它什么是猫;模型不会识别汽车,人类就一张张把汽车框出来。


AI训练师的任务,是给机器提供答案。


林知夏刚进入科大讯飞AI研究院时,做的很多工作也带着这种“流水线色彩”。


她每天要从B站、喜马拉雅等平台寻找语料,筛选纯人声、无背景音、单一声线的视频素材,再整理成训练所需的数据集。“最开始其实没那么高深。”她说,“更多是在做数据准备工作。”


图|受访者供图


但很快,她发现事情正在发生变化。2024年她刚接手项目时,团队训练的粤语语音模型仍然显得笨拙。机器说话会卡顿,语速忽快忽慢,声调不够稳定,很多句子听起来依然带着浓重的机械感。“你一听就知道是机器。”


那时国内不少语音模型仍处于追赶阶段。“美国做了二十年的东西,你想五六年追上,肯定不现实。”林知夏说。


但AI进步的速度远超很多人的预期。一年多后,当她离开项目时,同一个模型已经能够流畅完成大部分粤语表达。语调、停连、节奏都越来越接近真人,甚至能够模仿不同地区的口音特征。“真的越来越像人了。”


类似的变化也发生在京东。陈若宁2025年进入京东,负责商品图片生成相关标注工作。刚入职时,团队对AI生图的要求并不高。“能把商品抠出来,再换一个背景,我们就觉得已经不错了。”


但仅仅过去半年,情况完全不同了。Google的Nano Banana模型让一切变了样。过去需要大量人工设计和后期处理的场景,如今模型已经能够自动生成。给它一台洗衣机,它可以生成一个用户打开洗衣机门的动作场景;给它一件服装,它可以自动匹配模特、灯光和展示环境。


更重要的是,模型开始理解图片背后的含义。过去,大模型处理中文能力很差,商品图中的文字经常生成乱码。许多电商团队甚至默认“不要让模型写字”。


如今,模型不仅能识别商品图上的文字,还能理解商品信息背后的卖点。识别出搪瓷杯后,它会生成“耐用”“不易碎”等描述;识别出婴儿用品后,也会自动调整文案风格。


变化发生得如此之快,以至于很多训练规则都在不断失效。


外包标注员孟霖对此感受深刻。2025年刚入行时,他负责大量选择题训练任务。当时设定规则时,有一条几乎每次都要写:“回答不得超出给定选项范围。”因为模型经常会在三个选项之外,自己创造第四个答案。


但到了2026年初,这条规则被取消了。“质检直接告诉我们,不用写了。”他说,“因为现在模型已经不会犯这种低级错误了。”


模型正在跨过越来越多曾经需要人工纠正的错误。而这也意味着,训练师必须寻找新的问题。问题开始从“什么是正确答案”,变成“什么是更好的答案”。


这一变化背后,是整个大模型产业正在经历的一次转向。



向大模型交出自己的判断力


如果说预训练时代教会AI的是知识,那么后训练时代教会AI的,则是如何使用知识。


在这条让AI变得更“聪明”的生产链上,关键节点是两类人:一类是直接面对任务的“做题人”,他们按照规则生产数据;另一类,则负责设计任务的“出题人”,负责拆字段、写规则、定标准。


两类人协力完成的,是同一件事:把人类的判断力结构化。


周以恒在字节负责数据策略工作,就是链条中的“出题人”。在他看来,很多普通用户看到的是AI越来越会聊天、越来越会写文章,但真正发生变化的是模型内部能力结构。


“基模其实只是预测下一个词。”他说,“它学到了很多知识,但并不知道知识之间应该怎么连接。”


换句话说,模型知道很多事实,却不知道什么时候该调用这些事实。后训练要解决的,恰恰是这个问题。


例如,一个用户如果询问:“现在12点半了,我还没吃午饭,请给我推荐一家附近人均40元以内的日料店。”对于人来说,这是一个简单需求。


但对模型而言,需要完成一连串复杂动作。它首先要理解用户真正想表达什么;然后调用地理位置工具获取坐标;把坐标转换成商圈信息;再调用本地生活工具筛选符合条件的餐厅;最后把结果组织成自然语言反馈给用户。


整个过程中,模型不仅要理解语言,还要学会规划、推理和决策。这些能力,并不能直接从互联网网页中学到。


过去十年,AI行业一直相信规模扩张,需要更多参数,更丰富数据,更大的算力。但到了2024年前后,一个越来越明显的问题开始出现——高质量互联网数据正在接近天花板。


公开网页、论坛、百科和新闻里的优质内容并不是无限的。当几乎所有大模型公司都在使用相似的数据进行训练时,仅靠扩大规模已经越来越难获得能力突破。


行业开始寻找新的资源。这一次,不再是网页,而是人脑中难以被提取的“判断力”。医生如何诊断疾病、律师如何构建论证、研究员如何阅读论文、母语者如何识别语感……这些原本只存在于经验中的知识,开始成为后训练时代最重要的训练材料。


AI需要学习的不再是知识本身,而是人为什么这样思考。过去,AI训练师的工作是告诉模型答案是什么;现在,他们要告诉模型为什么是这个答案。


这种变化,让整个职业开始从“数据工人”变成“知识工人”。


“做题人”孟霖对此感受颇深。这名人文社科方向的博士生,从2025年开始兼职参与大模型训练项目。刚入行时,他接触的大多是相对标准化的任务:判断回答是否正确、比较两个答案哪个更好、补充引用来源。


但很快,任务难度开始迅速提升。如今,他需要围绕一个人文社科问题写出数百字回答,同时附上二十多条Rubric。


所谓Rubric,本质上是一套评分标准。每一条标准都需要写清楚:引用了哪篇论文、为什么引用这篇论文、这篇论文如何支撑当前观点、引用逻辑是否充分,以及最终应该给予怎样的评分。


这意味着,他不仅要给出答案,还要把自己的思考过程完整拆解出来。


“以前可能十条引用就够了,现在要二十多条。”他说,“而且每条都要解释为什么。”现在,他写一条要花费三四个小时间。


为了保证数据质量,平台会要求所有引用来自论文、官方文件或权威机构网站,甚至会通过录屏和多模型交叉比对来防止直接使用AI生成内容。“如果你提交的东西跟某个AI的回答逻辑相似,就会被查出来。”孟霖说。


某种程度上,平台购买的不是答案,而是人类形成答案的过程。


孟霖逐渐意识到,自己真正提供给模型的,不是知识本身。而是知识之间的关联。为什么这篇论文比另一篇论文更重要?为什么这个观点能够支撑当前结论?为什么两个看似无关的研究结果可以建立联系?


这些“为什么”,恰恰是大模型最缺乏的部分,也是人类最昂贵的部分。


同样的事情,也发生在林知夏身上。随着模型能力不断提高,她的工作重点开始从寻找语料转向测听。所谓测听,并不是简单判断声音是否正确,而是判断它是否足够像一个真实的人。


一个字的边音和鼻音是否准确,一句话的重音位置是否自然,一个地区的粤语和另一个地区的粤语之间是否存在细微差异……这些问题很难写成标准答案,甚至很多母语者自己都说不清楚。


“香港粤语和广州粤语的差别,很多人听不出来。”林知夏说,“但项目里必须有人能听出来。”


这种能力并不来自课本,而是来自长期浸泡在语言环境中的经验,它更接近一种直觉。


而AI训练师的工作,就是把这种直觉拆解出来。拆成规则,拆成标签,拆成评分标准,最终变成模型能够学习的数据。


离职后,林知夏偶尔还会被原项目组找回去参与测评。“有时候他们开会对线,还会把我拉进去。”她笑说,因为只有自己能听出来。


但她也知道,这种不可替代性正在不断缩小。每一次测评,每一次修正,每一次反馈,本质上都在帮助模型缩短与自己的距离。


另一边,陈若宁也在经历类似的变化。她负责的是商品图片生成。过去,团队只需要判断图片是否违规、是否出现明显错误。如今,模型已经能够生成足够完整的商品场景。新的问题变成:它够好吗?


这看似简单,却比判断对错困难得多。什么样的背景算高级?什么样的灯光更符合品牌调性?什么样的模特姿态更自然?什么样的构图更容易促进成交?这些问题没有标准答案。


于是,训练师们不得不把模糊的审美感受转化成具体规则。业务方说希望图片更有“高级感”。训练团队就要拆解:高级感来自留白还是色彩?来自光影还是材质?来自场景设计还是人物状态?



原本存在于经验中的判断,被一步步翻译成机器能够理解的语言。“出题人”们需要把标准抽象出来,写成规则文档,再下发给外包标注团队。


在这个过程中,无论是“出题人”还是“做题人”,链条两端的AI训练师们共享同一身份:认知的搬运工。他们搬运的,是人脑中的更为抽象的“人类经验”。


事实上,如果把时间拉长来看,人类技术发展的历史,本质上就是一部不断外包自身能力的历史。


工业革命时期,蒸汽机帮助人类摆脱肌肉劳动。流水线帮助人类摆脱重复劳动。计算机帮助人类摆脱大量机械计算。互联网帮助人类完成信息处理。


而今天,大模型正在推动另一场新的外包。过去被认为只能存在于人脑中的能力——经验、直觉、判断、推理——开始被系统性转移给机器。


AI训练师恰恰站在这个过程的最前线。他们每天做的事就是:把原本无法描述的,变成可以描述的;把原本无法量化,抽象成可以量化的;把原本只属于人的能力,变成机器能够学习的能力。


从这个意义上说,他们并不是在训练AI。他们是在拆解自己。


这种转变,其实早已在全球AI产业链中出现。数据标注公司Scale AI在硅谷的崛起,让资本市场意识到:高质量的人类反馈,本身就是AI时代最稀缺的生产资料。


当大模型进入后训练时代后,这种需求进一步爆发。企业争夺的已经不只是数据,而是能够提供专业判断的人。


模型可以自己生成内容,却无法定义什么内容更好,它可以学会模仿人,却无法天然理解人的偏好。而后训练时代最重要的竞争力,恰恰建立在这些偏好之上。


于是,一个有些矛盾的局面出现了:模型越聪明,对人贡献的能力纬度要求越高。


但与此同时,人所提供的能力也正在被模型一点点吸收。而这群训练师们,既是AI成长的养料,也是AI成长后最直接被取代的人。



越成功,越快被替代


在今天的大模型竞赛里,很少有人知道,一条训练数据的生命周期究竟有多短。


孟霖所在的项目群经常同时聚集上百名标注员。教育、文学、体育、法律、历史等不同领域的人都有不同的任务,但都在为模型提供更精准的训练数据。


在他看来,大厂对于数据训练的投入近乎不计成本。“一个项目群大概百人规模,单月成本不会低的。”他说,“而这样的项目,同时可能有很多个。”


这种投入背后,是整个行业对于“大模型落后”的焦虑。过去几年里,参数、算力和人才成为各家公司争夺的核心资源。而当行业进入后训练时代之后,能够提供高质量反馈的人,也被纳入争夺范围。


越来越多企业开始提高招聘门槛。硕士成为基础要求,博士越来越常见。法律、医学、语言学、金融等专业背景开始受到追捧。


林知夏所在的项目组里,985本科只是入场券;孟霖参与的平台项目,哪怕是外包兼职也要提供简历、学信网证明,通过理论考试和试标题才能入群。“就招募要求来讲,去年只要人文社科硕士及以上就可以,今年就得211博士生及以上了。”


看起来,这是一个正在快速升值的新职业。但吊诡的是,它的终点恰恰建立在自己的成功之上。


周以恒见过太多这样的项目,一个能力缺口出现,训练师设计任务,标注员生产数据,模型完成学习,然后,项目结束。


“同一个场景,前期标注比较简单,后期越来越难。”他说,“但当任务越来越难的时候,恰恰说明模型已经越来越强了。”


模型学会了简单问题,人就必须寻找更复杂的问题。模型学会了复杂问题,人又要继续寻找新的边界。每一次能力提升,都会带走一部分原本属于人的工作。


从这个角度看,AI训练师并不是在攀登一座固定的高山,更像是在为AII修一条通往更高处的阶梯。每迈上一个台阶,脚下的阶梯就不再需要。而那些经过数月反复打磨的数据,在模型能力提升的那一刻,便和它的提供者们一起,完成了历史使命。


孟霖自嘲现在做的工作是“自掘坟墓”,“慢的话3年,快的话2年之内,标注员就不需要了。”他也知道,自己只是整个庞杂训练体系外的一颗螺丝钉,“只不过是专业知识更丰富点的那种,实际上对AI还是一无所知。”


林知夏离职之后,原项目组偶尔还会联系她,希望她帮忙参与一些测评工作。因为很多细微问题,仍然需要她这样的母语者判断。但她知道,这种需求正在减少。过去必须依靠人工判断的内容,正在逐渐被模型掌握。“模型每迭代一次,人的不可替代性就削弱一点。”


事实上,这种逻辑正在越来越多公司内部上演。


过去一年,一个频繁出现的要求是“个体AI化”。越来越多企业要求员工梳理自己的工作流,沉淀自己的经验,建立属于自己的Skill。


简单来说,就是把原本依赖个人完成的工作,拆解成标准化流程。什么情况下该做什么决策,什么情况下该调用什么工具,什么情况下应该向谁沟通。


这些过去存在于个人经验中的知识,开始被要求记录下来、结构化、模块化。


进一步的发展,则被一些从业者称为“蒸馏自己”。员工把自己的工作方式、判断逻辑、沟通习惯输入系统,训练出一个能够模拟自己工作的数字分身。


即便离开岗位,这个分身依然能够按照过去的逻辑回答问题。对于企业而言,这意味着知识沉淀。对于个体而言,则是一种复杂的情绪。


陈若宁感到恐慌与疲惫,她最近每天晚上10点,一边开着需求商品会,一边还要额外去构思、调试Skill,把自己一点点“蒸馏”给公司。她很清楚,自己在把原本属于自己的独特经验“上贡”给系统。


“工作可能会没有。”她打趣道,“技能可是赛博永生了。”


工业时代,人们把体力交给机器;信息时代,人们把重复劳动交给软件;而AI时代,人们开始把判断力交给模型。


不同技术革命之间看似差异巨大,却遵循着相似的规律。


19世纪,工匠帮助机械织布机走向成熟,最终被机器改变命运;20世纪,流水线工人推动自动化生产普及,最终让工厂越来越少依赖人工;过去二十年,程序员不断把经验写进软件,让越来越多工作实现自动化。


而今天,AI训练师正在做着类似的事情。只是这一次,他们交出去的不再是体力,也不只是技能,而是思考本身。


林知夏的语言直觉、孟霖的学术判断、陈若宁的审美经验、周以恒的决策逻辑……这些原本只存在于大脑中的能力,正在被一点点拆解、记录、结构化,然后输入模型。


从给图片框出一只猫,到教会大模型如何思考,人类用了十几年时间,把机器一步步推向更聪明的方向。


AI训练师或许是这个时代最特殊的一群劳动者。他们工作的全部意义,就是让自己贡献的能力最终不再稀缺。


他们把经验变成规则,把直觉变成数据,把判断变成算法。每一次标注、每一次反馈、每一次修正,都是在人类与AI之间架设新的桥梁。机器之所以越来越“像人”,是因为有人不断把自己拆给机器。他们教会机器理解世界,也在教会机器越来越像自己。


而当桥梁最终修通时,最先离开桥上的,或许正是那些修桥的人。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: