人类是如何靠“出卖”自己，喂养出更聪明的AI？-虎嗅网

本文来自微信公众号：凤凰网科技，作者：凤凰网科技，编辑：赵子坤

林知夏每天都在做同一件事：教AI更像人。

她反复听模型生成的粤语语音，判断哪里不够自然，哪里带着机器味，哪里不像一个真正的粤语母语者。有时候，一个字的鼻音偏差，她能听出来；一个细微的吞音错误，她也能发现。

过去两年，她把这些经验一点点交给AI。而她也亲眼看着AI越来越“像人”。

到2025年底，她负责训练的语音模型已经能够流畅完成大部分粤语场景的表达。曾经需要反复修正的问题，越来越少出现。

模型进步的同时，一种微妙的情绪也开始出现。因为她越来越难判断：究竟是在训练AI，还是在训练一个未来可能替代自己的东西。

这种矛盾并不只属于林知夏。从互联网大厂的数据策略师，到兼职写Rubric（评分标准）的博士生；从商品图片审核员，到语音模型测评师，一群新的劳动者正在做着同一件事——把自己的知识、经验和判断力拆解成机器能够学习的形式。

他们是AI训练师。而他们或许也是第一批亲手参与制造自己替代者的人。

如果把时间拉长来看，这甚至不只是一个职业变迁的故事，而更像是人类历史上第一次大规模向机器移交判断力的过程。

从给猫打框，到教AI思考

AI训练师并不是ChatGPT时代才出现的新职业。

早在2010年前后，随着深度学习兴起，大量数据标注员就已经出现在人工智能产业链中。他们给图片里的汽车和红绿灯画框，为语音数据标记发音，为地图数据补充路况信息。

那时行业普遍相信：“数据是新时代的石油。”

2012年ImageNet竞赛成为深度学习发展的关键节点。此后十余年间，全球科技公司开始疯狂收集数据。中国也诞生了一批专门的数据标注企业，在贵州、河南、山西等地形成了庞大的数据标注产业。

那时候的标注员更像流水线工人。模型不会识别猫，人类就告诉它什么是猫；模型不会识别汽车，人类就一张张把汽车框出来。

AI训练师的任务，是给机器提供答案。

林知夏刚进入科大讯飞AI研究院时，做的很多工作也带着这种“流水线色彩”。

她每天要从B站、喜马拉雅等平台寻找语料，筛选纯人声、无背景音、单一声线的视频素材，再整理成训练所需的数据集。“最开始其实没那么高深。”她说，“更多是在做数据准备工作。”

图｜受访者供图

但很快，她发现事情正在发生变化。2024年她刚接手项目时，团队训练的粤语语音模型仍然显得笨拙。机器说话会卡顿，语速忽快忽慢，声调不够稳定，很多句子听起来依然带着浓重的机械感。“你一听就知道是机器。”

那时国内不少语音模型仍处于追赶阶段。“美国做了二十年的东西，你想五六年追上，肯定不现实。”林知夏说。

但AI进步的速度远超很多人的预期。一年多后，当她离开项目时，同一个模型已经能够流畅完成大部分粤语表达。语调、停连、节奏都越来越接近真人，甚至能够模仿不同地区的口音特征。“真的越来越像人了。”

类似的变化也发生在京东。陈若宁2025年进入京东，负责商品图片生成相关标注工作。刚入职时，团队对AI生图的要求并不高。“能把商品抠出来，再换一个背景，我们就觉得已经不错了。”

但仅仅过去半年，情况完全不同了。Google的Nano Banana模型让一切变了样。过去需要大量人工设计和后期处理的场景，如今模型已经能够自动生成。给它一台洗衣机，它可以生成一个用户打开洗衣机门的动作场景；给它一件服装，它可以自动匹配模特、灯光和展示环境。

更重要的是，模型开始理解图片背后的含义。过去，大模型处理中文能力很差，商品图中的文字经常生成乱码。许多电商团队甚至默认“不要让模型写字”。

如今，模型不仅能识别商品图上的文字，还能理解商品信息背后的卖点。识别出搪瓷杯后，它会生成“耐用”“不易碎”等描述；识别出婴儿用品后，也会自动调整文案风格。

变化发生得如此之快，以至于很多训练规则都在不断失效。

外包标注员孟霖对此感受深刻。2025年刚入行时，他负责大量选择题训练任务。当时设定规则时，有一条几乎每次都要写：“回答不得超出给定选项范围。”因为模型经常会在三个选项之外，自己创造第四个答案。

但到了2026年初，这条规则被取消了。“质检直接告诉我们，不用写了。”他说，“因为现在模型已经不会犯这种低级错误了。”

模型正在跨过越来越多曾经需要人工纠正的错误。而这也意味着，训练师必须寻找新的问题。问题开始从“什么是正确答案”，变成“什么是更好的答案”。

这一变化背后，是整个大模型产业正在经历的一次转向。

向大模型交出自己的判断力

如果说预训练时代教会AI的是知识，那么后训练时代教会AI的，则是如何使用知识。

在这条让AI变得更“聪明”的生产链上，关键节点是两类人：一类是直接面对任务的“做题人”，他们按照规则生产数据；另一类，则负责设计任务的“出题人”，负责拆字段、写规则、定标准。

两类人协力完成的，是同一件事：把人类的判断力结构化。

周以恒在字节负责数据策略工作，就是链条中的“出题人”。在他看来，很多普通用户看到的是AI越来越会聊天、越来越会写文章，但真正发生变化的是模型内部能力结构。

“基模其实只是预测下一个词。”他说，“它学到了很多知识，但并不知道知识之间应该怎么连接。”

换句话说，模型知道很多事实，却不知道什么时候该调用这些事实。后训练要解决的，恰恰是这个问题。

例如，一个用户如果询问：“现在12点半了，我还没吃午饭，请给我推荐一家附近人均40元以内的日料店。”对于人来说，这是一个简单需求。

但对模型而言，需要完成一连串复杂动作。它首先要理解用户真正想表达什么；然后调用地理位置工具获取坐标；把坐标转换成商圈信息；再调用本地生活工具筛选符合条件的餐厅；最后把结果组织成自然语言反馈给用户。

整个过程中，模型不仅要理解语言，还要学会规划、推理和决策。这些能力，并不能直接从互联网网页中学到。

过去十年，AI行业一直相信规模扩张，需要更多参数，更丰富数据，更大的算力。但到了2024年前后，一个越来越明显的问题开始出现——高质量互联网数据正在接近天花板。

公开网页、论坛、百科和新闻里的优质内容并不是无限的。当几乎所有大模型公司都在使用相似的数据进行训练时，仅靠扩大规模已经越来越难获得能力突破。

行业开始寻找新的资源。这一次，不再是网页，而是人脑中难以被提取的“判断力”。医生如何诊断疾病、律师如何构建论证、研究员如何阅读论文、母语者如何识别语感……这些原本只存在于经验中的知识，开始成为后训练时代最重要的训练材料。

AI需要学习的不再是知识本身，而是人为什么这样思考。过去，AI训练师的工作是告诉模型答案是什么；现在，他们要告诉模型为什么是这个答案。

这种变化，让整个职业开始从“数据工人”变成“知识工人”。

“做题人”孟霖对此感受颇深。这名人文社科方向的博士生，从2025年开始兼职参与大模型训练项目。刚入行时，他接触的大多是相对标准化的任务：判断回答是否正确、比较两个答案哪个更好、补充引用来源。

但很快，任务难度开始迅速提升。如今，他需要围绕一个人文社科问题写出数百字回答，同时附上二十多条Rubric。

所谓Rubric，本质上是一套评分标准。每一条标准都需要写清楚：引用了哪篇论文、为什么引用这篇论文、这篇论文如何支撑当前观点、引用逻辑是否充分，以及最终应该给予怎样的评分。

这意味着，他不仅要给出答案，还要把自己的思考过程完整拆解出来。

“以前可能十条引用就够了，现在要二十多条。”他说，“而且每条都要解释为什么。”现在，他写一条要花费三四个小时间。

为了保证数据质量，平台会要求所有引用来自论文、官方文件或权威机构网站，甚至会通过录屏和多模型交叉比对来防止直接使用AI生成内容。“如果你提交的东西跟某个AI的回答逻辑相似，就会被查出来。”孟霖说。

某种程度上，平台购买的不是答案，而是人类形成答案的过程。

孟霖逐渐意识到，自己真正提供给模型的，不是知识本身。而是知识之间的关联。为什么这篇论文比另一篇论文更重要？为什么这个观点能够支撑当前结论？为什么两个看似无关的研究结果可以建立联系？

这些“为什么”，恰恰是大模型最缺乏的部分，也是人类最昂贵的部分。

同样的事情，也发生在林知夏身上。随着模型能力不断提高，她的工作重点开始从寻找语料转向测听。所谓测听，并不是简单判断声音是否正确，而是判断它是否足够像一个真实的人。

一个字的边音和鼻音是否准确，一句话的重音位置是否自然，一个地区的粤语和另一个地区的粤语之间是否存在细微差异……这些问题很难写成标准答案，甚至很多母语者自己都说不清楚。

“香港粤语和广州粤语的差别，很多人听不出来。”林知夏说，“但项目里必须有人能听出来。”

这种能力并不来自课本，而是来自长期浸泡在语言环境中的经验，它更接近一种直觉。

而AI训练师的工作，就是把这种直觉拆解出来。拆成规则，拆成标签，拆成评分标准，最终变成模型能够学习的数据。

离职后，林知夏偶尔还会被原项目组找回去参与测评。“有时候他们开会对线，还会把我拉进去。”她笑说，因为只有自己能听出来。

但她也知道，这种不可替代性正在不断缩小。每一次测评，每一次修正，每一次反馈，本质上都在帮助模型缩短与自己的距离。

另一边，陈若宁也在经历类似的变化。她负责的是商品图片生成。过去，团队只需要判断图片是否违规、是否出现明显错误。如今，模型已经能够生成足够完整的商品场景。新的问题变成：它够好吗？

这看似简单，却比判断对错困难得多。什么样的背景算高级？什么样的灯光更符合品牌调性？什么样的模特姿态更自然？什么样的构图更容易促进成交？这些问题没有标准答案。

于是，训练师们不得不把模糊的审美感受转化成具体规则。业务方说希望图片更有“高级感”。训练团队就要拆解：高级感来自留白还是色彩？来自光影还是材质？来自场景设计还是人物状态？

原本存在于经验中的判断，被一步步翻译成机器能够理解的语言。“出题人”们需要把标准抽象出来，写成规则文档，再下发给外包标注团队。

在这个过程中，无论是“出题人”还是“做题人”，链条两端的AI训练师们共享同一身份：认知的搬运工。他们搬运的，是人脑中的更为抽象的“人类经验”。

事实上，如果把时间拉长来看，人类技术发展的历史，本质上就是一部不断外包自身能力的历史。

工业革命时期，蒸汽机帮助人类摆脱肌肉劳动。流水线帮助人类摆脱重复劳动。计算机帮助人类摆脱大量机械计算。互联网帮助人类完成信息处理。

而今天，大模型正在推动另一场新的外包。过去被认为只能存在于人脑中的能力——经验、直觉、判断、推理——开始被系统性转移给机器。

AI训练师恰恰站在这个过程的最前线。他们每天做的事就是：把原本无法描述的，变成可以描述的；把原本无法量化，抽象成可以量化的；把原本只属于人的能力，变成机器能够学习的能力。

从这个意义上说，他们并不是在训练AI。他们是在拆解自己。

这种转变，其实早已在全球AI产业链中出现。数据标注公司Scale AI在硅谷的崛起，让资本市场意识到：高质量的人类反馈，本身就是AI时代最稀缺的生产资料。

当大模型进入后训练时代后，这种需求进一步爆发。企业争夺的已经不只是数据，而是能够提供专业判断的人。

模型可以自己生成内容，却无法定义什么内容更好，它可以学会模仿人，却无法天然理解人的偏好。而后训练时代最重要的竞争力，恰恰建立在这些偏好之上。

于是，一个有些矛盾的局面出现了：模型越聪明，对人贡献的能力纬度要求越高。

但与此同时，人所提供的能力也正在被模型一点点吸收。而这群训练师们，既是AI成长的养料，也是AI成长后最直接被取代的人。

越成功，越快被替代

在今天的大模型竞赛里，很少有人知道，一条训练数据的生命周期究竟有多短。

孟霖所在的项目群经常同时聚集上百名标注员。教育、文学、体育、法律、历史等不同领域的人都有不同的任务，但都在为模型提供更精准的训练数据。

在他看来，大厂对于数据训练的投入近乎不计成本。“一个项目群大概百人规模，单月成本不会低的。”他说，“而这样的项目，同时可能有很多个。”

这种投入背后，是整个行业对于“大模型落后”的焦虑。过去几年里，参数、算力和人才成为各家公司争夺的核心资源。而当行业进入后训练时代之后，能够提供高质量反馈的人，也被纳入争夺范围。

越来越多企业开始提高招聘门槛。硕士成为基础要求，博士越来越常见。法律、医学、语言学、金融等专业背景开始受到追捧。

林知夏所在的项目组里，985本科只是入场券；孟霖参与的平台项目，哪怕是外包兼职也要提供简历、学信网证明，通过理论考试和试标题才能入群。“就招募要求来讲，去年只要人文社科硕士及以上就可以，今年就得211博士生及以上了。”

看起来，这是一个正在快速升值的新职业。但吊诡的是，它的终点恰恰建立在自己的成功之上。

周以恒见过太多这样的项目，一个能力缺口出现，训练师设计任务，标注员生产数据，模型完成学习，然后，项目结束。

“同一个场景，前期标注比较简单，后期越来越难。”他说，“但当任务越来越难的时候，恰恰说明模型已经越来越强了。”

模型学会了简单问题，人就必须寻找更复杂的问题。模型学会了复杂问题，人又要继续寻找新的边界。每一次能力提升，都会带走一部分原本属于人的工作。

从这个角度看，AI训练师并不是在攀登一座固定的高山，更像是在为AII修一条通往更高处的阶梯。每迈上一个台阶，脚下的阶梯就不再需要。而那些经过数月反复打磨的数据，在模型能力提升的那一刻，便和它的提供者们一起，完成了历史使命。

孟霖自嘲现在做的工作是“自掘坟墓”，“慢的话3年，快的话2年之内，标注员就不需要了。”他也知道，自己只是整个庞杂训练体系外的一颗螺丝钉，“只不过是专业知识更丰富点的那种，实际上对AI还是一无所知。”

林知夏离职之后，原项目组偶尔还会联系她，希望她帮忙参与一些测评工作。因为很多细微问题，仍然需要她这样的母语者判断。但她知道，这种需求正在减少。过去必须依靠人工判断的内容，正在逐渐被模型掌握。“模型每迭代一次，人的不可替代性就削弱一点。”

事实上，这种逻辑正在越来越多公司内部上演。

过去一年，一个频繁出现的要求是“个体AI化”。越来越多企业要求员工梳理自己的工作流，沉淀自己的经验，建立属于自己的Skill。

简单来说，就是把原本依赖个人完成的工作，拆解成标准化流程。什么情况下该做什么决策，什么情况下该调用什么工具，什么情况下应该向谁沟通。

这些过去存在于个人经验中的知识，开始被要求记录下来、结构化、模块化。

进一步的发展，则被一些从业者称为“蒸馏自己”。员工把自己的工作方式、判断逻辑、沟通习惯输入系统，训练出一个能够模拟自己工作的数字分身。

即便离开岗位，这个分身依然能够按照过去的逻辑回答问题。对于企业而言，这意味着知识沉淀。对于个体而言，则是一种复杂的情绪。

陈若宁感到恐慌与疲惫，她最近每天晚上10点，一边开着需求商品会，一边还要额外去构思、调试Skill，把自己一点点“蒸馏”给公司。她很清楚，自己在把原本属于自己的独特经验“上贡”给系统。

“工作可能会没有。”她打趣道，“技能可是赛博永生了。”

工业时代，人们把体力交给机器；信息时代，人们把重复劳动交给软件；而AI时代，人们开始把判断力交给模型。

不同技术革命之间看似差异巨大，却遵循着相似的规律。

19世纪，工匠帮助机械织布机走向成熟，最终被机器改变命运；20世纪，流水线工人推动自动化生产普及，最终让工厂越来越少依赖人工；过去二十年，程序员不断把经验写进软件，让越来越多工作实现自动化。

而今天，AI训练师正在做着类似的事情。只是这一次，他们交出去的不再是体力，也不只是技能，而是思考本身。

林知夏的语言直觉、孟霖的学术判断、陈若宁的审美经验、周以恒的决策逻辑……这些原本只存在于大脑中的能力，正在被一点点拆解、记录、结构化，然后输入模型。

从给图片框出一只猫，到教会大模型如何思考，人类用了十几年时间，把机器一步步推向更聪明的方向。

AI训练师或许是这个时代最特殊的一群劳动者。他们工作的全部意义，就是让自己贡献的能力最终不再稀缺。

他们把经验变成规则，把直觉变成数据，把判断变成算法。每一次标注、每一次反馈、每一次修正，都是在人类与AI之间架设新的桥梁。机器之所以越来越“像人”，是因为有人不断把自己拆给机器。他们教会机器理解世界，也在教会机器越来越像自己。

而当桥梁最终修通时，最先离开桥上的，或许正是那些修桥的人。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

人类是如何靠“出卖”自己，喂养出更聪明的AI？

从给猫打框，到教AI思考

向大模型交出自己的判断力

越成功，越快被替代

大 家 都 在 搜

大家都在搜