
本文来自微信公众号: 硅星人Pro ,作者:樊雅婷
早上九点,小林戴上耳机,打开标注平台,耳朵里传来一段带四川口音的普通话。
她要先逐字把这段语音转写出来,再标出发音偏差、语调异常和方言特征词,最后判断AI的识别结果哪里对了、哪里跑偏。听起来像在听播客,旁人或许以为她在摸鱼,可这就是她的工作。
她的官方title叫"数据标注员",但她更愿意说自己是"AI训练师"——这样听起来酷一点。毕竟在大多数人的认知里,这份工作就是AI时代的流水线:面对电脑,机械地点鼠标,日复一日地画框、打标签,技术含量不高,是典型的"人肉电池"。
可一旦有人追问"具体做什么",小林通常会沉默两秒,然后答:"就……教AI听人话。"再多的,她也说不上来了。
也许下面这份从业者简历里的工作描述,大致能说明他们每天在做的事。

对于越来越多想进入AI行业的年轻人,数据标准正在成为他们会考虑的入门工作,这个工种因何而生,整个行业是什么面貌,从业者又将走向何方——我们抓取了Boss直聘上"数据标注"关键词下、base在北京的302个岗位,逐一拆解其中151份完整JD。
1
同一份标注工作,月薪能差出三十倍
ChatGPT会写诗,靠的是标注员逐条评价"这句好、那句差";自动驾驶能在路口认出红绿灯,是因为有人对着数万张街景图、一个像素一个像素地描出边界。你对agent说一句"播放周杰伦的歌",它一秒就听懂并执行,这背后是成千上万条带口音、带环境噪声、带吞音连读的语音指令被人工标好了。
如今为了更自然的交互,语音标注的复杂度还在指数级上升——不再只是把声音转成文字,而是要标出情绪、意图、语用场景,连方言里那点微妙差异都要标,模型才能真正学会"听人话"。
每一处智能闪光,都有一双人类的手在托底。这双手的主人靠它挣多少、能干多久,是另一回事。先看收入。
151份完整JD里,北京数据标注岗位月薪中位数10500元,最低2K,最高65K——首尾相差三十多倍。
低薪这头多是实习、兼职和众包。日薪岗有84个,中位185元/天,招聘帖上写着"数据标注,双休,小白可做",学历经验全不限,月薪4-5K。光谱另一端,百度给自动驾驶数据标注算法实习生开出500-600元/天,要求硕士;阿里巴巴的AI训练师岗20-35K、16薪,同样卡硕士。
同为标注,身价差出十倍。差距来自工作内容早已分化:低薪端是执行,按要求标、按SOP做;高薪端是定义,定标注规则、管质量标准、打通算法和数据的闭环。前者可替代,后者难复制。
一个在标注行业干了六年的老兵说得直白:2016年,标注员是手艺人,熟手吃香;现在,标注员是流水线工人,谁都能干,你就是个账号。
1
从"画框"到替AI拿主意
151份JD能分出四种主要模态。
文本标注占16%,做语料清洗、对话质量评估、多语言翻译校对。
大模型时代这类需求暴增——腾讯在招"大模型数据标注-代码方向",应聘者得看懂代码,判断AI写的程序哪里好、哪里有bug,再用人的判断去纠正它。
图像和视频标注占17%,包含框选、描点、分割、关键点标注,自动驾驶是大户。
某大型车企的"智驾数据标注算法工程师"岗,要求处理4D点云和LiDAR数据,输出时序一致的BBox真值,月薪40-70K、15薪。这早不是"画框",而是要懂传感器原理和三维空间关系。

语音和音频标注在招聘平台占比最低,只有1%,要求却一点不低。
今年6月初,马斯克的xAI面向全球招中文AI导师,训练Grok的中文语音能力,要求母语级中文、熟悉方言和地域口音差异,能做语音转写、发音纠错和音频标注,美国境内时薪35-45美元。同一时期,京东科技在招法语、德语、荷兰语标注,专八是门槛,要能识别发音错误和语调偏差——标准堪比语言学研究。

多模态和综合标注占比最大,达36%,一个岗位同时涉及图文音视频,常见于大模型数据团队。单一技能的可替代性越来越高,全能选手更吃香。
把这151份JD按业务领域看,分布高度集中:
大模型/AIGC语料直接占28%,自动驾驶和医疗影像各占7%。近三成岗位在给大模型"喂饭"。军备竞赛进入白热化,GPU数量不再是唯一筹码,谁的数据更贴近真实人类,谁就多一分胜算。
门槛也跟着被改写。近九成岗位要求本科或大专,表面仍是低门槛工种。但那13个卡硕士的岗位,几乎全扎在大模型评测、算法配套和海外多语言方向——盛大网络"专家级数据标注师"日薪400-800元,要硕士、可远程;阿里训练师20-35K、16薪,非硕士不招;还有金融类标注专家,时薪150-200元。

专业壁垒也在往高了筑。医疗标注明确要临床医学、影像学背景;代码方向要计算机专业,能写能debug;影视美学标注青睐戏剧影视文学、数字媒体艺术;金融标注要金融经济专业;具身智能标注则指向机械和自动化。离数据价值链的上游越近,越不只靠细心和耐心,而是实打实的领域知识。
同一顶帽子底下,众包日薪100与专家月薪6.5万并存,中间地带正被持续挤压。
换个角度,一个岗位能同时容下学医的、写代码的、做设计的、搞金融的,它也正在变成几乎所有专业的出口。
1
大厂定规则,外包拆包
再看招聘池里的公司,大厂和外包商泾渭分明。
302个岗位中能认出的大厂有京东、腾讯、阿里、快手、小红书、百度,但招人最多的不是它们,而是标注外包公司和数据服务商——海天瑞声、云测数据、倍赛科技牢牢占据岗位数前列。
行业逻辑很清晰:大厂定标注规则和评测标准,外包公司拆成细碎SOP再层层分包。
许多标注员觉得工作机械、看不到全貌,原因就在这里——他们站在流水线末端,手里只有一个账号和一套指令。
但核心模型能力,大厂从不轻易交出去。
腾讯亲自招代码方向的大模型标注,快手直接为可灵AI招标注项目管理,小红书招大模型数据标注实习生。模型越关键,数据质量越要握在自己手里。
1
数据标注的过去,现在和未来
数据标准已经成为AI进展背后的人类底座。而要理解它如何发展到今天,未来会走向何方,还是要看一看它一整个历史。
2006—2014,是前标注时代。
那时"数据标注"还不算一个职业。李飞飞在普林斯顿启动ImageNet时,最初以10美元时薪雇本科生逐张标图,可学生很快受不了这种重复劳动,按当时效率估算,标完整个数据集要19年。转机来自Amazon Mechanical Turk:2008到2010年,来自167个国家的近5万名众包工人,完成了超过1400万张图片的标注。在学术圈,做标注被当成"搬砖",李飞飞的基金申请甚至被NIH评审批为"普林斯顿做这个是一种耻辱"。

2012年,AlexNet以15.3%的top-5错误率拿下ILSVRC冠军,领先第二名超过10个百分点,Yann LeCun后来称之为计算机视觉史上无可争议的转折点。整个行业由此意识到:算法差距可以追赶,数据差距才是壁垒。标注这件事,第一次有了变成一门生意的可能。
2014—2017,标注工厂时代。
第一批数据标注公司成立,这些公司选址往往在三线城市,理由很现实:人力便宜、租金便宜、有补贴。"我们就是在吃人口红利,"一位标注公司老板曾毫不避讳地说,"开在北京一个月4000招不到人,开到县城2000就有人抢着干。"
大量农村青年、小镇宝妈、残障人士经培训成了标注员,在产业匮乏的县城,月入3000-5000已是体面收入。但他们大多不知道自己在做什么:"每天就是拉框拉框拉框,这些框拿去干嘛,没人告诉我们。"
2017—2020,分化与升级。
一些大厂开始建起更大规模的数据标注基地,大厂入场带来标准化和分层。标注师群体开始分化:底层仍是基础框选,往上是质检员,再往上是标注规则师——要懂AI基本原理,收入翻好几倍。2020年初,人社部正式将"人工智能训练师"纳入国家职业分类目录,顶级训练师年薪已超过30万。
2020至今,AI反噬。
GPT-3论文(《Language Models are Few-Shot Learners》,NeurIPS 2020)证明了大模型的少样本学习能力,模型不再需要海量人工标注也能完成许多任务。同时自动标注技术成熟、合成数据崛起,行业自动化率从三年前的约30%飙到60%以上。
但RLHF又催生出一类全新需求:给模型输出做偏好排序、评估事实准确性、纠正推理链路——这些活不再叫标注,而叫提示词工程师或AI对齐训练师,技能门槛完全不同。
这种替代已经写进了招聘启事。百度的"自动驾驶数据标注模型算法实习生",工作内容就是开发预标注模型,让AI自己标数据。"自动标注+人工复核"成了主流工作流:AI先粗标一版,人负责质检、纠错、补齐边界案例。基础重复性标注确实在被吞噬,可"这版标得好不好""边界案例怎么处理""这段画面美感够不够",这类要主观判断和领域经验的环节,仍得人来兜底。
2024年的行业数据呈现出一道明确的剪刀差:80%的投资流向自动标注公司,传统劳动密集型标注企业拿到的融资不到5%;基础标注用工在收缩,懂医学、法律、金融的专家级标注师却持续紧缺。
一位AI公司HR对我们说得更直接:"AI训练师的薪资是标注员的3-5倍,但我们几乎不会从标注员里招训练师,宁愿招刚毕业的计算机系学生从头带。"
纯执行型标注员正在退场。留下的,要么有某个领域里难以替代的专业判断,要么有质量管理和项目统筹的能力。
回到开头我们提到的小林,她对我们表示,现在她不只做语音转写。每天要开团队对齐会,争论方言口音的标注边界该划在哪儿;要写质检报告,分析语音模型在哪几个声调上最容易翻车;偶尔被拉去和算法工程师开会,凭听感给语料提改进意见。
这一行变得太快了。去年还在标文本对话,今年改标语音语调,明年也许要标机器人的动作数据。这似乎在给这个工作岗位带来更多的需求,但同时AI的自动标注也在快速抢走这些新出现的需求。数据标注依然会是不可或缺的AI背后的人类底座,只不过接下来它注定把会被替代的人和不会被替代的人分到越来越远的两端。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。