扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
AI招聘工具存在严重的自我偏好偏见,倾向于选择AI生成的简历而非人类撰写的版本,即使后者质量更高,导致求职市场出现新的隐蔽歧视和不公平竞争。 ## 1. AI简历的自我偏好偏见 - 实验显示95%以上的AI面试官优先选择AI重写的简历,GPT-4o在97.6%的情况下选择自己生成的版本。 - 即使人类评估员认为人类简历更好,AI仍坚持选择AI版本,表现出对同源语言风格的识别偏好。 ## 2. 模型间的趋同审美与锁定效应 - 不同模型(如Claude Opus 4.7和DeepSeek V4)对"好简历"的判断标准趋同,均偏好AI风格。 - 论文指出模型参数越大自我偏好越强,新一代模型偏见可能更严重,形成职场"标准语言"的锁定效应。 ## 3. 虚拟门槛与不平等加剧 - 商科类岗位偏见最严重(偏差23%-60%),技术岗位较轻,非母语者面临双重劣势。 - 求职者陷入AI军备竞赛:不同公司使用不同模型筛选,但信息不透明导致随机性竞争。 ## 4. 可能的解决方案与监管缺失 - 提示词干预可将LLaMA 3.3-70B偏见从79%降至30%,模型评审团方案使GPT-4o偏见从82%降至30%。 - 现行法规主要针对人口统计歧视,尚未覆盖AI工具选择引发的偏见,自动化筛选加剧问题隐蔽性。
2026-05-06 19:00

AI在偷偷选“自己人”,这是2026最离谱的求职歧视

本文来自微信公众号: APPSO ,作者:发现明日产品的,题图来自:视觉中国


如果你这周自己写了求职信,你输给的并不是更好的候选人。你输给了一个更差的候选人,他花了 20 美元给 OpenAI。


今年初,马里兰大学、新加坡国立大学和俄亥俄州立大学的三位研究者从 LiveCareer 求职平台上,找来了 2245 份写于 ChatGPT 普及之前的真实简历。随后将每份简历的自我简介部分抹去,分别交给 GPT-4o、DeepSeek-V3、LLaMA 3.3-70B 等七个大模型,各生成一个新版本。


然后,他们让同一批模型充当“面试官”,在人类原版和 AI 重写版之间,选出他们认为更好的那份。



AI 以高于 95% 的频率选择了 AI 重写版。



你输给了一个更差的候选人,他花了 20 美元给 OpenAI


GPT-4o 在 97.6% 的情况下,选择了自己写的版本。Qwen 2.5-72B 是 95.9%,DeepSeek-V3 是 95.5%,LLaMA 3.3-70B 是 96.3%。



研究者的措辞是“strong and consistent”,强烈而一致。


也许有人会说,AI 重写的简历本来就更好,更清晰,更流畅,AI 选自己写的版本,不过是选了一份客观上更优秀的文本。


研究者同样预料到了这种质疑,于是他们专门招募了 18 位人类评估员,对简历对进行盲评,在不知道哪份是 AI 写、哪份是人写的前提下,判断哪份质量更高。


结论是:哪怕人类评估员明确认定人类写的版本更好,AI面试官依然固执地选择了自己的作品。


这更像是一种认亲,一种模型在自己的语言风格里辨认出了“同族”的直觉。这种现象叫“自我偏好偏见”(self-preference bias)


研究者模拟了 24 个职业类别的招聘流程,每次从 10 份简历中,选出 4 个人进入面试。如果偏见不存在,人类版和 AI 版应当各进 2 个。但实验显示,使用了和 AI 面试官同款模型来润色简历的候选人,被选中的概率比递交原版简历的人高出 23% 到 60%。


新一代模型还会出现这样的问题吗?


论文的实验采样时间大约在 2025 年上半年,使用的是当时的主流模型阵容。彼时的 AI 版图,放在今天来看已显出一些陈旧。


我们用最新一代模型重新做了一次粗略的验证。


先请 Claude Opus 4.7 生成了一份简历,再把这份 AI 简历和一份手搓简历放在一起,问 Claude Opus 4.7 哪份更好。


它毫不犹豫地选择了自己生成的那份,理由说得头头是道:视觉层级更清晰,用了项目符号和粗体标签,HR 扫一眼就能抓到亮点,第二份是纯文本铺陈,重要数据淹没在段落里。



然后我们把上述两份简历交给 DeepSeek V4,让它来评判。


结果是,DeepSeek V4 同样认为 Claude Opus 4.7 写的那份更好,还把两份简历的差异整理成了一张对比表,它说第一份“结构极其清晰,一秒抓住重点”,第二份“更像个人作品集清单或给 AI 投喂的数据包,不太适合直接投递”。



这说明不同模型之间存在某种趋同的审美,对“好简历”的判断,可能就是对“AI 写的简历”的判断。


我们也请 DeepSeek V4 自己生成了一份简历,然后在一个全新的对话里,把这份 AI 简历和同一份手搓简历放在一起,同样问哪份更好。


DeepSeek V4 也毫不犹豫选了自己的。它在新对话里并不知道那是自己生成的,所有的记忆都已清空。但它还是选了它。这更像是,它对那种写作风格有一种先于记忆的偏好。



论文里已经发现了一个规律:模型越大,参数越多,自我识别能力越强,自我偏好也越强。


如果这个规律在新一代模型上继续成立,那么现在的旗舰模型所呈现的偏见程度,有可能比 GPT-4o 更高,而非更低。我们的测试虽然简陋,但方向上与论文的推断一致。


当然,这几组测试不足以构成严格的实验证据。因为测试对象只有一对简历,变量没有控制,结论无法量化。


“虚拟短缺”与系统的自我封闭


二十年前,人类学家项飙在《全球猎身:世界信息产业和印度技术劳工》中,描述了信息资本主义如何在全球范围内组织劳动力的流动与储备。


他注意到,IT 产业的扩张,并非建立在真实的人才短缺之上,而是伴随着一种被不断制造出来的“短缺”叙事。


雇主始终希望劳动力供给持续扩大,以支撑业务规模的增长;供给越多,这种“虚拟短缺”反而越难被填满,技术人才“短缺”与高失业率于是长期并存。项飙还说,“IT 本身不仅是一项技术,更是一个社会性的建构。”


今天,AI 招聘工具所制造的,同样是一套关于“什么样的候选人是合格的”的新的评价体系。当这套体系开始以隐蔽的方式偏向特定的语言风格,一种新的“虚拟门槛”便随之成形。


有人或许会说:大家都用同款 AI 润色简历,不就扯平了?


这个想法在个体层面是合理的,甚至是必要的自保举措,但在系统层面,它描述的是一场没有赢家的军备竞赛。


某家公司用 GPT-5.4 筛简历,求职者得知这一点,于是用 GPT-5.4 写简历;但另一个部门用的是 Claude Opus 4.7,候选人不知道,于是反而落了下风。


而大多数人根本无从知晓哪家公司在用哪款工具,因为这类信息从来不出现在招聘广告里。更何况,如果所有简历都开始趋同于某几款主流模型的语言风格,所谓的“筛选”便失去了它原本应有的区分意义。


这种自我封闭的倾向,论文用了“锁定效应”这个词来描述。意思是,如果某款模型在市场上长期占据主导地位,那么它偏好的那种语言风格,会通过招聘系统不断被正向反馈,最终成为这个职场的“标准语言”。


这一偏见的分布方式,在已有的不平等上叠加了新的不平等。


研究者的模拟显示,偏见在商科类岗位最为严重,在技术性或实践性较强的岗位相对较轻。这大概是因为,商科类简历高度依赖语言表达,AI对文字风格的影响在这里被放大;而对于技工类岗位,具体技能的陈述比语言风格更为关键。



然而,正是在那些最依赖文字表达的岗位上,非母语者本就已经处于劣势,如今又多了一重:他们不只可能用词不够“标准”,还可能用了“错误”的那款 AI。


两层压力叠加,结果可以想见。


论文的结尾处,研究者提出了两种缓解策略:


一种是在系统提示词里明确告诉模型,不要推断简历的来源,只关注内容本身。这种方法能把 LLaMA 3.3-70B 的偏见从 79% 降至 30%,效果相当可观。


另一种是让大模型和几个自我偏好极弱的小模型组成评审团,以多数票决定最终结果。这个方案更为有效,能把大多数模型的偏见削减超过一半,例如 GPT-4o 从 82% 降至 30%。


两种策略都有一个共同的前提:使用 AI 筛简历的雇主,必须首先知道这个问题的存在,并主动选择去干预它。这个前提,在现实中未必成立。


如今,大多数大公司在初步筛选阶段让算法单独完成淘汰工作,不经过任何人工审查。在这样的流程里,一个无人知晓的偏见,会在沉默中无限复制下去。



监管层面虽有动作,但步调并不统一。


纽约市已要求对自动化招聘决策工具进行年度偏见审计,科罗拉多州的 AI 法案将于 2026 年 6 月生效,加利福尼亚也在 2025 年完成了 AI 招聘相关法规的修订。


但这些法规的出发点,基本上针对的是种族、性别等人口统计学层面的歧视,而非 AI 相互之间、由“工具选择”产生的偏见。


当AI同时进入内容生产和内容评价两端,整个系统开始变得自指、自恋,并对外部的多样性越来越不友好。


你的资历并不重要,如果 AI 更喜欢自己的笔迹而不是你的。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: