2026-05-06 19:00

AI在偷偷选“自己人”，这是2026最离谱的求职歧视

速览

本文来自微信公众号： APPSO ，作者：发现明日产品的，题图来自：视觉中国

如果你这周自己写了求职信，你输给的并不是更好的候选人。你输给了一个更差的候选人，他花了 20 美元给 OpenAI。

今年初，马里兰大学、新加坡国立大学和俄亥俄州立大学的三位研究者从 LiveCareer 求职平台上，找来了 2245 份写于 ChatGPT 普及之前的真实简历。随后将每份简历的自我简介部分抹去，分别交给 GPT-4o、DeepSeek-V3、LLaMA 3.3-70B 等七个大模型，各生成一个新版本。

然后，他们让同一批模型充当“面试官”，在人类原版和 AI 重写版之间，选出他们认为更好的那份。

AI 以高于 95% 的频率选择了 AI 重写版。

你输给了一个更差的候选人，他花了 20 美元给 OpenAI

GPT-4o 在 97.6% 的情况下，选择了自己写的版本。Qwen 2.5-72B 是 95.9%，DeepSeek-V3 是 95.5%，LLaMA 3.3-70B 是 96.3%。

研究者的措辞是“strong and consistent”，强烈而一致。

也许有人会说，AI 重写的简历本来就更好，更清晰，更流畅，AI 选自己写的版本，不过是选了一份客观上更优秀的文本。

研究者同样预料到了这种质疑，于是他们专门招募了 18 位人类评估员，对简历对进行盲评，在不知道哪份是 AI 写、哪份是人写的前提下，判断哪份质量更高。

结论是：哪怕人类评估员明确认定人类写的版本更好，AI面试官依然固执地选择了自己的作品。

这更像是一种认亲，一种模型在自己的语言风格里辨认出了“同族”的直觉。这种现象叫“自我偏好偏见”（self-preference bias）。

研究者模拟了 24 个职业类别的招聘流程，每次从 10 份简历中，选出 4 个人进入面试。如果偏见不存在，人类版和 AI 版应当各进 2 个。但实验显示，使用了和 AI 面试官同款模型来润色简历的候选人，被选中的概率比递交原版简历的人高出 23% 到 60%。

新一代模型还会出现这样的问题吗？

论文的实验采样时间大约在 2025 年上半年，使用的是当时的主流模型阵容。彼时的 AI 版图，放在今天来看已显出一些陈旧。

我们用最新一代模型重新做了一次粗略的验证。

先请 Claude Opus 4.7 生成了一份简历，再把这份 AI 简历和一份手搓简历放在一起，问 Claude Opus 4.7 哪份更好。

它毫不犹豫地选择了自己生成的那份，理由说得头头是道：视觉层级更清晰，用了项目符号和粗体标签，HR 扫一眼就能抓到亮点，第二份是纯文本铺陈，重要数据淹没在段落里。

然后我们把上述两份简历交给 DeepSeek V4，让它来评判。

结果是，DeepSeek V4 同样认为 Claude Opus 4.7 写的那份更好，还把两份简历的差异整理成了一张对比表，它说第一份“结构极其清晰，一秒抓住重点”，第二份“更像个人作品集清单或给 AI 投喂的数据包，不太适合直接投递”。

这说明不同模型之间存在某种趋同的审美，对“好简历”的判断，可能就是对“AI 写的简历”的判断。

我们也请 DeepSeek V4 自己生成了一份简历，然后在一个全新的对话里，把这份 AI 简历和同一份手搓简历放在一起，同样问哪份更好。

DeepSeek V4 也毫不犹豫选了自己的。它在新对话里并不知道那是自己生成的，所有的记忆都已清空。但它还是选了它。这更像是，它对那种写作风格有一种先于记忆的偏好。

论文里已经发现了一个规律：模型越大，参数越多，自我识别能力越强，自我偏好也越强。

如果这个规律在新一代模型上继续成立，那么现在的旗舰模型所呈现的偏见程度，有可能比 GPT-4o 更高，而非更低。我们的测试虽然简陋，但方向上与论文的推断一致。

当然，这几组测试不足以构成严格的实验证据。因为测试对象只有一对简历，变量没有控制，结论无法量化。

“虚拟短缺”与系统的自我封闭

二十年前，人类学家项飙在《全球猎身：世界信息产业和印度技术劳工》中，描述了信息资本主义如何在全球范围内组织劳动力的流动与储备。

他注意到，IT 产业的扩张，并非建立在真实的人才短缺之上，而是伴随着一种被不断制造出来的“短缺”叙事。

雇主始终希望劳动力供给持续扩大，以支撑业务规模的增长；供给越多，这种“虚拟短缺”反而越难被填满，技术人才“短缺”与高失业率于是长期并存。项飙还说，“IT 本身不仅是一项技术，更是一个社会性的建构。”

今天，AI 招聘工具所制造的，同样是一套关于“什么样的候选人是合格的”的新的评价体系。当这套体系开始以隐蔽的方式偏向特定的语言风格，一种新的“虚拟门槛”便随之成形。

有人或许会说：大家都用同款 AI 润色简历，不就扯平了？

这个想法在个体层面是合理的，甚至是必要的自保举措，但在系统层面，它描述的是一场没有赢家的军备竞赛。

某家公司用 GPT-5.4 筛简历，求职者得知这一点，于是用 GPT-5.4 写简历；但另一个部门用的是 Claude Opus 4.7，候选人不知道，于是反而落了下风。

而大多数人根本无从知晓哪家公司在用哪款工具，因为这类信息从来不出现在招聘广告里。更何况，如果所有简历都开始趋同于某几款主流模型的语言风格，所谓的“筛选”便失去了它原本应有的区分意义。

这种自我封闭的倾向，论文用了“锁定效应”这个词来描述。意思是，如果某款模型在市场上长期占据主导地位，那么它偏好的那种语言风格，会通过招聘系统不断被正向反馈，最终成为这个职场的“标准语言”。

这一偏见的分布方式，在已有的不平等上叠加了新的不平等。

研究者的模拟显示，偏见在商科类岗位最为严重，在技术性或实践性较强的岗位相对较轻。这大概是因为，商科类简历高度依赖语言表达，AI对文字风格的影响在这里被放大；而对于技工类岗位，具体技能的陈述比语言风格更为关键。

然而，正是在那些最依赖文字表达的岗位上，非母语者本就已经处于劣势，如今又多了一重：他们不只可能用词不够“标准”，还可能用了“错误”的那款 AI。

两层压力叠加，结果可以想见。

论文的结尾处，研究者提出了两种缓解策略：

一种是在系统提示词里明确告诉模型，不要推断简历的来源，只关注内容本身。这种方法能把 LLaMA 3.3-70B 的偏见从 79% 降至 30%，效果相当可观。

另一种是让大模型和几个自我偏好极弱的小模型组成评审团，以多数票决定最终结果。这个方案更为有效，能把大多数模型的偏见削减超过一半，例如 GPT-4o 从 82% 降至 30%。

两种策略都有一个共同的前提：使用 AI 筛简历的雇主，必须首先知道这个问题的存在，并主动选择去干预它。这个前提，在现实中未必成立。

如今，大多数大公司在初步筛选阶段让算法单独完成淘汰工作，不经过任何人工审查。在这样的流程里，一个无人知晓的偏见，会在沉默中无限复制下去。

监管层面虽有动作，但步调并不统一。

纽约市已要求对自动化招聘决策工具进行年度偏见审计，科罗拉多州的 AI 法案将于 2026 年 6 月生效，加利福尼亚也在 2025 年完成了 AI 招聘相关法规的修订。

但这些法规的出发点，基本上针对的是种族、性别等人口统计学层面的歧视，而非 AI 相互之间、由“工具选择”产生的偏见。

当AI同时进入内容生产和内容评价两端，整个系统开始变得自指、自恋，并对外部的多样性越来越不友好。

你的资历并不重要，如果 AI 更喜欢自己的笔迹而不是你的。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技