2026-06-23 10:05

大模型为什么写不出好文章？

本文来自微信公众号： AI超维度，作者：赛西莉亚

6月13日，智谱发了一个新模型，叫GLM-5.2。

这个模型做了一个很极端的选择：砍掉图片识别，砍掉视频理解，只保留两项能力——编程和长上下文。随后在全球最难的几项编程评测里，GLM-5.2追平了Anthropic的Claude Opus 4.8。Opus 4.8是什么水平？它是目前公认最强的编程AI之一，在各项编程排行榜上长期排名第一。

消息出来一周，智谱港股股价涨了近85%。

这已经不是智谱第一次这么干了。四个月前GLM-5发布，追平的还只是上一代的Opus 4.5，股价五天涨了128%，市值冲过3200亿港元。从2月到6月，智谱总共发了三个版本，每一版的核心卖点都是同一个：编程又进步了。

前几天在X上，有人问马斯克，GLM-5.2已经追平了Opus 4.8，照这个速度中国的编程模型还需要多久能追上最顶尖的那一档？马斯克说大概明年一季度。智谱首席科学家唐杰回了一句："用不了那么久"。

编程就是一场看谁更聪明的比赛，所有人都在押注。

但有人看到了另一面。AI圈博主葬AI测评了GLM-5.2之后，认为编程确实强，甚至比Opus 4.8略胜一筹。但他在行业群里说了一段话引发不少共鸣：“现在的大模型公司好像只能选一头，要么编程好，像智谱这类；要么对话好，像豆包这类。几乎没有两样都强的。写作做得最好的，可能还是Sonnet 3.5那一代和GPT-4o，后来两家都开始卷编程和Agent，新模型就越来越冗长、越来越结构化。”

十家餐厅，八家同一道菜

他说的这种感受，用过不止一个模型的人大概都有体会。同一个题目交给Claude、ChatGPT、Gemini，三篇文章读起来像一个人写的。语法都没问题，逻辑都说得通，格式都很工整，但就是没有辨识度。

华盛顿大学的一支研究团队做了一个实验，专门来测这个问题。他们找来市面上70多个大模型，给它们出同一批题。题目是开放式的：比如讲个故事，评论某件事，想个创意等那种没有标准答案的问题。然后他们去比较，针对同一个问题，不同模型给出的回答到底有多像。这里说的"像"，看的是表达的意思、论证的逻辑、给出的观点是不是趋同。

结果，近八成的情况下，两个来自不同公司的模型给出的回答高度相似，观点接近，论证结构接近，连表达方式都接近。把模型名字遮掉，你很难分出哪段是ChatGPT写的，哪段是Claude写的。

这就好比你走进十家餐厅，近八家端上来的菜是同样的味道。

一篇名为"Artificial Hivemind"（人工蜂巢思维）的论文，讲的就是不同公司、不同技术路线的模型，像是共用了同一个大脑。后来论文获得NeurIPS 2025最佳论文奖。NeurIPS是机器学习领域最顶级的学术会议，一年只评几篇最佳，能拿奖说明整个学术界认为这个发现足够重要。

一边是编程能力一路攀升，一边是写作能力集体趋同。这两件事是不是因果关系？难道编程变强了，写作就变差了？

编程和写作，本来不矛盾

直觉上很容易这么想，但实际的研究结论恰恰相反。

阿里的通义千问团队在开发Qwen2.5-Coder时做过一组对照实验。他们用完全相同的模型架构和训练流程，只改变一个变量：喂给模型的训练数据里，代码、文本和数学各占多少比例。他们测了三种配比——一组全是代码，一组85%代码加15%文本和数学，一组70%代码加20%文本加10%数学。

如果编程和写作真的互相冲突，那代码占比最高的那组应该编程能力最强。但实验结果恰恰相反：70%代码加20%文本加10%数学的那组，编程能力反而是最好的。加进去的文本和数学数据，不但没有拖累编程，反而帮模型把代码写得更好了。

加拿大AI公司Cohere在更大规模上做了类似的实验，结论一样：训练数据里混入代码后，模型的自然语言推理能力提升了8%，文本生成质量提升了将近7%。

道理也不难理解。代码本质上是一种极度结构化的语言。学习代码的过程，教会了模型如何拆解问题、如何组织逻辑、如何追踪长链条的因果关系。这些能力在写文章时同样用得上。反过来，自然语言中丰富的语义和常识知识，也帮助模型更好地理解代码的意图。在模型训练的早期阶段也就是"预训练"阶段，编程和写作互相喂养，根本不是对手。

Claude的Opus系列同时在编程和写作的评测上名列前茅。已经证明了：一个模型可以同时擅长两件事，技术上没有任何障碍。

那写作能力到底是怎么变平庸的？这得从大模型怎么出厂说起。

好文章拿不了高分

大模型的训练分两个阶段。

第一个阶段叫预训练。做法是让模型阅读海量的文本数据——经典文学、新闻报道、代码仓库、学术论文、社交媒体，目标是让模型理解语言本身的规律，具备写出各种文字的基础能力。

第二个阶段叫后训练。这个阶段目标是把模型从"什么都知道一点但不太好用"的语言模型，调教成一个好用的AI助手，让它能回答问题，格式整洁，不说有害的话。

写作能力在第一个阶段积累下来，问题出在后训练阶段。

后训练的核心方法是强化学习：模型生成一段回答，一个专门的"裁判模型"给这段回答打分，分数高的回答会被强化，分数低的会被抑制。

研究发现，这个裁判有一个天然的偏好：它倾向于给更长的回答打更高的分。这个偏好是从人类标注员那里学来的。训练裁判时，研究人员让标注员比较同一个问题的两段回答，选更好的那个。标注员在比较时，更详细的回答往往确实更好，因为它信息更丰富、例子更多。但"详细"和"长"在数据里高度相关，裁判模型分不清一段回答好是因为写得好，还是因为写得长，于是把长度误当成质量信号。

更麻烦的是，这个偏差还会自我放大。研究显示，偏好数据里只要有不到1%的样本倾向于长回答，就足以让裁判染上冗长偏好，后续每一轮强化学习还会把它越放越大。

当裁判分不清"言之有物"和"凑字数"，它学到的潜规则只有一条：写长一点，分数就高一点。

但好文章恰恰相反。它要求简洁、精确、不说废话。

也就是说，这套打分体系里，鲁迅估计拿不了高分，拿高分的是把一句话翻来覆去说三遍的人。

裁判的问题不只是偏爱长度。经过强化学习对齐后的模型，输出的多样性也会大幅下降——回答变得更准确了，但也变得更趋同了，像是从同一个模板里刻出来的。这就能解释为什么NeurIPS那篇论文发现，70多个不同模型写出来的东西几乎一模一样。

好的写作还需要一定程度的"不确定性"——一个出人意料的用词，一个让读者停下来想一想的转折。好文章的魅力，很大程度上藏在这些"不确定"的缝隙里。但后训练的方向恰恰相反：它要求模型减少幻觉、保持事实准确、避免争议。这些目标本身合理，但它们的副作用是系统性地挤压了写作所需要的那种弹性空间。2026年初，一项研究直接测量了这个差距——大模型在创意写作中展现出的"不确定性"显著低于专业人类作家。模型的每一句话都在追求正确和安全，没有给意外留下任何空间。

好文章要观点鲜明，但模型被训练成中立。好文章要简洁有力，但裁判奖励冗长。好文章要有辨识度，但训练把所有模型推向同一个"有用、无害、诚实"的均衡点。

所有模型都在讨好同一个裁判，最后自然长成了同一张”脸”。

Nathan Lambert是这个领域最重要的研究者之一，长期研究如何用人类反馈来训练大模型。2025年底他发表了一篇名为"Why AI Writing is Mid"（为什么AI的写作这么平庸）的文章。他的观点是，在整条后训练的流水线上，帮助性、准确性、安全性、编程能力，每一项都有明确的衡量标准和优化方向。但写作风格没有。它夹在这些指标的缝隙里，每一轮优化都被稀释一点。几轮下来，“风格“这种东西就被稀释没了。

分数涨了，股价就涨了

能不能改变？可以。调整裁判打分的权重配比，在强化学习中加入保护多样性的机制，这个方法已经有人在研究了。但到目前为止，没有一家主流的模型公司认真做过这件事。

为什么？

因为编程能力有一整套成熟的考试体系可以衡量，写作没有。

编程考试里用得最多的是SWE-bench：它从真实的开源软件项目里抽取几百个真实的bug，让模型去定位问题，写出修复代码，然后自动评判修复是否正确。模型每改进一版，跑一遍SWE-bench，分数是涨了还是跌了，一目了然。

这个分数背后是真金白银。编程分数高，意味着模型写代码的能力确实在变强，开发者更愿意用，企业更愿意付费，收入就会涨。收入涨了，公司发新闻稿，媒体报道，股价跟着涨。从技术进步到用户付费到资本回报，整条链路都被编程分数串了起来。

智谱四个月发三个版本，每一版都围绕编程能力的提升，每一版发布后股价都跳一个台阶。

写作走不通这条链路。代码跑不跑得通有客观答案，写作好不好就难了——同一篇文章，不同的人会给出不同的评价。写作的榜单也有，但要么不够稳定，要么成本太高，远远达不到SWE-bench那种"跑一遍就出数字"的效率。没有客观的分数，就没有新闻稿，没有媒体报道，股价不会有任何反应。

能被量化的能力会被堆资源堆上去，不能被量化的能力就在资源分配中靠边站。

Lambert在文章里说了一句更扎心的话：没有任何模型提供商准备好为了更好的写作而牺牲编程能力。钱不在写作这里。

模型见过好文章

但钱不在这里，不代表能力不在。

2026年初，一篇叫"Can Good Writing Be Generative"（好的写作能由AI生成吗？）的论文做了一个很少有人尝试过的实验。研究者挑了几位风格鲜明的作家，把他们的全部作品喂给模型，专门训练它像某一个作家那样写作——学那个人的节奏、用词、句式和语气。

然后他们请28位文学领域的专家做盲审。每次给专家看两段文字，一段是作家本人写的，一段是定向训练后的模型写的，不标注来源，让专家选自己觉得更好的那一篇。

定向训练之前，82.7%的专家更喜欢人类写的。

定向训练之后，这个数字翻转了。62%的专家转而更喜欢AI写的。

这个结果让评委们自己也感到不安。他们说不太清楚为什么训练后的模型写出来的东西让他们觉得好。论文记录下了评委们的反应：他们经历了一场关于"什么才算好写作"的信心动摇。

这说明，模型不是没见过好文章，也不是天生写不出好文章。

只是目前没有人愿意花这个力气。因为编程分数高可以让收入涨、股价涨，但写作不能。

能衡量的东西会变好，不能衡量的东西会消失。

GLM-5.2在预训练阶段也读过《红楼梦》。然后智谱砍掉一切，只留编程。股价涨了近85%。

好像没有人在乎它学过曹雪芹怎么写黛玉葬花。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI创投日报

频道：前沿科技