2026-06-23 10:05

大模型为什么写不出好文章?

author_path AI超维度
头图

本文来自微信公众号: AI超维度 ,作者:赛西莉亚


6月13日,智谱发了一个新模型,叫GLM-5.2。


这个模型做了一个很极端的选择:砍掉图片识别,砍掉视频理解,只保留两项能力——编程和长上下文。随后在全球最难的几项编程评测里,GLM-5.2追平了Anthropic的Claude Opus 4.8。Opus 4.8是什么水平?它是目前公认最强的编程AI之一,在各项编程排行榜上长期排名第一。


消息出来一周,智谱港股股价涨了近85%。


这已经不是智谱第一次这么干了。四个月前GLM-5发布,追平的还只是上一代的Opus 4.5,股价五天涨了128%,市值冲过3200亿港元。从2月到6月,智谱总共发了三个版本,每一版的核心卖点都是同一个:编程又进步了。


前几天在X上,有人问马斯克,GLM-5.2已经追平了Opus 4.8,照这个速度中国的编程模型还需要多久能追上最顶尖的那一档?马斯克说大概明年一季度。智谱首席科学家唐杰回了一句:"用不了那么久"。



编程就是一场看谁更聪明的比赛,所有人都在押注。


但有人看到了另一面。AI圈博主葬AI测评了GLM-5.2之后,认为编程确实强,甚至比Opus 4.8略胜一筹。但他在行业群里说了一段话引发不少共鸣:“现在的大模型公司好像只能选一头,要么编程好,像智谱这类;要么对话好,像豆包这类。几乎没有两样都强的。写作做得最好的,可能还是Sonnet 3.5那一代和GPT-4o,后来两家都开始卷编程和Agent,新模型就越来越冗长、越来越结构化。”


十家餐厅,八家同一道菜


他说的这种感受,用过不止一个模型的人大概都有体会。同一个题目交给Claude、ChatGPT、Gemini,三篇文章读起来像一个人写的。语法都没问题,逻辑都说得通,格式都很工整,但就是没有辨识度。


华盛顿大学的一支研究团队做了一个实验,专门来测这个问题。他们找来市面上70多个大模型,给它们出同一批题。题目是开放式的:比如讲个故事,评论某件事,想个创意等那种没有标准答案的问题。然后他们去比较,针对同一个问题,不同模型给出的回答到底有多像。这里说的"像",看的是表达的意思、论证的逻辑、给出的观点是不是趋同。


结果,近八成的情况下,两个来自不同公司的模型给出的回答高度相似,观点接近,论证结构接近,连表达方式都接近。把模型名字遮掉,你很难分出哪段是ChatGPT写的,哪段是Claude写的。


这就好比你走进十家餐厅,近八家端上来的菜是同样的味道。


一篇名为"Artificial Hivemind"(人工蜂巢思维)的论文,讲的就是不同公司、不同技术路线的模型,像是共用了同一个大脑。后来论文获得NeurIPS 2025最佳论文奖。NeurIPS是机器学习领域最顶级的学术会议,一年只评几篇最佳,能拿奖说明整个学术界认为这个发现足够重要。


一边是编程能力一路攀升,一边是写作能力集体趋同。这两件事是不是因果关系?难道编程变强了,写作就变差了?


编程和写作,本来不矛盾


直觉上很容易这么想,但实际的研究结论恰恰相反。


阿里的通义千问团队在开发Qwen2.5-Coder时做过一组对照实验。他们用完全相同的模型架构和训练流程,只改变一个变量:喂给模型的训练数据里,代码、文本和数学各占多少比例。他们测了三种配比——一组全是代码,一组85%代码加15%文本和数学,一组70%代码加20%文本加10%数学。


如果编程和写作真的互相冲突,那代码占比最高的那组应该编程能力最强。但实验结果恰恰相反:70%代码加20%文本加10%数学的那组,编程能力反而是最好的。加进去的文本和数学数据,不但没有拖累编程,反而帮模型把代码写得更好了。


加拿大AI公司Cohere在更大规模上做了类似的实验,结论一样:训练数据里混入代码后,模型的自然语言推理能力提升了8%,文本生成质量提升了将近7%。


道理也不难理解。代码本质上是一种极度结构化的语言。学习代码的过程,教会了模型如何拆解问题、如何组织逻辑、如何追踪长链条的因果关系。这些能力在写文章时同样用得上。反过来,自然语言中丰富的语义和常识知识,也帮助模型更好地理解代码的意图。在模型训练的早期阶段也就是"预训练"阶段,编程和写作互相喂养,根本不是对手。


Claude的Opus系列同时在编程和写作的评测上名列前茅。已经证明了:一个模型可以同时擅长两件事,技术上没有任何障碍。


那写作能力到底是怎么变平庸的?这得从大模型怎么出厂说起。


好文章拿不了高分


大模型的训练分两个阶段。


第一个阶段叫预训练。做法是让模型阅读海量的文本数据——经典文学、新闻报道、代码仓库、学术论文、社交媒体,目标是让模型理解语言本身的规律,具备写出各种文字的基础能力。


第二个阶段叫后训练。这个阶段目标是把模型从"什么都知道一点但不太好用"的语言模型,调教成一个好用的AI助手,让它能回答问题,格式整洁,不说有害的话。


写作能力在第一个阶段积累下来,问题出在后训练阶段。



后训练的核心方法是强化学习:模型生成一段回答,一个专门的"裁判模型"给这段回答打分,分数高的回答会被强化,分数低的会被抑制。


研究发现,这个裁判有一个天然的偏好:它倾向于给更长的回答打更高的分。这个偏好是从人类标注员那里学来的。训练裁判时,研究人员让标注员比较同一个问题的两段回答,选更好的那个。标注员在比较时,更详细的回答往往确实更好,因为它信息更丰富、例子更多。但"详细"和"长"在数据里高度相关,裁判模型分不清一段回答好是因为写得好,还是因为写得长,于是把长度误当成质量信号。


更麻烦的是,这个偏差还会自我放大。研究显示,偏好数据里只要有不到1%的样本倾向于长回答,就足以让裁判染上冗长偏好,后续每一轮强化学习还会把它越放越大。


当裁判分不清"言之有物"和"凑字数",它学到的潜规则只有一条:写长一点,分数就高一点。


但好文章恰恰相反。它要求简洁、精确、不说废话。


也就是说,这套打分体系里,鲁迅估计拿不了高分,拿高分的是把一句话翻来覆去说三遍的人。


裁判的问题不只是偏爱长度。经过强化学习对齐后的模型,输出的多样性也会大幅下降——回答变得更准确了,但也变得更趋同了,像是从同一个模板里刻出来的。这就能解释为什么NeurIPS那篇论文发现,70多个不同模型写出来的东西几乎一模一样。


好的写作还需要一定程度的"不确定性"——一个出人意料的用词,一个让读者停下来想一想的转折。好文章的魅力,很大程度上藏在这些"不确定"的缝隙里。但后训练的方向恰恰相反:它要求模型减少幻觉、保持事实准确、避免争议。这些目标本身合理,但它们的副作用是系统性地挤压了写作所需要的那种弹性空间。2026年初,一项研究直接测量了这个差距——大模型在创意写作中展现出的"不确定性"显著低于专业人类作家。模型的每一句话都在追求正确和安全,没有给意外留下任何空间。


好文章要观点鲜明,但模型被训练成中立。好文章要简洁有力,但裁判奖励冗长。好文章要有辨识度,但训练把所有模型推向同一个"有用、无害、诚实"的均衡点。


所有模型都在讨好同一个裁判,最后自然长成了同一张”脸”。


Nathan Lambert是这个领域最重要的研究者之一,长期研究如何用人类反馈来训练大模型。2025年底他发表了一篇名为"Why AI Writing is Mid"(为什么AI的写作这么平庸)的文章。他的观点是,在整条后训练的流水线上,帮助性、准确性、安全性、编程能力,每一项都有明确的衡量标准和优化方向。但写作风格没有。它夹在这些指标的缝隙里,每一轮优化都被稀释一点。几轮下来,“风格“这种东西就被稀释没了。


分数涨了,股价就涨了


能不能改变?可以。调整裁判打分的权重配比,在强化学习中加入保护多样性的机制,这个方法已经有人在研究了。但到目前为止,没有一家主流的模型公司认真做过这件事。


为什么?


因为编程能力有一整套成熟的考试体系可以衡量,写作没有。


编程考试里用得最多的是SWE-bench:它从真实的开源软件项目里抽取几百个真实的bug,让模型去定位问题,写出修复代码,然后自动评判修复是否正确。模型每改进一版,跑一遍SWE-bench,分数是涨了还是跌了,一目了然。


这个分数背后是真金白银。编程分数高,意味着模型写代码的能力确实在变强,开发者更愿意用,企业更愿意付费,收入就会涨。收入涨了,公司发新闻稿,媒体报道,股价跟着涨。从技术进步到用户付费到资本回报,整条链路都被编程分数串了起来。


智谱四个月发三个版本,每一版都围绕编程能力的提升,每一版发布后股价都跳一个台阶。


写作走不通这条链路。代码跑不跑得通有客观答案,写作好不好就难了——同一篇文章,不同的人会给出不同的评价。写作的榜单也有,但要么不够稳定,要么成本太高,远远达不到SWE-bench那种"跑一遍就出数字"的效率。没有客观的分数,就没有新闻稿,没有媒体报道,股价不会有任何反应。


能被量化的能力会被堆资源堆上去,不能被量化的能力就在资源分配中靠边站。



Lambert在文章里说了一句更扎心的话:没有任何模型提供商准备好为了更好的写作而牺牲编程能力。钱不在写作这里。


模型见过好文章


但钱不在这里,不代表能力不在。


2026年初,一篇叫"Can Good Writing Be Generative"(好的写作能由AI生成吗?)的论文做了一个很少有人尝试过的实验。研究者挑了几位风格鲜明的作家,把他们的全部作品喂给模型,专门训练它像某一个作家那样写作——学那个人的节奏、用词、句式和语气。


然后他们请28位文学领域的专家做盲审。每次给专家看两段文字,一段是作家本人写的,一段是定向训练后的模型写的,不标注来源,让专家选自己觉得更好的那一篇。


定向训练之前,82.7%的专家更喜欢人类写的。


定向训练之后,这个数字翻转了。62%的专家转而更喜欢AI写的。


这个结果让评委们自己也感到不安。他们说不太清楚为什么训练后的模型写出来的东西让他们觉得好。论文记录下了评委们的反应:他们经历了一场关于"什么才算好写作"的信心动摇。


这说明,模型不是没见过好文章,也不是天生写不出好文章。


只是目前没有人愿意花这个力气。因为编程分数高可以让收入涨、股价涨,但写作不能。


能衡量的东西会变好,不能衡量的东西会消失。


GLM-5.2在预训练阶段也读过《红楼梦》。然后智谱砍掉一切,只留编程。股价涨了近85%。


好像没有人在乎它学过曹雪芹怎么写黛玉葬花。

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。