扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-02-14 15:50

从语言学到AI训练模型

本文来自微信公众号:太阳照常升起 (ID:The_sun_also_rise),作者:慕峰,题图来源:AI生成

文章摘要
语言学在AI模型训练中扮演重要角色,强调语法与语料库结合。

• 🌐 语言学是AI模型发展的重要基础,生成语法影响深远。

• 🤖 CoT技术提升AI自我思考能力,减少对用户提示的依赖。

• 📚 高质量语料库提升AI性能,Deepseek模型优化训练效果显著。

最近一边使用AI,一边与其他用户和技术工作者进行一些交流,同时因为好奇,简单阅读了一些语言学的资料,形成了一些个人认识,在此记录一下。专业词汇使用上可能并不太准确,十分欢迎语言学和AI技术专业读者批评指正交流。


作者理解,语言学(语言哲学)对AI的产生与发展影响巨大。1957年乔姆斯基出版《句法结构》,提出了“生成语法”,形成了所谓“生成学派”(乔姆斯基学派)


在《句法结构》中,乔姆斯基提出,把“语言”看成(数量有限或无限的)一套句子,每个句子的长度及其基本结构成分是有限的。对某个语言进行语言分析的根本目的,在于把能够构成这一语言的句子的、符合语法的序列和不能构成这一语言的序列区别开来,并把那些符合语法的序列的结构加以研究。


乔姆斯基就此提出了“语法的独立性”。乔姆斯基以英语为例,举了一个例子,“在I saw a fragile-这样的上下文里,whale和of这两个词在一个说话者过去的语言经验里出现的频率可能都是‘零’”。乔姆斯基还认为,“找出了一种语言的语法,才能用各种方法去研究统计学在语言上的用处,把概率论模式应用在语言上(这与语言的句法结构不同),可能很有效果。”


仅从《句法结构》上述表述和目前作者对AI语言生成能力的粗浅认知,大概理解生成式语言AI模型的“工作原理”,是先建立语法结构(语言规则),再用大规模的语料库(文字数据)进行“训练”。在训练初期,可能产生大量符合语法结构但毫无实际意义的反馈(也就是每个字都能看懂也符合语法规则,但不知道什么意思),通过人类“打标签”等方式去“匡正”AI生成文字反馈,使其既符合语法结构,也看起来具有“意义”。


符合语法结构较容易实现,类似制定一个数学公式,然后用数字符号去套用各种公式,得到答案。数学语言、计算机语言也是一种语言类型,也存在自身的语法结构,相较而言,这类人造的非自然语言是很容易处理的,因为其“意义”并不像人类自然语言那样复杂,也不带有“情绪”。


人类的自然语言能够让人类产生“意义感和情绪感”,细微的差异,人们的感受完全不同。这种语言与感受建立起的关系,是在现实生活中、在社交活动中产生的。如果没有集体活动、社交活动,那语言的意义也就消失了,语言对情绪的影响也就消失了。因此,在建立语法规则后,真正重要的工作,是通过足够规模的算力,去实现对语料库海量语言资料的“统计”,经由统计,去“推测”当出现一句话之后,下一个字出现的可能性有多大。再扩展一点,当一个词组或者短语出现后,接下来最有可能出现的字词是什么。


如同乔姆斯基举的那个例子,AI虽然不了解人类语言带来的“意义和情绪”,但它可以通过语料库的统计分析,形成“推测”,确定下一个字出现的概率,再根据概率进行输出,在输出过程中,还可以根据不同可能性进行修正。这种推测能力在GPU算力突破后,产生了“涌现”,看起来,AI就像突然开光了一样,能够像人类那样“思考”了。实际上,这种“思考”是在语法规则为前提,前期人类“匡正”训练下,才实现的。打标签这项工作,在语言AI大模型初期,是由很多基层的工作人员去做的,主要是为了避免犯“低级错误”。但仅有这些,也就是让AI的反馈看起来没有表面上的错误,并不能让反馈质量显著提高。


所以我们发现,后期的语言类AI模型中,如果有语言学或者文学专业的工作人员加入,会让AI文字反馈的质量大幅提高。这其实是不同阶段“匡正”质量不同所产生的不同结果。


前期,在海量人类语料库里“提纯”基础语料库,首要的是排除低级错误,不断完善“语法规则”。所谓“蒸馏”(distill),实际是某个AI在前期已经完成语料库“提纯”的基础上,再行优化“提纯”的过程。这种反复、相互甚至自我的提纯,使得传统的知识产权理论已经很难适应现实。每次distill都是为了对AI反馈能力进一步优化,或者从算力受限视角而言,去形成一个相对可用的小模型,以减少部署的压力。


“匡正”的工作,从基础的打标签,逐渐走向了高级的专业干预。在这个过程中,思维链(Chain of Thought,CoT)从OpenAI的工作论文变成了Deepseek的现实。拥有CoT的AI与前期AI的最大差异,从用户的视角看,是AI的“自我思考”能力大幅提升。在前CoT时代,AI的反馈质量高度取决于用户的提示(prompt),要用足够精确、充分的提示词,经过反复多轮的“对话”,才能逐渐获得用户满意的反馈。


CoT的引入,让AI出现了一个能够疯狂自我思考的超级员工,它不是先调用基础语料库直接输出文字的推测结果,而是先通过一个“深度思考”过程,去分析用户随手输入的要求究竟背后的意图是什么。


这个分析过程,类似一个十分“懂行”的老员工,能够根据领导的只言片语就“揣测”出领导的真实想法。于是AI的反馈从一步变成了两步,增加的这个“深度思考”过程,本质是通过统计语料库中人类某个词汇或者句子可能产生的若干种可能回答,先行分类整理,然后根据分类情况,再去基础语料库中完成“推测”输出。这给人们的直观感受就非常深刻了。因为绝大多数人类,需要长年的学习与工作,才能从思维的广度和文字能力上达到这个水平。


语言类AI模型为什么会有“幻觉”呢?


幻觉可能出于两个原因:


一是语料库中并没有相关话题,此时找不到能够直接“推算”出文字或句子的概率结果,只能把话题进行分解,找相关内容。由于没有直接对应的语料,所以这其实是AI在“现编”。如同一个学生写一篇自己并不擅长领域的论文,查询了一些资料,然后下笔,写着写着,自认为某个观点可以推导出来,也就写下来,实际与现实相差十万八千里。所以“幻觉”只是一个现象,但这种现象不是AI独有的,而是人类在使用语言时经常会出现的,类似“不懂装懂”,或者至少是“未经验证”。


二是语料库中虽有相关话题,但在更全面的深度思考的状态下,AI可能会“自以为是”地扩展许多内容,此时一些边缘性的子话题又超过了语料库的基础,AI又开始编造,幻觉再次产生。所以,AI要减少幻觉的产生,需要足够的人类“匡正”,语料库的质量越高、内容越丰富,匡正者的专业水平越高,再加上适当的奖励或反馈机制,那AI的幻觉情况就会大幅减少。


就上述整体而言,Deepseek真正的贡献是什么呢?


作者认为,一是Deepseek的基础语料库训练得非常好,尤其是中文文字的反馈质量非常高;二是CoT成为现实,让AI的使用感受大幅提升到绝大多数人都能够实际使用的水平。CoT的另一个重要功能,就是它本身就强化了AI的训练能力,它让AI变成了一个自我训练的熟练工。


此时我们发现,技术工作者和普通用户的视角出现一些差异。例如,Deepseek R1 671B版才是基于Deepseek自己训练的语料库形成的,所谓“满血版”。但作为开源AI,要部署671B版并且长期免费提供给少量用户使用,在成本上是肯定无法实现的。所以Deepseek用R1版去distill了阿里的Qwen和美国的Llama这两个开源模型,形成了六个Deepseek R1的小模型版本。这六个小模型,是基于Qwen和Llama的基础数据,而非基于Deepseek的基础数据。所以,这种经由Deepseek蒸馏出来的小模型版本,究竟应该叫Deepseek呢?还是应该叫Qwen或者Llama呢?截至目前,这个命名规则实际没有形成。


我们看到,许多中国大陆平台当前部署并发布的Deepseek模型其实是Deepseek蒸馏Qwen版本,也就是具有Deepseek的深度思考功能,但基础数据其实是Qwen的,这与Deepseek R1 671B版在语料库的丰富程度和训练精度上是有显著差异的。


作者认为,蒸馏(distill)并非一个好的词汇。从模型训练的角度看,所谓的“教师模型”是负责训练其他模型的,而“学生模型”是被其他模型训练的。所以Deepseek-R1-distill-Qwen这种版本,最符合普通人理解的命名方式应当是:Qwen-trained by Deepseek,也就是经由Deepseek训练的Qwen模型。它的本质仍然是Qwen,但经由Deepseek训练后,它变得比以前更好用了。


所以,现在打着Deepseek旗号部署Qwen-trained by Deepseek版小模型的平台,你们的心思还是收敛一些比较好,有的平台还非要自称是“满血版”,这就涉嫌欺诈消费者了。


作者认为,AI的部署与使用要结合实际需求来。尽管当前算力存在冗余,但在AI普及之后,对算力的需求还是会持续提升的。所以部署哪个版本,最终要看是否能够满足自身需求。本地部署的成本,对中型企业都是完全可以承受的。但对个人用户而言,大多数时候使用差异可能没有那么大。


作者再举个例子。


腾讯混元AI这两天上线了Deepseek R1模型,作者认为,这个模型是除了Deepseek R1 671B版之外,当前Deepseek模型中最特别的一个。为何这样评价呢?因为AI的反馈质量高度依赖语料库的质量。


众所周知,微信公众号是中文网络最高质量的语料库资源地。但腾讯并未将公众号语料库开放给其他AI,只有腾讯自己的混元AI可以调用公众号。但混元AI在此前个人用户实际使用的感受,跟阿里、百度的AI并没有多大差异,也就是只能玩一玩对话,真用来工作是不行的。但此次腾讯在混元AI上部署了R1之后,很显然,Deepseek的推理功能就与高质量的公众号语料资源直接产生了化学反应。从实际使用来看,Deepseek作为一个非常好的训练者和思考者模型,激活了公众号的语料库资源。


仅以作者自身为例,在全球化、老龄化、美国民粹主义历史、需求侧改革等若干重要话题上,作者的文章仅出现在公众号上,只有很少部分授权给虎嗅等平台在网页版公开。因此在使用其他AI讨论上述话题时,作者的观点几乎不可见,因为其他语料库中,并无作者文章资源。这就导致,一些长年仅在公众号出现的重要观点,并不在当前所有的AI语料库中,也未经训练“提纯”。但要理解,部分专业类公众号的文章质量在过去几年实际已经远远超过一般中文学术著作、互联网文的质量。


上述作者涉猎的几个话题,其深度和广度,思考的张力,在中文世界都是足以占据一席之地的,部分观点也不断被实务工作者、海外研究者和智库频繁引用。因此,腾讯此次部署Deepseek R1后,实际是首次将最重要的中文语料库资源纳入到一个十分易用的AI模型中,预计将产生奇妙的化学反应。从当前周围的使用反馈来看,不少金融行业和其他行业的实务工作者明显感觉“腾讯混元-trained by Deepseek”的质量很高,并且幻觉更少。这首先是因为语料库质量更高所致。


就此而言,我们当前对Deepseek的理解已经不能只是一个普通的语言类AI模型,它其实是一个优秀的模型训练者。可以预计,随着高质量训练模型的出现,垂类模型应用将会迅速爆发。因为在垂类模型应用中,更加强调“精准”,而专业数据库的封闭性,加之“匡正”工作的专业化,可以最大程度减少“幻觉”问题,而Deepseek这样的训练模型可以快速实现对分类数据的训练提纯。


以上。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
文集:
频道:

大 家 都 在 搜