2023-03-28
现在的简体中文被认为是一种语素文字,有些地方也说成表意文字。
语素就是最小语义单位,简单说就是字,还有一些不能拆分的词。这导致汉语的基本单元有成千上万个。
比如表达马的字有这些:
驳(bó):毛色不纯的马。
馰(dí):额白色的马。
騚(qián):四蹄全白的马。
駣(táo):三四岁的马。
驓(céng):膝下白色的马。
驠(yàn):屁股毛色白的马。
騴(yàn):尾根白色的马。
駺(láng):白尾马。
骢(cōng):青白色的马。
……
总之还有几十个,反正不就是一个马吗?
而英文是一种表音文字,对应来说就是音素文字,基本单元只有26个字母。
这意味着中文训练的数据标记难度更大。
现在全世界的语言,都在“分析语”的道路上发展。也就是通过简单元素,通过语法来回排列表达复杂意思。
这是一个语言高效的特征。
汉语变成白话,其实就已经分析化了。用有限的字,通过语法构成无限的词句,而放弃了为每个意思造一个新字的做法。
所以常用汉字就剩两三千个,康熙字典里好几万个字就自动淘汰了。这是进化不是退化。

但汉语的简体化和白化并不是百分之百的,目前的状态实际上是古今混合,比如大量的成语就不太“分析语化”,“蝇营狗苟”,意思很清楚,但语法何在?AI无法通过一般的语法解剖思维去理解,只能做整个标注。
还有很多俗语只靠微妙语境衔接,ai非常难理解。网上有人提过这样一个问题:
说“这本书我看了三天”的时候,书是已经看完了的。但为什么“这本书我看了三天了”,反倒表示书还没看完呢?

可见中文语法真的不是一般天马行空。
这本来是令人骄傲的优势,但天马行空的、非结构化、反分析式的东西对AI来说是致命的。
💬“这本书我看了三天”和“这本书我看了三天了”这两句话,你看懂了吗?
爱德华·霍尔在《无声语言》中引入了一组概念:高语境文化和低语境文化。
这个概念,用来表述在一种文化中,信息交换的明确程度和语境在交流中的重要性。
可以简单理解,低语境文化是说话是“说什么就是什么”,高语境文化则是“只可意会不可言传”。
高语境文化表现在很多方面,例如手势。
意大利就是一个典型的高语境文化国家,在意大利有200多种不同含义的手势,看意剧的应该都很熟悉了。
这种文化特征,当然也会表现在语言中。
还是意大利,这是一句意大利情话:
Se il tuo rumore mi conviene, ma fai rumore sì, che non lo posso sopportare questo silenzio innaturale.
意思是:如果你的喧嚣同我相匹配,那你就制造它吧,因为我不能忍受这异乎寻常的寂静。

有话不直说的程度,可以和夏目漱石的“今晚月色真美”相媲美。
所以日本文化当然也是一个高语境文化。要不然他们有那么多的俳句。
而汉语,简直是高语境的无敌至尊顶流。
以前的禅宗,高到连字都不用了。
在民间也同样不得了,比如大家熟悉的……

一个字加六个点,是什么韵味谁都明白,但你怎么跟AI解释。
还有“我谢谢你”又是什么味呢?“我谢谢你全家”呢?
网感,这种东西,AI是不可能学会的。
Erin Meyer对各国文化做过一个测算,中国远远领先英美很多个身位。
高语境文化,一般在历史悠久、文化底蕴深厚的土壤产生。但这种文化特质对AI学习相对应的自然语言来说,又是一个致命伤。
人工智能领域有一个相对比较新的技术,叫上下文学习(in-context learning),其实就是来解决这个问题的。近几年大语言模型的快速发展、尤其是ChatGPT的成功,多亏了这个技术。
但是中文语境显然是地狱级别的难度。GPT-4恐怕还是不行,GPT-1000还差不多。
点击观看完整版视频⬇️
以英文为第一训练语言的AI,等于是强势语言强势文化加上强势技术,眼看就要一统江湖。
这会造成有史以来最大的非英语多元文化灭绝吗?不一定有答案,但这是个值得问的问题。
虎学研究