2023-03-28

虎学研究

AI学不好中文是因为啥?

主理人:
大家好,我是姚丽蓉,最近AI有多火,大家想必都清楚,我随便点进一个平台,主页起码一半推送都是相关内容。

各大公司也在争抢GPT的话语权,试图在这个赛道分一杯羹,但真正想要上手并不容易。中文的复杂和丰富,也在这条路上填了一块绊脚砖。为什么这么说?

自然语言处理的第一步,就是通过数据标记来教机器。

中文的数据标记,有三重难。

 
第一重难度:语素太多

现在的简体中文被认为是一种语素文字,有些地方也说成表意文字。

 

语素就是最小语义单位,简单说就是字,还有一些不能拆分的词。这导致汉语的基本单元有成千上万个。

 

比如表达马的字有这些:

 

驳(bó):毛色不纯的马。

馰(dí):额白色的马。

騚(qián):四蹄全白的马。

駣(táo):三四岁的马。

驓(céng):膝下白色的马。

驠(yàn):屁股毛色白的马。

騴(yàn):尾根白色的马。

駺(láng):白尾马。

骢(cōng):青白色的马。

……

总之还有几十个,反正不就是一个马吗?

 

而英文是一种表音文字,对应来说就是音素文字,基本单元只有26个字母。

 

这意味着中文训练的数据标记难度更大。

 

上面的马你认识几个?(单选)
  • A:都认识 bar
  • B:都不认识 bar
  • C:略知一二 bar
投票
2023-04-04 00:00:00

 


 
第二重难度:语法天马行空

现在全世界的语言,都在“分析语”的道路上发展。也就是通过简单元素,通过语法来回排列表达复杂意思。

 

这是一个语言高效的特征。

 

汉语变成白话,其实就已经分析化了。用有限的字,通过语法构成无限的词句,而放弃了为每个意思造一个新字的做法。

 

所以常用汉字就剩两三千个,康熙字典里好几万个字就自动淘汰了。这是进化不是退化。

 

 

但汉语的简体化和白化并不是百分之百的,目前的状态实际上是古今混合,比如大量的成语就不太“分析语化”,“蝇营狗苟”,意思很清楚,但语法何在?AI无法通过一般的语法解剖思维去理解,只能做整个标注。

 

还有很多俗语只靠微妙语境衔接,ai非常难理解。网上有人提过这样一个问题:

 

说“这本书我看了三天”的时候,书是已经看完了的。但为什么“这本书我看了三天了”,反倒表示书还没看完呢?

 

 

可见中文语法真的不是一般天马行空。

 

这本来是令人骄傲的优势,但天马行空的、非结构化、反分析式的东西对AI来说是致命的。

 

姚丽蓉:

💬“这本书我看了三天”和“这本书我看了三天了”这两句话,你看懂了吗?

 


 

第三重难度:语境问题

爱德华·霍尔在《无声语言》中引入了一组概念:高语境文化和低语境文化。

 

这个概念,用来表述在一种文化中,信息交换的明确程度和语境在交流中的重要性。

 

可以简单理解,低语境文化是说话是“说什么就是什么”,高语境文化则是“只可意会不可言传”。

 

高语境文化表现在很多方面,例如手势。

 

意大利就是一个典型的高语境文化国家,在意大利有200多种不同含义的手势,看意剧的应该都很熟悉了。

 

这种文化特征,当然也会表现在语言中。

 

还是意大利,这是一句意大利情话:

Se il tuo rumore mi conviene, ma fai rumore sì, che non lo posso sopportare questo silenzio innaturale.

意思是:如果你的喧嚣同我相匹配,那你就制造它吧,因为我不能忍受这异乎寻常的寂静。

 

 

有话不直说的程度,可以和夏目漱石的“今晚月色真美”相媲美。

 

所以日本文化当然也是一个高语境文化。要不然他们有那么多的俳句。

 

而汉语,简直是高语境的无敌至尊顶流。

 

以前的禅宗,高到连字都不用了。

 

在民间也同样不得了,比如大家熟悉的……

 

 

一个字加六个点,是什么韵味谁都明白,但你怎么跟AI解释。

 

还有“我谢谢你”又是什么味呢?“我谢谢你全家”呢?

 

网感,这种东西,AI是不可能学会的。

 

Erin Meyer对各国文化做过一个测算,中国远远领先英美很多个身位。

 

高语境文化,一般在历史悠久、文化底蕴深厚的土壤产生。但这种文化特质对AI学习相对应的自然语言来说,又是一个致命伤。

 

人工智能领域有一个相对比较新的技术,叫上下文学习(in-context learning),其实就是来解决这个问题的。近几年大语言模型的快速发展、尤其是ChatGPT的成功,多亏了这个技术。

 

但是中文语境显然是地狱级别的难度。GPT-4恐怕还是不行,GPT-1000还差不多。

 

你在网上阴阳怪气过吗?(单选)
  • A:确实有 bar
  • B:和平第一☝️ bar
投票
2023-04-04 00:00:00

 

点击观看完整版视频⬇️

 


 
以上就是今天虎学研究的全部内容啦~欢迎大家在评论区讨论。

 

以英文为第一训练语言的AI,等于是强势语言强势文化加上强势技术,眼看就要一统江湖。

 

这会造成有史以来最大的非英语多元文化灭绝吗?不一定有答案,但这是个值得问的问题。

 

你认为未来语言会统一吗?(单选)
  • A:会 bar
  • B:不会 bar
  • C:我有其他看法,评论区见 bar
投票
2023-04-04 00:00:00

虎学研究

让优秀的公司浮出水面,让厉害的人来到公众面前,让重要的技术被人看懂,让背后的复杂事实真相大白。