扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,头图来自:AI生成
人类最担心的事情还是发生了。
随意在网上翻看几篇新闻,却分不清是否出自AI之手;忙里偷闲时打把游戏,也看不懂沉默的队友是人机还是真人。
直播间里,明星数字人充耳不闻地吮鸡爪,与卖力吆喝的真人助播形成割裂的场景……
而据外媒404 media报道,一个用于追踪和分析多种语言中词汇趋势的项目——Wordfreq,现在也成了当下这种现象的最新受害者。
阳光明媚的地方总有阴影潜伏,显然Wordfreq不是第一个受害者,也不会是最后一个受害者。
最终为之买单的或许还是人类本身。
GPT们污染语言,人类要为之买单
生成式AI污染了数据,我认为没有人掌握关于2021年后人类使用语言的可靠信息。
这句来自Wordfreq项目创建者罗宾·斯皮尔心中的呐喊,透出了几分无奈与愤懑。
究其原因,还得从Wordfreq的来历谈起。
通过分析维基百科、电影和电视字幕、新闻报道、以及Reddit等网站内容,Wordfreq试图追踪40多种语言的变迁,进而研究随着俚语和流行文化变化而不断变化的语言习惯。
对于语言学家、作家和翻译人员而言,Wordfreq无疑是一项宝库。现在,GitHub地址上偌大的一句声明“该项目将不再更新”,也悲情地给这个项目敲响了丧钟。
曾经,网络抓取公开数据是该项目数据源的生命线,但随着AI文本开始大行其道,Wordfreq赖以更新的根基便遭到了动摇。
斯皮尔表示,过去人们很少使用“delve”这个词,而随着ChatGPT将这个词汇变成了口头禅,大有李鬼冒充李逵之势,间而也就让失真的词频统计影响了对人类语言习惯的准确分析。
如果这还不够直观,GPT们那些陈词滥调,比如“总之”、“综上所述”等词汇的泛滥便是最醒目的警告。
这股趋势也正逐渐渗透到学术写作乃至文学创作中。
一份来自斯坦福大学的报告曾指出,ChatGPT在短短五个月内,就成了许多专家学者们的“写作神器”。其中在计算机科学领域,几乎每六篇摘要、每七篇引言中,就有一篇出自它的手笔。
随之而来的,便是生成式AI对人类写作风格的“大举入侵”。
意大利国际高等研究院的博士生耿明萌的研究成果就像一面镜子,进一步映照出ChatGPT的词语偏好,也充分证实了它在学术论文写作中的影响力。
在分析arXiv上超过百万篇论文的摘要后,耿明萌发现,论文的词频在ChatGPT普及后出现了明显变化。
其中,“significant”等词汇的使用频率大幅上升,而“is”和“are”等词汇则减少了约10%。
多数情况下,生成式AI可以让一个创造力60分的人变成70分甚至更高的分数,但在文本创作中,虽然个人创造力和写作质量有所提高,却在无形中让集体创意变得无趣且同质化。
UCL和埃克塞特大学的两位学者在《Science》上发表了一项研究,500名参与者被指派借助AI围绕随机主题撰写约8行故事,并分析目标受众。
结果显示,借助AI的灵感,故事变得更有“创造性”,但这些AI生成的故事彼此之间的相似度也惊人地高。
因此,当AI生成的文本如同无孔不入的污染物,肆意涌入互联网,对于Wordfreq也好,还是人类也罢,怎么看都是利远小于弊。
反爬虫战争打响,Wordfreq遭殃
Wordfreq项目的终止算得上是巨头爬虫战争夹缝中的牺牲品。
AI的发展离不开算法、算力和数据的支持。尽管AI生成的文本与人类真实语言相比还有差距,但它在语法和逻辑性方面越来越像模像样。
这片风平浪静的水面之下,一场AI爬取与反爬取的无声战争正在酝酿。
在当前的舆论环境中,爬取网页数据似乎成了冒天下大不韪的禁忌,不少新闻评论区里都充斥着网友的唾弃之声,而Wordfreq本质上也是通过爬取不同语言的文本而构建起来的。
在生成式AI尚未盛行之时,Wordfreq也曾度过一段蜜月期。
以往一般来说,只要遵守网站的robots.txt文件规定,爬取公开数据似乎也合情合理。这是网站与爬虫之间的一种默契约定,用来指示爬虫哪些内容可以抓取,哪些则不可以。
当一个网站设置robots.txt限制协议时,就像竖起了禁止擅自进入的标志牌。如果爬虫违反了robots.txt协议,或者采用了突破网站反爬虫技术手段的方法获取数据,那么就可能会构成不正当竞争或侵犯版权等违法行为。
然而,随着模型对高质量数据的需求日益增长,这场爬取与反爬取的战况也愈发激烈。
回顾过去,关于生成式AI巨头爬虫与反爬虫数据的纠纷比比皆是。为首突出的当属OpenAI和Google。
去年,OpenAI公司特地推出网络爬虫工具GPTBot,声称用于抓取网页数据训练AI模型。但显然,没有哪家媒体愿意被爬虫暗地里薅羊毛。
意识到数据和版权重要性的媒体遵循着一手交钱,一手交数据的商业逻辑。
一项来自路透社研究所进行的研究表明,截至2023年底,全球10个国家的热门新闻网站中,近一半的网站屏蔽了OpenAI的爬虫(Crawler),而近四分之一的网站也对Google的爬虫采取了相同的措施。
后来的故事大家应该都很熟悉了,OpenAI三天两头就被传统媒体起诉,无一例外不是版权诉讼纠纷。直到今年,官司缠身的OpenAI才老老实实和新闻出版商建立合作关系。
只是,此前的高墙林立、以及数据收费等策略也让Wordfreq也成为了这场“数据荒”的牺牲品。
斯皮尔指出,由于Twitter和Reddit(Wordfreq包含的网站)已经开始对其API收费,这使得网络抓取数据变得更加困难。
“过去免费获取的信息变得昂贵,”斯皮尔写道。“我不想参与任何可能与生成式AI混淆的工作,或可能使生成式AI受益的工作。”
即便能用金钱换数据,但数据总有用尽的一天。
研究公司Epoch AI预测,互联网上可用的高质量文本数据或将在2028年耗尽,这一现象在业内被称为“数据墙”,可能成为减缓AI发展的最大障碍。
于是乎,不少大模型厂商开始将目光转向合成数据,主打一个用AI训练AI。
用AI训练AI,可能越练越“傻”
我的直觉是,网络上的文本都是狗屎,这些数据上进行训练简直是在浪费算力。
当Llama 3.1-405B以掀桌子的实力横扫一众开源大模型之时,领导Llama系列的Meta AI研究员Thomas Scialom在接受采访时发出了如上暴论。
据他透露,Llama 3的训练过程并不依赖任何人类编写的答案,而是完全基于Llama 2生成的合成数据。
Scialom的说法或许过于粗暴,但也有一定的道理。
互联网每天都在涌现源源不断的数据,但训练AI从来就是一个宁缺毋滥的单选题,若数据中满是错误和噪声,模型自然也会跟着学习这些“瑕疵”,预测和分类的准确性可想而知。
而且,低质量的数据往往充斥着偏见,无法真正代表整体数据分布,从而导致模型产生有偏见的回复。教科文组织总干事阿祖莱也曾警告:
新的AI工具有着在不知不觉中改变千百万人认知的力量,因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。
不过,合成数据也未必是解决“数据墙”难题的灵丹妙药。
最近来自牛津剑桥的研究人员发现,当模型使用AI生成的数据集,则输出的质量会逐渐下降,最终产生无意义的内容,也就是俗称的模型崩溃。
研究负责人 Ilia Shumailov 用了拍照的比喻来形容这一过程:
如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被“噪声”淹没。最后,你会得到一个黑暗的方块。
当越来越多AI生成的垃圾网页开始充斥互联网,训练AI模型的原材料也将遭到污染。
例如,曾经闹得沸沸扬扬的豆包网页版通过默许分享内容被搜索引擎收录,导致AI生成的网页内容泛滥成灾。
再比如程序员问答社区Stack Overflow也深受AI的“毒害”。
在ChatGPT爆火之初,Stack Overflow便宣布“临时禁用”。“从ChatGPT获得正确答案的平均比例太低了。”官方在声明中如是吐槽。
专业用户的数量毕竟有限,不可能逐一核实所有答案,而ChatGPT的错误率又是显而易见的。当AI污染社区环境,彼时无计可施的人类也只能一禁了之。
在图像领域,AI模型趋向于重现最常见的数据,经历多次迭代后,最终可能连最初的事物都会忘得一干二净。
被看到的这一切指向了一个恶性循环:AI生成低质量乃至错误信息,与人类数据混淆在一起,这些普遍低质量的数据又被AI反复喂养,最终导致肆意泛滥的AI反噬自身。
而如果人类意识到昔日的数据足迹会成为喂养自己的养料,或许我们会更加谨慎地对待在互联网留下的每一句话。