扫码打开虎嗅APP
本文来自微信公众号: 老孙荐读 ,作者:立平坐看云起,原文标题:《孙立平|现在的文章我也不怎么看了》
朋友问:孙老师,您公众号文章怎么现在很少有十万加的。
我答:很正常啊。
朋友问:很正常是什么意思?
我答:你看现在谁还看文章啊(有点夸张),我所在的那些群,其中不少是学者,或者是很有思想的人,你看群里转的,一堆一堆的小视频。一些朋友专门给我转发过来的,应该是他们觉得有点内容的,大多也是小视频而不是文章。你嫂子给我转的更是百分百。老实说,我现在看文章也越来越少了。
朋友说:您说的也是,我现在连小视频看得都少了,胡诌八扯的太多了。
放下电话后,我一直在想这究竟是怎么一回事情?猛然间想起一件事情:
前些天看到一种说法:人类社会高质量的原生数据,已在2024年就给AI喂完了。虽然网上有很多新数据,但相当一部分是AI自己生成的废数据。
查了一下资料,果然如此。
截止到2024年,网上公开的、高质量的文本基本被AI爬干净,包括书籍、论文、新闻、论坛、百科、优质博客、专业问答、小说、学术文献,只要是人类原创、逻辑严谨、表达自然、事实靠谱的公开数据,几乎全部被主流大模型训练完。之后,每年新增的人类原创高质量文字增量已经非常少。
2024之后网上大量新增的内容,包括短视频、AI写的软文、机器翻译、重复搬运、低质评论、水军文章、营销文案等,绝大多数都是垃圾,语言重复、逻辑生硬、事实错误、句式同质。这在AI行业叫污染数据。而且,其中的垃圾成分,还会在循环中放大。
接着的问题就是,如果这样继续下去,没有原创性的内容和数据生产,大模型可能会成为无源之水吗?把这个问题再扩展一点,在种种因素的挟持之下,如果人类失去知识创新的动力和环境,将来的结果会如何?
下面因素的影响是显而易见的:
一是平台的算法推送。现在平台的推送主要看点击率、停留、完播、互动,判断内容好坏的标准不是不严谨、深度、原创,只看数据。标题抓人、情绪煽动、碎片化猎奇更容易拿到流量。认真考据、长篇深度原创,数据通常很差。人类的文字活动,朝着轻内容,重套路一路狂奔。
二是AI降低了复制、洗稿、拼接的成本。现在AI几分钟就能批量产出内容,而且还能帮你想出噱头和热度。老老实实查资料、调研、打磨一篇原创,消耗很长时间,却点击寥寥。久而久之,用户阅读习惯被算法驯化了。长期刷短平快内容,读者的耐心逐步下降(老实说我现在连小视频长一点的都没耐心看)。严谨枯燥但内容枯燥的没人看,情绪化、片面、观点极端的更容易传播。作者为了阅读量就只能迎合(因为没有阅读量,文章就算白写)。
这个问题太大,不好回答。就大模型而言,它们自己说,好像有四个努力的方向:
一是抢私密人类真实数据。网上公开干货已经被扒光,但没上网的海量真实资料还是有的,如医院病历、律所合同、工厂技术手册、客服录音、公司内部资料、线下聊天、专业从业者手写笔记等。
二是多模态补缺口,不仅仅依靠纯文字。虽然文字数据枯竭,但视频、画面、声音、动作素材还是巨量的。以后大模型会主要靠视频训练,文字只是辅助。
三是AI自我博弈,自己生产优质数据。比如让两个AI互相对抗辩论、解题、写方案。一个出题,一个解答,反复纠错。据说,这样可以合成高质量的数据。
四是靠算法升级,减少对数据的依赖。以前AI笨,需要亿万句话才能学会一个道理。今后,优化架构,少量数据就能举一反三。这个我不太懂,姑且引在这里。
最后说一句感想:人为万物之灵,是知识和智慧的生产者,今后的前景该当如何?