现在的文章我也不怎么看了-虎嗅网

本文来自微信公众号：老孙荐读，作者：立平坐看云起，原文标题：《孙立平｜现在的文章我也不怎么看了》

朋友问：孙老师，您公众号文章怎么现在很少有十万加的。

我答：很正常啊。

朋友问：很正常是什么意思？

我答：你看现在谁还看文章啊（有点夸张），我所在的那些群，其中不少是学者，或者是很有思想的人，你看群里转的，一堆一堆的小视频。一些朋友专门给我转发过来的，应该是他们觉得有点内容的，大多也是小视频而不是文章。你嫂子给我转的更是百分百。老实说，我现在看文章也越来越少了。

朋友说：您说的也是，我现在连小视频看得都少了，胡诌八扯的太多了。

放下电话后，我一直在想这究竟是怎么一回事情？猛然间想起一件事情：

前些天看到一种说法：人类社会高质量的原生数据，已在2024年就给AI喂完了。虽然网上有很多新数据，但相当一部分是AI自己生成的废数据。

查了一下资料，果然如此。

截止到2024年，网上公开的、高质量的文本基本被AI爬干净，包括书籍、论文、新闻、论坛、百科、优质博客、专业问答、小说、学术文献，只要是人类原创、逻辑严谨、表达自然、事实靠谱的公开数据，几乎全部被主流大模型训练完。之后，每年新增的人类原创高质量文字增量已经非常少。

2024之后网上大量新增的内容，包括短视频、AI写的软文、机器翻译、重复搬运、低质评论、水军文章、营销文案等，绝大多数都是垃圾，语言重复、逻辑生硬、事实错误、句式同质。这在AI行业叫污染数据。而且，其中的垃圾成分，还会在循环中放大。

接着的问题就是，如果这样继续下去，没有原创性的内容和数据生产，大模型可能会成为无源之水吗？把这个问题再扩展一点，在种种因素的挟持之下，如果人类失去知识创新的动力和环境，将来的结果会如何？

下面因素的影响是显而易见的：

一是平台的算法推送。现在平台的推送主要看点击率、停留、完播、互动，判断内容好坏的标准不是不严谨、深度、原创，只看数据。标题抓人、情绪煽动、碎片化猎奇更容易拿到流量。认真考据、长篇深度原创，数据通常很差。人类的文字活动，朝着轻内容，重套路一路狂奔。

二是AI降低了复制、洗稿、拼接的成本。现在AI几分钟就能批量产出内容，而且还能帮你想出噱头和热度。老老实实查资料、调研、打磨一篇原创，消耗很长时间，却点击寥寥。久而久之，用户阅读习惯被算法驯化了。长期刷短平快内容，读者的耐心逐步下降（老实说我现在连小视频长一点的都没耐心看）。严谨枯燥但内容枯燥的没人看，情绪化、片面、观点极端的更容易传播。作者为了阅读量就只能迎合（因为没有阅读量，文章就算白写）。

那未来（人工智能）知识生产的出路在哪里？

这个问题太大，不好回答。就大模型而言，它们自己说，好像有四个努力的方向：

一是抢私密人类真实数据。网上公开干货已经被扒光，但没上网的海量真实资料还是有的，如医院病历、律所合同、工厂技术手册、客服录音、公司内部资料、线下聊天、专业从业者手写笔记等。

二是多模态补缺口，不仅仅依靠纯文字。虽然文字数据枯竭，但视频、画面、声音、动作素材还是巨量的。以后大模型会主要靠视频训练，文字只是辅助。

三是AI自我博弈，自己生产优质数据。比如让两个AI互相对抗辩论、解题、写方案。一个出题，一个解答，反复纠错。据说，这样可以合成高质量的数据。

四是靠算法升级，减少对数据的依赖。以前AI笨，需要亿万句话才能学会一个道理。今后，优化架构，少量数据就能举一反三。这个我不太懂，姑且引在这里。

最后说一句感想：人为万物之灵，是知识和智慧的生产者，今后的前景该当如何？

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

现在的文章我也不怎么看了

那未来（人工智能）知识生产的出路在哪里？

大 家 都 在 搜

大家都在搜