扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
当前优质人类原创内容枯竭,AI训练数据面临污染,算法与AI进一步加剧内容劣化,本文探讨人工智能时代知识生产的现状与出路。 ## 1. 当前内容消费与生产的整体现状 现在包括学者在内的多数用户越来越少阅读长文,更倾向消费短视频,长深度原创内容普遍难以获得高流量。截止2024年,网上公开的所有人类原创、逻辑严谨、事实靠谱的高质量文本已基本被主流大模型抓取训练完成。 ## 2. 后续新增内容的核心问题:数据污染循环放大 2024年后网上新增内容以短视频、AI生成软文、重复搬运内容等为主,绝大多数都是语言重复、逻辑生硬、事实错误的垃圾污染数据,且垃圾成分会在循环生产中不断放大。 ## 3. 内容劣化的两大核心驱动因素 一是平台算法以点击率、完播率等流量数据判定内容优劣,情绪化、碎片化猎奇内容更容易获得流量,深度原创内容数据表现差,倒逼创作者迎合流量偏好。二是AI大幅降低复制洗稿的成本,批量生产内容远快于原创打磨,叠加用户阅读耐心被算法驯化,进一步挤压原创内容的生存空间。 ## 4. 大模型应对数据枯竭的四个努力方向 一是抓取未上网的私密真实数据,包括医院病历、企业内部资料、专业从业者手写笔记等非公开内容。二是发展多模态训练,以视频、声音、画面等非文字素材填补纯文字数据的缺口,文字仅作为辅助。三是让AI通过自我博弈合成数据,通过不同AI互相对抗、反复纠错生产合成高质量数据。四是升级算法优化模型架构,减少对训练数据的依赖,实现少量数据即可举一反三。
2026-05-22 07:32

现在的文章我也不怎么看了

本文来自微信公众号: 老孙荐读 ,作者:立平坐看云起,原文标题:《孙立平|现在的文章我也不怎么看了》


朋友问:孙老师,您公众号文章怎么现在很少有十万加的。


我答:很正常啊。


朋友问:很正常是什么意思?


我答:你看现在谁还看文章啊(有点夸张),我所在的那些群,其中不少是学者,或者是很有思想的人,你看群里转的,一堆一堆的小视频。一些朋友专门给我转发过来的,应该是他们觉得有点内容的,大多也是小视频而不是文章。你嫂子给我转的更是百分百。老实说,我现在看文章也越来越少了。


朋友说:您说的也是,我现在连小视频看得都少了,胡诌八扯的太多了。


放下电话后,我一直在想这究竟是怎么一回事情?猛然间想起一件事情:


前些天看到一种说法:人类社会高质量的原生数据,已在2024年就给AI喂完了。虽然网上有很多新数据,但相当一部分是AI自己生成的废数据。


查了一下资料,果然如此。


截止到2024年,网上公开的、高质量的文本基本被AI爬干净,包括书籍、论文、新闻、论坛、百科、优质博客、专业问答、小说、学术文献,只要是人类原创、逻辑严谨、表达自然、事实靠谱的公开数据,几乎全部被主流大模型训练完。之后,每年新增的人类原创高质量文字增量已经非常少。


2024之后网上大量新增的内容,包括短视频、AI写的软文、机器翻译、重复搬运、低质评论、水军文章、营销文案等,绝大多数都是垃圾,语言重复、逻辑生硬、事实错误、句式同质。这在AI行业叫污染数据。而且,其中的垃圾成分,还会在循环中放大。


接着的问题就是,如果这样继续下去,没有原创性的内容和数据生产,大模型可能会成为无源之水吗?把这个问题再扩展一点,在种种因素的挟持之下,如果人类失去知识创新的动力和环境,将来的结果会如何?


下面因素的影响是显而易见的:


一是平台的算法推送。现在平台的推送主要看点击率、停留、完播、互动,判断内容好坏的标准不是不严谨、深度、原创,只看数据。标题抓人、情绪煽动、碎片化猎奇更容易拿到流量。认真考据、长篇深度原创,数据通常很差。人类的文字活动,朝着轻内容,重套路一路狂奔。


二是AI降低了复制、洗稿、拼接的成本。现在AI几分钟就能批量产出内容,而且还能帮你想出噱头和热度。老老实实查资料、调研、打磨一篇原创,消耗很长时间,却点击寥寥。久而久之,用户阅读习惯被算法驯化了。长期刷短平快内容,读者的耐心逐步下降(老实说我现在连小视频长一点的都没耐心看)。严谨枯燥但内容枯燥的没人看,情绪化、片面、观点极端的更容易传播。作者为了阅读量就只能迎合(因为没有阅读量,文章就算白写)。


那未来(人工智能)知识生产的出路在哪里?


这个问题太大,不好回答。就大模型而言,它们自己说,好像有四个努力的方向:


一是抢私密人类真实数据。网上公开干货已经被扒光,但没上网的海量真实资料还是有的,如医院病历、律所合同、工厂技术手册、客服录音、公司内部资料、线下聊天、专业从业者手写笔记等。


二是多模态补缺口,不仅仅依靠纯文字。虽然文字数据枯竭,但视频、画面、声音、动作素材还是巨量的。以后大模型会主要靠视频训练,文字只是辅助。


三是AI自我博弈,自己生产优质数据。比如让两个AI互相对抗辩论、解题、写方案。一个出题,一个解答,反复纠错。据说,这样可以合成高质量的数据。


四是靠算法升级,减少对数据的依赖。以前AI笨,需要亿万句话才能学会一个道理。今后,优化架构,少量数据就能举一反三。这个我不太懂,姑且引在这里。


最后说一句感想:人为万物之灵,是知识和智慧的生产者,今后的前景该当如何?

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
频道: 社会文化

大 家 都 在 搜