“大模型”更需“大思想”-虎嗅网

本文来自微信公众号： PsyCulture&Science ，作者：PCS & GPT，原文标题：《“大模型”更需“大思想” | AI重塑文化研究边界》

2014年，美国北卡罗来纳大学的社会学家Christopher Bail在Theory and Society上发表了一篇纲领性文章，题为The cultural environment:Measuring culture with big data。他犀利地指出了一个尴尬的错位：

“计算机科学家手握分析海量数据的利器，却不知道该从中提取什么意义；文化社会学家拥有精深的意义理论，却只能困在访谈记录和田野笔记的微观世界里，对浩如烟海的文本数据望洋兴叹。”

2024年，Edgar Dubourg等人给出了一个实操性的回应——A step-by-step method for cultural annotation by LLMs。他们揭示，ChatGPT这类大语言模型（LLM）正在成为文化研究的“超级标注员”，能以惊人的效率和一致性完成过去需要大量人力才能做到的事。

数据的洪流——我们淹没在文本里了

Bail在文章开篇就扔出一个让人瞠目的数字：

2002年积累的数据量超过了人类历史上此前所有年份的总和。到2011年，2002年之前的全部数据量每两天就能被重新产生一遍。

这些数据中，很大一部分是文本——社交媒体上的帖子、新闻报道、历史档案、政府文件、学术论文……1995年到2008年间，全球网站数量增长了超过6600万倍，突破1万亿。美国国会图书馆甚至计划归档所有推特消息，总量估计超过1700亿条。Google与全球1900万家图书馆合作，已经将人类写过的几乎每一本书都做了数字化副本。

对于研究文化的学者来说，这些文本就是金矿——它们记录着数亿人的争论、世界观和价值观，而且是自然发生的，不像问卷调查那样受到研究者的干预。

但金矿归金矿，挖不出来等于没有。

三把钥匙——Bail的大数据文化研究蓝图

一、绘制文化环境的地图

文化社会学长期停留在微观层面——研究单个群体的象征边界、文化工具包或认知框架。但正如社会学家Swidler所说：

“文化社会学最大的未解之问是：某些文化要素是否以及如何控制、锚定或组织其他文化要素？”

大数据技术让这个宏观问题第一次变得可以回答。通过网络爬虫（自动抓取网页内容）、API接口（从Twitter、Facebook等平台提取数据）以及SnowCrawl软件（将滚雪球抽样与爬虫技术结合），研究者现在可以获取某个话题上的全部或近乎全部相关文本，从而描绘出完整的"话语场域"版图。

二、给文化分类

拿到海量文本后，下一步是分类：

无监督方法：让算法自己发现文本中的隐藏模式，比如主题建模（Topic Modeling），其中最流行的是LDA（潜在狄利克雷分配）——它通过分析词汇的共现概率，自动识别文本中潜在的主题。

有监督方法：先由人工编码一小部分样本作为训练数据，再让算法学习这些编码规则，自动应用到整个数据集。

Bail特别强调，文化社会学家在这里有独特的优势——他们长期积累的厚描述、多阶段编码传统，恰恰是训练这些算法最需要的燃料。

三、追踪文化的演变

大数据的第三个宝藏是它的纵向性——推特归档可以追踪议题的起落，百年报纸数据库可以分析话语变迁，互联网档案馆保存着网站的历史快照。结合社会网络分析，研究者甚至可以同时看到谁说了什么、他们彼此什么关系、以及这些关系如何随时间改变。

GPT登场——AI成为文化研究的超级标注员

如果说Bail在2014年描绘的是蓝图，那么Dubourg等人在2024年的工作就是交付了一把趁手的工具。

LLM为什么特别适合文化标注？

传统方法的痛点是明确的：

而GPT这类大语言模型天然地解决了这些问题：

成本效益惊人：用GPT-3.5标注16000个电子游戏在4个维度上的评分，总成本不到200美元。标注50本书的摘要只需0.20到1.50美元。

标注高度一致：不像人类标注者会受到个人偏好、疲劳、情绪的影响，GPT在温度参数设为0时，对同一内容给出的标注几乎完全一致。

跨文化、跨媒介：GPT能在12种语言（包括土耳其语、斯瓦希里语等）中准确检测情感、冒犯性等心理构念，还能跨越电影、小说、电子游戏等不同媒介进行比较。

理解模糊概念：文化研究中充满了难以精确定义的概念——什么是“主体性”“虚构性”“清教主义”？GPT可以像心理学家使用量表一样，在连续维度上给出评分，而不是简单的"是/否"分类。

一套完整的操作流程

Dubourg团队提供了一套可以直接复制粘贴的R语言代码，整个流程如下：

两种标注模式：

基于标题的知识检索：只给GPT一个标题（如一部电影名），让它调用内部知识库进行评分

文本标注：给GPT一段详细的文本描述（如一个民族志段落），让它分析其中的特定文化特征

提示词工程（Prompt Engineering）是整个流程的灵魂。举个例子，要测量电影中“爱情”的重要性，提示可以这样设计：

“在0到10的量表上评估每部电影中爱情的重要性，其中0代表完全缺失或无关，10代表爱情是核心且极其重要。请仅关注伴侣之间的爱情，排除家庭纽带或友情。请先简要说明理由，然后在末尾写上/SCORE=/加一个数字，之后不要有任何文字或符号。如果不认识这部电影，请评分NA。电影是：__”

质量控制：AI不是万能的

Dubourg团队非常坦诚地指出，LLM标注不应取代人类判断，而应作为补充。他们建议进行双重效度检验：

内部效度：用不同措辞的提示重复标注同一数据，检查一致性

外部效度：将GPT的标注与人工标注对比、与已有元数据（如IMDb的类型标签）关联、与其他计算语言学方法交叉验证

他们还坦承了LLM的偏见问题——这些模型的训练数据可能无法完全反映人类经验和文化的多样性。

从分类到维度：一场认识论的转变

两篇文章共同指向的一个深层趋势，可能比任何技术细节都更重要：文化研究正在从“分类思维”转向“维度思维”。

过去，学者们争论的问题是：浪漫爱情是不是中世纪西方的发明？某个社会有没有第三方惩罚？某部小说算不算科幻？但真实的文化现象从来不是非此即彼的。爱情、冲突、冒险、虚构性——这些元素在不同作品、不同社会、不同时期中以不同的强度存在。就像心理学从“你有没有某种人格特质”转向了“你在这个特质上处于什么位置”，文化研究也在经历类似的转型。

GPT的量化评分能力——在0到10甚至0到100的连续尺度上给出细腻的判断——为这种转型提供了前所未有的技术支撑。

大数据，大模型，更需要大思想

回到Bail在2014年文章结尾写下的那句话：

“没有大思想，大数据什么也学不到。数据挖掘可能会揭示大型文本语料库中的有趣模式或引人注目的可视化，但很多稻草已经开始像针一样了。”这个比喻精准地刻画了当代研究的窘境——当所有东西都“看起来重要”时，真正重要的东西反而被淹没了。

“大思想”的三重含义

理论的穿透力。Swidler在1995年提出的问题至今仍未得到充分回答：“某些文化要素是否以及如何控制、锚定或组织其他文化要素？”这就是一个“大思想”——它不满足于描述单个群体的文化特征，而要追问文化系统内部的层级关系和组织逻辑。

有了这样的理论野心，研究者就能从海量数据中看出结构。比如，当你拥有某个话题上的全部或近乎全部相关文本时，你就不再仅仅是在分析几个文本，而是在描绘整个话语场域的版图——哪些声音占据中心位置？哪些被边缘化？场域的边界在哪里？不同场域之间是否存在空白地带？

方法论的创新勇气。十年前，Bail呼吁文化社会学家拥抱主题建模、聚类分析等“黑箱”技术。十年后的今天，Dubourg等人则进一步论证了大语言模型在文化标注中的可能性。

这种勇气的背后是一个深刻的认识：工具中性论。主题建模算法本身不会理解什么是框架或象征边界，但在人类理论家的引导下，它可以成为识别这些概念的有力工具。GPT-4本身不知道什么是主体性或虚构性，但它可以根据心理学量表的标准，对文本中的相关特征进行一致性评分。

关键在于，人文社会科学家不应该害怕使用这些工具，而应该成为工具的主人——用自己的理论直觉去训练算法，用自己的研究问题去定义标注任务，用自己的学科传统去验证结果的有效性。

范式转换的想象力。Dubourg等人提出的从“分类思维”到“维度思维”的转变，就是这样一种范式革新。传统的文化研究充满了二元对立的问题：浪漫爱情是不是中世纪西方的发明？某个社会有没有第三方惩罚？某部作品算不算科幻小说？这种分类思维反映了人类认知的基本倾向，但也限制了我们对复杂现象的理解。

拥有“大思想”的研究者会问：浪漫爱情在不同时期、不同文化中的强度如何？第三方惩罚在各个社会中的程度差异是什么？科幻元素在作品中的比重如何变化？这种维度化的提问方式，配合大语言模型的量化评分能力，为我们理解文化现象的连续性和渐变性提供了新的可能。

从“细读”到“远读”，再到“智读”

Franco Moretti在数字人文领域提出的“distant reading”（远读）概念，与传统的“close reading”（细读）形成了对比。但仅仅有远和近是不够的，我们需要的是“智读”——既有理论的深度，又有计算的广度。这种“智读”要求研究者具备三重素养：

理论素养：知道该问什么问题，知道现象背后可能隐藏着什么样的机制

技术素养：知道如何使用工具，知道不同方法的适用边界和局限性

批判素养：知道如何验证结果，知道自己可能错在哪里

面向未来的“大思想”

跨学科的整合能力：未来的文化研究可能需要融合认知科学、计算语言学、网络科学等多个领域的理论和方法。真正的“大思想”不是固守学科边界，而是在保持核心理论关怀的同时，积极吸收其他领域的有益元素。

全球化的视野：当我们拥有了跨语言、跨文化分析的技术能力时，“大思想”就要求我们思考更加宏大的问题——人类文化的共性与差异、文明的演进逻辑、全球化时代的文化交流模式等等。

历史性的纵深感：大数据的时间跨度正在不断延伸，从推特的十几年历史到百年报纸档案，再到千年文献记录。“大思想”要求我们具备历史性的眼光，思考文化变迁的长期趋势和深层机制。

在这个看似一切都在“自动化”的时代，思想的价值不是在贬低，而是在升值。数据可以被采集、存储、传输，算法可以被复制、改进、迭代，但思想——那种能够穿透现象表面、把握事物本质、提出原创性洞察的思想——依然是稀缺资源，依然是学术研究的灵魂所在。

真正的挑战不在于掌握更强大的计算工具，而在于保持和发展更深刻的思维能力。在人工智能日趋强大的今天，最具竞争力的，恰恰是那些最“人性”的品质——好奇心、想象力、批判性思维、以及提出好问题的能力。

这也许就是Bail那句话的真正意义所在：提醒我们在拥抱技术的同时，不要忘记培育思想；在追求效率的同时，不要放弃深度；在分析数据的同时，不要丢失对意义的敏感。

最终，AI丈量的不是数据的边界，而是思想的疆域。

参考文献

Bail,C.A.(2014).The cultural environment:Measuring culture with big data.Theory and Society,43(3/4),465–482.http://www.jstor.org/stable/43694728

Dubourg,E.,Thouzeau,V.,&Baumard,N.(2024).A step-by-step method for cultural annotation by LLMs.Frontiers in Artificial Intelligence,7:1365508.DOI:10.3389/frai.2024.1365508

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

“大模型”更需“大思想”