扫码打开虎嗅APP
本文来自微信公众号:信睿周报 (ID:TheThinker_CITIC),作者:李子(哥伦比亚大学医学院医学人文系),原文标题:《李子丨我们掌控了数据,还是被数据所掌控?#STS:物造人专栏01》,题图来自:视觉中国
“根据大数据显示,您的违约风险较高,贷款不予批准。”
随着社会电子化、数据化进程的推进,各行各业都在进行大数据实践,我们当下的许多生活经验也被大数据所形塑。对于普通人而言,“大数据”是一个十分模糊的概念,它代表着某种神秘的权威对与人相关的信息进行了大量的搜集、分析、计算和预测。
无论它是一个简单算法逻辑导出的结果,还是由无数参数、变量和权重所调节出来的复杂模型,数据成了许多自动化决策的核心。而大数据的“大”——数据的体量、类别,速度的膨胀——也代表了一种用客观、科学、全面的方式去诠释一切社会行为的野心。
从技术层面审视,随着算力和模型的提升,计算一切并非不可能,语言大模型就是这种“大力出奇迹”的例子。对计算的追求背后,是对一切数据的渴求。
但从社会层面审视,这种渴求带来的亦是摩擦和困惑。我们生活的每个瞬间、每个动向仿佛都被监控、分析着,在“大数据”的凝视下,每个人都无处可逃,绝对的“隐私”不复存在。每个人在电子世界里都有一个详尽的分身,政府、商家、学校、单位通过这个分身对每个人进行标签、识别、排序,甚至预测、干预和操纵。这究竟将如何深刻地改变我们在世界上存在的方式?
技术伦理学往往从规范的角度去探讨对隐私的保护、知情的规则以及数据滥用的危害。但大数据下的社会和技术结构已经发生了相当深刻的变化,旧的伦理框架已经不足以解答我们所面临的问题。STS(科学、技术与社会)领域的学者们选择了另外一种方式去审视这个被数据驱动的世界:去寻找技术和人的互动下,社会呈现的样貌。
数据在社会中的实践
数据是什么?是一串串用数据结构组织起来、带有标签和分类的数字?是集合了各种类型数据的数据库?还是对数据进行处理、分析的算法模型?
是,也不是。虽然洞察人-人造物关系的STS学者各自的切入点有所不同,但其共同点在于将数据及其诞生和使用的社会语境联系起来。个人、社会组织、社会文化和技术手段之间的交织,形成了所谓的“实践”(practice)。
相对于关注研究数据的实体(或者其电子形态),他们更关注数据是如何“跑”起来的,数据的收集、处理、运算等过程不是单独的、机械的、客观的存在,而是在特定的环境、价值指导下,在特定的组织运行中进行的有特定目的的行为。“数据”也因此成了一个动态的概念,承载了不同的意义。
这种多样性,往往和人们所想象的数据化的社会的体验完全不同——数据化之后,所有的事情都可以被打通、被计算、形成指令,被一个洞察了一切的大脑指挥。但现实中,不同的数据实践往往需要大量的沟通、摩擦、商讨,数据作为所谓的“边界对象”(boundary object),成了不同的利益群体斡旋的场所。
以此看来,数据从来都不是一个飘在“云端”的空中楼阁,而是实实在在的社会互动和实践。从实践出发,学者们建立了批判数据研究(Critical Data Studies)的基础,以此摸清数据在社会中伸展的脉络。
The Costs of Connection, Nick Couldry/Ulises A.Mejias
Stanford University Press 2019
数据化的社会,社会化的数据
通过将数据实践而非数据本身作为分析对象,STS学者跳出了社会-技术的二元框架,把物质层面和人的层面结合为整体进行分析和解读,突出了当下人与技术的交缠关系。在对数据实践的分析中,他们关注数据带来的技术、政治、社会和经济后果,强调社会“数据化”过程中知识、关系和控制结构的重构。
数据化的过程塑造着社会的样貌,而社会原有的文化、政治、权力、族群关系也通过数据化的过程,被写进了和数据相关的技术(如自动化、算法和人工智能等)中。数据化因此是一个既被社会塑造也塑造着社会的过程。
意大利社会学家、米兰大学教授马西莫·艾罗迪(Massimo Airoldi)借用皮埃尔·布尔迪厄(Pierre Bourdieu)的“惯习”(Habitus)一词来描述这个动态的过程。在布尔迪厄的学说中,惯习由个体在结构中所处的位置塑造,个人通过惯习产生行动。
例如,所处的社会阶层塑造了一个人的品位,包括读什么书、消费什么产品,这个人又通过和周边社会的互动将这种品位和习惯传播并固化下来。因此,当人们行动和展示能动性时,他们也反映和再生产着社会结构。
同样的,数据的形成过程是一个具体的、当下的过程,反映了它所在社会的偏见和预设,以及特定的社会权力希望通过这种数据去达成的目的。这些文化、政治的结构性的影响都被写进了数据中,成了机器“社会化”的一部分。反过来,当特定的数据分类、结构和相应的算法被管理机构和手段采纳之后,也相当于不断地以固定视角对社会现象和人群进行审视和行动,去强化、固化、物质化已有的社会结构。
比如,执法机构有关某个少数族裔存在犯罪高风险的数据源于对特定区域的警力倾斜,警察的种族主义倾向也导致少数族裔被搜身、逮捕的可能性更高,这些倾向被固化为记录在案的犯罪数据;反过来,这种数据又会进一步指导警察的部署,加强警力的倾斜,将种族主义以客观的、数据化的形式固化下去。
Machine Habitus, Massimo Airoldi
Polity 2021
需要强调的是,这种互动的过程并不是一蹴而就的,不管是技术还是人,都无法决定社会变迁的轨迹,而是在与具体的管理者、管理规则的互动之中动态演变着。这种互动、演变的过程和数据、技术本身一样,值得研究和探讨。
德国洪堡大学社会学家史蒂芬·马乌(Steffen Mau)将目光投向了数据化的一个方面,即社会的“指标化”。在The Metric Society:On the Quantification of the Social(《指标社会:社会的量化》)一书中,马乌从马克斯·韦伯(Max Weber)对于工具理性的分析出发,洞察了现代社会中数据的一大作用,即制定各种各样的指标,而指标的存在赋予了各种数据以意义。数据不再是零散的、随意的数字,而是顺着指标的意义获取了价值取向,并有了尊卑、高下之分。
The Metric Society, Steffen Mau
Polity 2019
例如,一个人每日步行的距离被计步器或者智能设备捕获后,就成了一个指标,它不再代表一个人的生活轨迹,而是成了彰显一个人健康水平的数据。这种指标在当下的数据化潮流中被赋予了量化的意义,并被广泛地用于交流、评价与比较。从个人生活到职业发展,再到生产、消费领域,许多社会功能都围绕着指标展开,这反映了社会对于效率、理性的追求以及一种新自由主义文化。
而作为一种思维方式和组织方式,指标也在不断地塑造着社会的形态。它的弊端之一,则是把原本多样、多维的社会景观压平成为二维的、线性的发展模式,并将我们驱赶到追求数据的无尽长路之上。
而美国社会学家玛里恩·福尔凯德(Marion Fourcade)和基耶安·希利(Kieran Healy)则提出了“序数社会”(Ordinal Society),即当下的社会通过各种各样的技术手段以及对数据的抽取、归类、分析、预测等将涵盖社会和生活各个领域的方方面面数据化、电子化,通过算法和人工智能等技术形式对一切进行相对价值高低的排序。
这种组织方式可以说比“指标”更进一步——它是极度原子化、个人化的,将错综复杂的一切打碎,细致入微地收集每个人的蛛丝马迹,为用户获取个性化的推荐、个人化的分数和风险,并刻上价签,投入市场之中。
保险价格、贷款风险、个人信用等方面的运作都将超出常人能够理解的规则,围绕更加不透明、不平等的数据游戏规则展开——你的GPS踪迹为何能决定你的保费高低?你的消费记录又怎么影响你的工作机会?一切都是序数社会的排序基础,而这种排序的依据本身渗透了特定的价值取向和规则。
The Ordinal Society
Marion Fourcade/Kieran Healy
Harvard University Press 2024
数据化与社会的深刻变迁改变了社会的组织形式,甚至改变了我们对生活以及世界的基本预设和理解方式。我们固然可以通过这些概念理解社会变化的样貌以及过程,甚至批判数据社会的隐忧,但面对数据化的汹涌浪潮,又该怎么去寻找具体的路线图呢?或者,在数据社会的背景下去理解当下我们对隐私、不平等的担忧,是否会有新的解答方式?
“云伦理”
除了获取新的技术手段、技术-社会互动机制,也需要革新人们对于伦理导向问题的思考。数据的增长并不仅仅是数据量的变化,它代表的是一种新的叙事,代表着视角、可能性和优先级的变化,以及这种变化所反映的社会力量的消长。
数据搜集能力和处理能力的增长,代表着一种中心的、抽象的,往往也是强大的叙事,但这样的视角并不能涵盖一切。如果能通过手机信号去搜集人口流动的数据,是否社区和基层的访问就不再重要?那么那些不用手机或一家人共用手机的人是否就被忽视了?这种忽视是否会带来甚至加强结构性的不公(例如,手机信号和基础设施不普及的地方在这种数据叙事中就成了空白,这种数据上的空白又会影响到公共设施和基础建设的分配)?
当然,你可以用更多、更全面的数据搜集乃至天网般的覆盖去试图解决这个问题,但这并不能解决数据内涵的价值倾向,以及解释“何为现实”。用杜兰大学教授、政治地理学专业出身的技术伦理学家露易丝·阿摩尔(Louise Amoore)的话来讲,数据和算法本身成了一个政治伦理的实体,携带着特定的“价值、预设和主张”去理解这个世界,建立常理和规则,乃至判断善恶。
阿摩尔在Cloud Ethics:Algorithms and the Attributes of Ourselves and Others(《云伦理:我们和其余一切的算法和因子》)一书中指出,我们应该从数据和算法及其催生的社会关系和联结中去探讨伦理。
Cloud Ethics, Louise Amoore
Duke University Press 2020
总的来讲,数据和算法所生产的社会现实就是把不确定性确定化,把混乱的进行优化。然而问题在于,这种诠释世界的方式究竟意味着什么?例如,为什么特定数据是重要的?怎样的数据构成了所谓的“基准真值”(ground truth),代表了机器所默认的真实世界?是带标签的图片,还是整个互联网上的语言?
阿摩尔使用了摄影术语中的“光圈”(aperture)一词来隐喻数据所反映的真实。在特定的光圈之下,前景和背景被模糊,只有中景被清晰地看到。在数据世界里,这就是选择数据测算代理的过程。
选择用怎样的数据去代表想要被计算的现实决定了这个数据和算法的愿景,而代价就是忽略了这个数据的来龙去脉,或者将之视作背景、预设。就像前文所述,利用手机信号去预测人口流动,就是预设了人和手机之间粗略的一对一的关系。在特定的场景下,这种数据的价值是巨大的;然而,数据的“光圈”也使其难以关注到更微小、更本地的关系和规律。
因此,去看待数据社会,需要跳出数字或数据库的圈定,在特定社会语境中考察数据的实践。STS学者为我们揭示了数据化的过程如何塑造了社会结构和人的行动,将社会关系写入数据也会影响社会的组织形式和我们对世界的理解方式。
更需要我们警醒的是,数据和算法不仅是中立的工具,还是携带着特定价值取向的政治伦理实体,我们需要审视数据和算法所构建的社会现实,探讨它们背后的价值、预设和主张,以及这种诠释方式对我们的意义。
参考文献
AIROLDI M.Machine Habitus:Toward a Sociology of Algorithms[M].New Jersey:John Wiley&Sons,2021.
AMOORE L.Cloud Ethics:Algorithms and the Attributes of Ourselves and Others[M].Durham:Duke University Press,2020.
FOURCADE M,KIERAN H.The Ordinal Society[M].Cambridge:Harvard University Press,2024.
FOURCADE Marion,KIERAN H.Classification situations:Life-chances in the neoliberal era[J].Accounting,Organizations and Society,2013,38(8):559-572.
HOEYER K.Data Paradoxes:The Politics of Intensified Data Sourcing in Contemporary Healthcare[M].Cambridge:MIT Press,2023.
MAU S.The Metric Society:On the Quantification of the Social[M].New Jersey:John Wiley&Sons,2019.
本文来自微信公众号:信睿周报 (ID:TheThinker_CITIC),原载于《信睿周报》第126期,作者:李子(哥伦比亚大学医学院医学人文系)