我被“大数据”了，然后呢？-虎嗅网

本文来自微信公众号：理想国imaginist（ID：lixiangguo2013），节选自《算法的力量》，作者：杰米·萨斯坎德，翻译：李大白，头图来自：《黑镜》剧照

无孔不入的“大数据”，正逐渐从一个名词变为动词。在网上搜索“我被大数据了吗”，可以搜到不少被大数据的算法困惑的实例。例如，不少人反映自己曾被大数据“杀熟”，本着能省几块是几块的心理开通外卖软件的会员后，反而比不开通会员花得还多；或者，不同的手机型号，购买同一软件的会员，价格却相差许多。

当你发觉自己被“大数据”了的时候，是否思考过这背后蕴含的其实是与社会正义密切相关的问题。社会正义包含两个面向：分配正义和承认正义。前者指在社会中应如何分配资产，后者则是人们应如何彼此看待和相处，关乎人们的社会地位和尊重体系。

追求正义，是人类自文明诞生以来的理想与追求，政治理论家罗尔斯将正义视为社会制度的“第一美德”。在未来世界里，随着技术力量的发展，算法也将发挥越发重要的作用，数字编程会不可避免地影响到社会正义的具体形态，它既会带来便捷，也值得让人警惕。英国学者杰米·萨斯坎德在《算法的力量》一书中就对算法如何影响未来生活的方方面面进行了研究和阐述。

杰米·萨斯坎德

算法分配

算法和分配

首先，数字生活世界中用到算法的地方将越来越多，它将与市场和国家一起决定我们获得重要社会物品的途径。这使得算法成为一种新的、重要的分配正义机制。

让我们从获得工作开始谈起。工作（至少就目前而言）是我们大多数人获得生存和发展所需资金的主要途径。即使是现在，求职申请通常还是由算法决定的。72%的简历“从来没被人类的眼睛看过”。是算法在快速扫描简历，并确定哪些候选人拥有必要的技能和经验。其他算法被用来在正式的申请程序之外确定候选人的性格和能力。它们通过消化任何可用的个人数据来得出自己的结论，尽管所使用的数据可能与就业并不直接相关。

应聘者的网上浏览活动，或者他们在Facebook上的人脉的“质量”，都可能决定他们的申请是否成功。机器学习算法还可以用来发现个人的特性，如习惯、嗜好和弱点，这些是招聘人员在评估纸质申请表时永远不可能知道的。简而言之，算法将决定数百万人能否获得市场所提供的最宝贵的东西：生计。

算法也将在决定我们对其他至关重要资源的获取方面发挥越来越大的作用。它们已经被用来决定我们的信用评分，并判断我们是否会成为好租户。保险公司使用算法来估计我们的死亡时间。健康风险的自动预测（可能基于与我们食物消费相关的数据）可以决定我们支付多少保费。关于我们驾驶技能的数据可以用来决定我们能否获得汽车保险。

工作、贷款、住房和保险，这些都不是奢侈品，而是必不可少的社会物品。所有理性公民都想拥有以上物品，不管他们还在追求别的什么东西。拥有这些物品，人们就能过上舒适富足的生活；没有它们，生活可能就会异常艰辛。如何分配这些物品，根据什么标准分配，对未来的分配正义来说就至关重要。

使用算法和数据来对以上物品的分配做出决定并不是一件坏事。相反，精心设计的算法可能会消除人类决策者的私心和偏见。例如，在工作方面，平权行动算法可以用于扩大通常的大学和机构以外的成功申请者的人数。当涉及贷款、住房和保险时，算法可以用来扩大那些最需要或最有资格的人的准入机会。在这个阶段，我的观点更简单：体现为算法的代码是一种越来越重要的分配正义机制。它需要密切的政治关注。

算法和市场参与

其次，算法作为市场参与者进行干预，除了做其他事情外，还买卖价值数十亿美元的金融产品。这会在分配上产生影响，例如，自引入自动交易以来，金融机构所享有的财富在总财富中所占比例急剧膨胀。

算法和信息

第三，算法越来越多地被用于确定购买者可以获得的信息。在美国，超过80%的消费者在购买产品前会上网搜索，搜索结果直接界定了他们在购买时的选择范围。通常，算法会利用阶级区分，在线购物平台经常会给不太富裕的群体展示发薪日贷款广告。这种算法对某些群体的好处会比其他群体大。问题是，算法应该优先考虑谁的利益？卖方还是买方？富人还是穷人？这些都是分配正义的典型问题。

算法和价格

最后，算法越来越多地干预了市场经济最根本的机制：价格机制。消费者买东西时可能会因其居住的地点而被收取不同的费用（像Staples这类商店对同一种产品的定价会因买家邮编的不同而不同），在不同的时间收费也不同（加油站在高峰时段的收费更高），外部天气情况也会影响收费（自动售货机通过算法，根据气温来为食品饮料定价）。以上例子看起来很简单，但算法干预价格的可能性则激进得多。

研究表明，如果网飞把客户的在线行为（5000个变量，包括用户对IMDB和烂番茄的访问频率）考虑在内，其利润可能会增加12%。一个极端的结果将表现为“因人而异定价”，即算法将准确地收取顾客在付款时所能接受的最高价格。这种做法在以前是不可能的，卖主没有足够的买家信息，而且把价格变来变去也不可行。但是，在数字生活世界中，情况却并非如此。当我使用数字应用程序购买物品时，基于本人曾经的消费习惯和卖主对我的其他了解，也许很难知道现在所显示的价格是不是专门为我设定的。

算法对价格机制的干预引发了关于分配正义的深刻问题。这难道仅仅是人们为同样的东西支付不同价格的问题吗？对于稀缺社会物品的分配，市场已经不能保证满足最不富裕的人或社会物品使其享有优先权。市场也不能保证机会平等，或者确保人们得到他们应得的东西。因人而异定价会使情况变得更糟。一个病人可能愿意为一场挽救自己生命的简单手术支付一生的积蓄，但这意味着他应该支付这笔钱吗？或许，算法可以为再分配的目的服务，对于同样的商品，富人多付一点，穷人少付一点。

算法和承认

未来，算法除了在分配资源方面发挥作用，还将越来越多地用于对人类进行识别、排名、分类和管理。这意味着争取承认的斗争将在代码领域展开，就与在法律和规范中一样。

算法在争取承认的斗争中有三个方面的重要意义。

数字的不尊重

曾几何时，我们都领教过公务员的粗暴，或者被客服人员看扁过。当下能对我们不尊敬或不人道的还只有人类；然而，在数字生活世界里，这种情况将不复存在。

2016年，新西兰的一名亚裔男子在线申请护照遭拒，因为自动系统将他上传的照片识别为闭眼照。这只是未来可能发生的情况的暗示：在这个世界上，争取承认的斗争长期以来仅限于人与人之间，而在将来，这个斗争也会扩张至与我们朝夕相处、频繁互动的数字系统。

超过三分之一的美国人承认在言语上，甚至在物理上伤害了自己的电脑。技术不能正常运转就足以让我们义愤填膺了，更何况再加上被智能数字系统驳回、忽视或侮辱时的愤怒和羞辱，尤其是当这种粗暴对待是由种族、性别或其他任意特征带来的。

数字排名

其次，在未来，授予表扬、荣誉、威望和名声的方法也有新花样。粉丝、好友、收藏、点赞和转发已然成为一种新的货币，人们的想法和活动通过它进行评分、衡量和比较。在社交媒体平台上，对名声、名人、宣传和承认本身的追求和接受程度日益上升。

持有和分享对彼此的观点并不是什么革命性的突破，但技术意味着我们可以更频繁、更有效和更精确地表达这些观点。最大的不同在于，算法越来越多地决定了这些排名和排序系统如何发挥作用，选择谁被看到，谁被隐藏；谁入局，谁出局；哪些内容会像病毒一样传播开来，哪些内容注定无人问津。

数字生活世界中会有很多“可见性的不平等”——我们当中有些人将是完全不可见的。过去，决定可见性、地位和尊重的是政治、法律、文化和社会精英。未来，它将更多地由算法来完成。再说一次，这种情况本质上并不是一件坏事。问题是使用新的决定方法是否能比旧方法带来更多的正义。

数字过滤

最后，我们已经知道，在数字生活世界中，感知控制技术将用于过滤我们感知他人的方式。数字系统（包括但不限于增强现实技术）将日渐横亘于人与人之间，决定他们对彼此的了解。在争取承认的斗争中，还有谁的影响力能大过它呢？

算法的不公正

基于数据的不公正

当一种算法应用于选择不当、不完整、过时或存在选择偏见的数据时，不公正就出现了。不良数据的问题对机器学习算法来说尤其突出，因为机器只能依据其面对的数据来学习。

例如为人脸识别而训练的算法，如果它的训练集主要是白人面孔，那么在遇到非白人面孔时，机器就很难或者根本识别不出来。如果语音识别算法是从包含大量男性声音的数据集中训练出来的，那么它将无法辨识女性声音。如果训练时接触的主要是白人面孔，那么就连一种可以根据面部对称、皱纹和年轻程度等所谓“中立特征”来判断人是否美貌的算法，也会发展出对白种人特征的喜好。

在最近的一次竞赛中，来自世界各地的60万名参赛者发送了自拍照，由机器学习算法进行评判。在被认为最具吸引力的44张面孔中，只有6张不是白人，而其中肤色明显偏黑的只有一人。一个名叫Flickr的图片网站将黑人照片自动标记为“动物”和“猿猴”，将集中营的照片打上了“运动”和“攀爬架”的标签。谷歌的照片算法竟把两个黑人标记为“大猩猩”。不管算法有多聪明，若给它灌输的都是对世界的片面或误导性的看法，它就不会公正地对待那些被隐藏在其视野之外或光线暗淡处的人。这就是基于数据的不公正。

基于规则的不公正：显性与隐性

即使没有数据选择不佳、不完整、过时或选择偏见的影响，若算法应用的规则不公正，也会产生不公正。这包括两种类型：显性不公正的和隐性不公正的。

显性不公正的规则是指：根据表面上看起来就不公正的标准来决定有关分配和承认的问题。某机器人服务生被编入拒绝为穆斯林服务的程序，只因对方是穆斯林；某安全系统被编入针对黑人的程序，只因为对方是黑人；某简历处理系统被写入拒绝女性申请者的程序，只因对方是女性。这些都是显性不公正的标准。它们之所以不公正，是因为挑出来的个人特征（宗教、种族、性别）和其导致的分配或承认被剥夺的结果（一盘食物、进入某建筑物的许可、一份工作）之间没有原则性关联。

显性不公正的规则在涉及种族和性别等特征时最为明显，这些特征在过去是典型的压迫依据，与该规则的适用背景无关。然而，导致不公正的其他标准还有很多。

以相貌丑陋为例，如果我拥有一家夜总会，它安装有扫描人脸的自动门禁系统（叫它“机器保镖”好了），够漂亮的人才准入内，这样算不算不公平？现实生活中的保镖也总这么做。如果应聘者具备胜任这份工作的资格，而招聘算法却基于应聘者的信用分数将其拒绝，这种做法是否有失公允？反过来说，如果某人是Facebook上某有钱人的朋友，信用评分算法就去给他更高的评分，这公平吗？根据现行法律，这些例子可能并不构成歧视，但仍可以说它们是不公正的，因为它们依据标准，而非参照与个人直接相关的属性，来确定人们是否能够获得一项重要社会福利。

规则在很多方面都可能是显性不公正的。这里有一个任意性的问题，即所应用的标准和所寻求的东西之间无关。或者它们违反了“群体属性谬误”（group membership fallacy）：我属于一个群体，而这个群体往往具有某种特征，但这并不意味着我一定也有那种特征（这一点在概率的机器学习方法中时常被忽略）。

还有一个根深蒂固的问题：来自高收入家庭的学生在大学取得更好成绩的可能性更大，但以家庭收入作为录取标准显然会加深已然存在的教育不平等。这是一种因果关系谬误：数据或许会显示，打高尔夫的人往往在生意上更成功，但这并不意味着他们生意的成功是打高尔夫带来的（在此类基础上的招聘很可能与正义原则相龃龉，因为正义原则认为招聘应该择优录取）。这只是其中几个例子，鉴于我们对人类无知和偏见的了解，它们显然只是冰山一角。

隐性不公正规则是指：不直接单独粗暴对待任何特定个人或群体，而是间接地使某些群体受到不如其他群体的待遇。如招聘规则要求应聘者身高必须超过1.8米，喉结突出，尽管它并没有提及性别，但显然是对女性更不利的。

隐性不公正的规则有时被用作公开的性别歧视或种族主义的遮羞布，但不公正这种副作用总归不是人们乐于接受的。

想象一下，一个软件工程师的招聘算法会优先考虑18岁之前就开始编程的人。如果你和大多数人一样相信，早年的学习经验是日后熟练度的良好指标，那么这个规则似乎是合理的。它并没有直接挑出任何社会群体给予较差待遇，因此它不是显性不公正的。但在实践中，这个规则就可能会损害女性候选人的前途，因为文化和代际因素，她们年轻时或许没有接触过计算机科学。同时，它还会限制年龄较大的候选人的机会，因为他们小时候家里甚至没有个人电脑。因此，一个看似合理的规则可能会间接地使某些群体处于不利地位。

被机器和人无礼对待，究竟哪一个更糟糕，还不太容易回答。不过，无论机器还是人，皆事关正义。

本文来自微信公众号：理想国imaginist（ID：lixiangguo2013），作者：杰米·萨斯坎德，翻译：李大白，配图来源：《社交网络》《人生切割术》《黑镜》《老友记》

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

我被“大数据”了，然后呢？

大 家 都 在 搜

大家都在搜