扫码打开虎嗅APP
本文来自微信公众号:InfoQ(ID:infoqchina),作者:核子可乐、Tina,头图来自:视觉中国
Oracle 的广告技术部门,因服务器处于不安全且未设置密码的状态,导致数据库中全球数十亿人的记录被泄露。
Oracle 于 2014 年以超过 4 亿美元的价格收购了初创企业 BlueKai ,并将其产品添加到 Oracle 的数据云(ODC)和营销云(OMC)中。BlueKai 通过 cookie 和其他跟踪技术监视网络上的用户,并为第三方提供数据收集服务,同时维护着一个大型数据库。因为背后有 Oracle 的支撑,BlueKai 的发展相当迅速。据 Whotracks 网站估计,BlueKai 跟踪了所有 Web 流量的 1%以上。
但在相当长的一段时期内,保存这些数据的服务器压根没有设置密码,导致网络跟踪数据被全面泄露在公开互联网上。
其中的数十亿条记录,随时可供任何人翻阅查看。
曝光出来的这些记录,显示出极高的透明度,包含姓名、家庭住址、电子邮件和其他比如付款交易等个人信息,因此通过用户的“数字画像”可以长期追踪他的在线活动。
例如其中一条记录,可以具体到某德国男子(这里隐去真实姓名)曾在 4 月 19 号在电子竞技博彩网站上购买了 10 欧元的注码,还包含该男子的居住地址、电话号码与电子邮件地址。另一条记录显示,一位住在伊斯坦布尔的用户曾在一家家居用品商店在线购买了价值 899 美元的家具,内含买家的详细信息,包括真实姓名、电子邮件地址以及买家订单的网络链接等。
安全研究员 Anurag Sen 发现了该数据库,并向 Oracle 方面报告了自己的发现。随后 Oracle 将数据库进行了脱机处理。但不管怎么样,此次曝光数据库的庞大规模都使其成为今年发生的最大安全违规事件之一。
事件回顾
科技巨头 Oracle 是少数几家在互联网跟踪技术领域拥有强劲实力的硅谷企业之一。该公司斥资数十亿美元收购众多初创企业,并借此构建起全面的用户网络浏览数据视图。初创公司 BlueKai 于 2014 年以超过 4 亿美元的价码被 Oracle 收入囊中。
BlueKai 使用网站 cookies 及其他跟踪技术监视用户的网络动向,依靠从各种来源不停地收集数据以了解市场动态,并结合人们的利益诉求发布最精准的广告内容。
营销人员可以利用 Oracle 庞大的数据库,通过信用机构、分析企业以及其他消费者数据源(包括日均数十亿个数据点位置)获取信息,最终确定最符合受众口味的广告内容。此外,营销人员也可以上传经过整理的消费者个人数据,例如注册网站或订阅商业新闻时需要提交的个人信息。这部分数据看似并不敏感,但在彼此融合之后,却能够为个人用户及其设备创建出唯一“指纹”,借此跟踪对方在互联网上的浏览动向。
BlueKai 还能够将用户的移动网络浏览习惯与桌面行为联系起来,保证无论用户使用哪种设备,都可以通过互联网跟踪他们的活动。
BlueKai 收集到的内容越多,对用户喜好的推理就越准确,进而帮助广告商们更加有的放矢地向不同群体发送不同宣传内容。
但在相当长的一段时期内,保存这类数据的服务器压根没有设置密码,导致网络跟踪数据被全面泄露在公开互联网上。其中的数十亿条记录,随时可供任何人翻阅查看。
安全研究员 Anurag Sen 发现了该数据库,并以网络安全公司 Hudson Rock 首席执行官 Roi Carthy 为中间人向 Oracle 方面报告了自己的发现。
根据 Sen 提供的数据,可以从中找到用户姓名、家庭住址、电子邮件地址以及其他身份相关数据。数据中还包含用户的各类敏感网络浏览活动,例如网上购物及新闻退订等各类操作。
Oracle 公司发言人 Deborah Hellinger 指出,“甲骨文公司发现,Hudson Rock 公司 Roi Carthy 上报的部分 BlueKai 记录属于网络公开信息。虽然研究人员提供的初始信息不足以判断到底是哪些系统受到影响,但甲骨文在随后的调查中,发现确实有两家客户未能正确配置相关服务。甲骨文已经采取措施以避免此类问题再次发生。”
泄露的信息透明度极高
在幕后,BlueKai 在不断提取并匹配尽可能多的个人原始数据,并将其与个人资料加以匹配,据此持续丰富对个体的了解并跟踪其最新动态。
但最终,大量原始数据从暴露在外的数据库中泄露出来。
根据此次曝光的一条记录,我们发现某德国男子(这里隐去真实姓名)曾在 4 月 19 号在电子竞技博彩网站上购买了 10 欧元的注码。记录中还包含该男子的居住地址、电话号码与电子邮件地址。
再来看另一条记录,其中显示土耳其国内最大的投资控股公司之一使用 BlueKai 服务对其网站用户进行跟踪。记录显示,一位住在伊斯坦布尔的用户曾在一家家居用品商店中在线购买了价值 899 美元的家具。这类记录中包含了买家的详细信息,包括真实姓名、电子邮件地址以及买家订单的网络链接等等。
在另一条记录中,详细记录了某位用户如何取消新闻邮件订阅服务。记录显示,此人可能对特定型号的行车记录仪很感兴趣。根据用户代理信息,我们甚至可以发现他的 iPhone 系统版本已经陈旧,需要进行软件更新。
BlueKai 收集的数据越多,对个人用户的推断结论也就越准确,自然更有能力发布符合个人口味的广告来赚取利润。
据数据库发现者 Sen 介绍,泄露的数据库中包含为期数个月的信息,部分记录甚至可以追溯到 2019 年 8 月。
EFF 的 Cyphers 指出,“对人们网络浏览习惯的细化分析,可以揭示出对应用户的个人爱好、政治倾向、收入水平、健康状况、性取向以及赌博习惯等。随着我们网络生活的逐渐丰富,这类数据在日常生活中所占的比重也越来越大。”
监控无所不在
BlueKai 无处不在,真正意义上的无处不在。一项估算表明,BlueKai 跟踪的网络流量占全球总体流量中的 1% 以上——其日均数据收集量极为惊人,而且亚马逊、ESPN、福布斯、Glassdoor、Healthline、Levi’s、MSN.com、Rotten Tomatoes 以及纽约时报等全球顶尖网站都成为其监控对象。
但我们要关注的绝不只是 BlueKai。
2000 年后大数据营销企业蜂拥而起,类似的 DMP 数据管理平台在数字化转型过程中具有战略意义,因此相关的数据业务不断在扩大。
我们访问的几乎每一个网站,都或多或少包含有某种形式的隐性跟踪代码,用于在访客遍历互联网时实施监视。这些隐性跟踪器会将网络浏览数据发送至云端一套巨大的数据库内,也正是这些数据背后带来的经济价值让整个互联网得以长期免费运行。尽管大多数网络用户早已意识到这种无处不在的跟踪,但营销行业之外的人们恐怕仍难以想象这其中到底涉及多少数据、相关机构又在怎样处理数据。
以 2017 年引起轩然大波的 Equifax 数据泄露案为例,Equifax 在未经许可的情况下从数百万消费者处收集数据,受到立法者们的严厉抨击。与 BlueKai 一样,Equifax 公司把这些跟踪行为都写在了枯燥冗长的隐私政策里头,但普通消费者谁又会去认真阅读呢?而且就算认真看过,消费者除了被动接受之外也别无选择。要么被跟踪,要么放弃使用。想要免费上网,就必须付出点代价。
只要这样的数据库仍然存在,数据就终有一天会落入错误的人手中,并引发灾难性后果。每个人都应该拥有自己的秘密,也都拥有不被某些人群窥探的权利。当企业收集原始网页浏览或购买数据时,无论如何脱敏,其中都必然包含无穷无尽的真实生活细节。
正是这些小小细节,或许会让每一个人身陷潜在的风险当中。
参考阅读:
https://techcrunch.com/2020/06/19/oracle-bluekai-web-tracking/
https://www.forbes.com/sites/jessedamiani/2020/06/19/oracles-bluekai-spilled-billions-of-records-of-web-tracking-data/#5859450c2c47
https://blogs.gartner.com/martin-kihn/from-bluekai-to-ai-the-adventures-of-omar-tawakol/
本文来自微信公众号:InfoQ(ID:infoqchina),作者:核子可乐、Tina