扫码打开虎嗅APP
政府情报机构和企业通常会在人们不知情或说无需通过人们同意的情况下,对公民在网络空间中留下的海量数据进行存储和分析。基于这些数据,他们可以知道人们不同意或反对什么,而这些想法和行动对人们的生活有着深远的影响。虽然大家并不情愿,但事实是我们处于大规模监控之下,至少,美国公民的确是这样。
元数据的真面目
绝大部分人对美国国家安全局(NSA)的了解,要归功于爱德华·斯诺登。作为NSA的项目承包商,斯诺登收集了NSA有关监控活动的成千上万份文档,并于2013年逃到香港把资料交给经过他慎重选择的记者。
这些文档曝出的第一个故事就是收集所有美国公民的手机电话拨打记录,注意,只是拨打记录。据此,美国政府就一直以“拨打记录”为辩护说词,说是他们收集的“只是元数据“。也就是说,NSA并没有收集电话的谈话内容,只是收集了接打双方的电话号码,以及拨打电话的日期、时间和时长。
元数据(Metadata),尽管大多数人并不确切地知道它意味着什么,但听上去似乎能给人带来一定的安抚作用。但实际上,收集元数据同样属于赤裸裸的监控。
比如,国外电影中经常有雇佣私人侦探窃听某人的情节。请注意,这里的用词是“窃听”。私人侦探接收委托后,会在被监视人的家中、办公室和汽车中装上窃听器,偷听电话内容、查看计算机。然后,委托人会收到一份被监听者的详细谈话内容报告。
如果把委托任务从“窃听”变为“监视”呢?最后委托人收到的报告内容肯定有所变化,但范围却更广了。监视包括,被监视人的行踪去向,干了什么事,与谁谈话并谈了多长时间,与谁通信,阅读什么,购买什么等等。这些信息就是“元数据”。简而言之,窃听可以得到谈话内容,监视则包含所有其他的背景或相关信息。
元数据是描述数据属性的集合,是对数据的说明,比如,数据的类型、名称、字段等。
电话元数据还可以透露更多的信息。比如,根据谈话的时机、长度和频率,能推算出谈话人彼此之间的关系。是密友,商业伙伴,还是其他什么人。电话元数据显示被监视人对谁感兴趣,什么对他是重要的,不管这些信息有多么私密。它是窥探人们个性的窗口,它能够在任何时间点绘制出被监视人的事件报告。
有些人觉得不以为然,这些所谓的元数据能有什么严重的隐私问题,是不是有点大惊小怪了?
好,我们来看看美国斯坦福大学做过的一项分析电话元数据的实验,这次实验在几个月的时间里收集了500个志愿者的元数据。
志愿者A与多个地方的神经病学小组有联系,联系过一家专项药房,一个罕见病症管理服务机构,以及一条药品热线,该热线只用来咨询多发性硬化症的复发。
志愿者B与一个大型医疗中心的心脏病专家详谈,还与一个医疗实验室有过简短会话,接过药房打来的电话,并接通过一个家用医疗设备的热线,该设备用于监视心率失常。
志愿者C给一家专门售卖AR半自动步枪的枪支商店打过不少次电话,而且还与AR步枪的生产商客户服务详谈过。
志愿者D一连三个星期与家居改善店、锁匠、水栽经销商和烟草用品商店联系。
志愿者E在一个早晨与她的姐姐通了很长时间的话。两天后,她给当地的计划生育机构打了许多电话,两周后又打了几个,一个月后打了最后一个电话。
这五个志愿者的元数据代表着什么呢?
一个多发性硬化症患者,一个心脏病患者,一个半自动武器持有者,一个家庭大麻种植者,最后是一个做流产的母亲。
搜索引擎的杀伤力
下面我们再来看看网页搜索数据,它是另一种NSA用于大规模监视公民行为的私密数据。有人认为网页搜索数据不能算是元数据,但NSA认为是,理由是搜索词是嵌入在网址中的。(话说这算哪门子理由?)
之所以说搜索数据是私密的,是因为人们不会对搜索引擎撒谎,这些数据甚至比朋友、情人或是家人更与自身紧密和贴切,因为我们总是尽可能准确的告诉搜索引擎,我们在想什么。
谷歌知道每一个人搜索的色情网站,知道人们内心深处的担心和秘密,甚至是耻辱和罪恶。如果谷歌想知道某一个网民心里面正在想什么,它就能知道,不管你是在想逃税还是计划抗议政府的某项方针政策。曾经有人说,谷歌比自己的妻子还了解自己。但实际上还可以更进一步,应该说谷歌比你自己还了解自己,因为它能毫无改变地、永远地记住你曾经在那个长条框里输进去的东西,不管它是什么。
现在,我们来用谷歌的自动完成功能做一个实验(由于工作原因,笔者很少用百度)。这个功能可以实时的把你想要查询的问题补充完整。当我键入“should i tell my w”的时候,搜索框自动会出现以下几个结果:
should i tell my wife i cheated(我应该告诉我妻子我出轨了吗)
should i tell my wife about emotional affair (我应该告诉我妻子我有外遇了吗)
should i tell my wife i filed for divorce(我应该告诉我妻子我提交离婚申请了吗)
should i tell my wife i’m in love with another woman(我应该告诉我妻子我爱上另一个女人了吗)
这些自动完成的内容,全部基于其他人的输入。谷歌知道谁点击了哪一个自动完成的内容,以及所有他们在搜索的东西。谷歌CEO施密特曾在2010年这样说道:“我们知道你在哪儿,知道你去过哪儿。我们或多或少的知道你在想什么。”
如果你有谷歌账号,你可以在搜索历史中查一下,不会让你失望的——年月日精确到分,你都搜索过什么,它都帮你记得一清二楚。
记得有一次,我忘记哪一天去的某个场所,但我记得出去前用过谷歌搜索了这个场所的简介,于是我登录谷歌,轻而易举的把那一天的日期找到。我饶有兴趣往前翻,发现自从我注册谷歌以来,已经被记录了1万多次搜索记录,从衣食住行到生病、学习、娱乐、睡觉,应有尽有。我没有写日记的习惯,但我想,对于互联网人来说,这些搜索记录绝对比日记要日记的多!(PS:我可不会告诉你,百度也一样。)
好吧,2011年我迷过一阵电吉他
元数据可以杀人
还有很多其他的私密数据和元数据的来源。你的网上购物记录会透露你大量的习惯,你的微博会告诉全世界你何时起床吃早餐,何时道晚安睡觉。你的朋友圈和联系人会暴露你的政治倾向,甚至是性取向。你的电子邮件或你的短信息可以显露谁是你职业、社交和个人感情生活的中心,你手机上的APP可以定位你的位置,去过哪里……
数据与元数据可以这样来区别,前者是内容,后者是背景。背景常常比内容显示更多的信息,尤其是把元数据集合起来的时候。当你监视一个人的某次具体行动时,他的谈话内容、手机短信和电子邮件的确比元数据重要。但当你监视一个人的生活,或是大面积区域人口的时候,元数据的作用就无可比拟了。无论是重要性、实用性,还是对问题的判断和预示上,都极有意义。
“元数据绝对可以告诉你某个人其生活的一切事情。如果你有足够多的元数据,你就不需要数据内容。”
——美国国家安全局前法律总顾问斯图尔特·贝克尔
就在去年,前美国中央情报局和国家安全局局长迈克尔·海登曾在一次公开的会议讨论中说过一句令人瞠目的话:
“我们基于元数据杀人。”
接着他为了减缓这句话给人带来的震惊,又补充了一句:
“但我们收集元数据的目的不是用来杀人。”
迈克尔·海登
本文无意去探讨“元数据杀人”的真正含义和背后故事,但本文至少可以看出美国情报机构打着元数据的旗号,却干着严重威胁公民隐私的勾当。君不见,美国参议院以罕见的神速通过《网络空间安全信息共享法》方案了吗?票数是14:1。
相关信息
美国参议院情报委员会于3月上旬通过《网络空间安全信息共享法》,其内容是对企业的信息共享行为增加法律上的照顾,以鼓励美国企业把信息安全漏洞信息共享给其它企业以及政府部门。参议员罗恩·威登是CISA唯一的反对者,他表示,只有在公民合法隐私权利得到足够保护时,信息共享措施才是可以接受的,否则只是另一项用来监视美国公民的法案。