扫码打开虎嗅APP
本文首发于航通社,原创文章未经授权禁止转载。航通社网站:lishuhang.me 微信号:lifeissohappy 微博:@航通社
书航 6 月 1 日发于北京
2017 年,程序员苏享茂因遭遇前妻翟欣欣“骗婚”索要1000万元和房产赔偿而自杀,引发了社会对“老实人”程序员“接盘”的关注和调侃。
最近,有人号称开发出了检测“小姐姐”的 AI 产品,声称是为了“解救”程序员群体,最终却顶不住舆论压力以“删库跑路”告终。
这样的产品,一旦真的做出来并流行开去,会带来怎样的社会影响?假设它真的有效,你会用它和相信它吗?
它是什么
5 月 27 日,微博用户 @将记忆深埋 表示,他完成了在半年前开始准备的一个项目:将色情网站上的公开视频和图片打标签后做匹配,以实现所谓“以图搜片”,查询者可以通过上传女性照片、视频和数据库做匹配,判断该女性是否疑似从事过色情行业。
他表示,已经“在全球范围内成功识别了 10 多万名”疑似从事色情行业的女性,同时,可以对美颜、Deepfakes 换脸等有效对抗,识别率达到 99%;而对于声音语气模仿采用声纹检测对抗,识别率达到 100%。
不过,他只是自己宣称而已,并且他以害怕违法为由,拒绝开放 API 或查询页面,也不公布论文或开源算法,而是打算做成一个商业产品。有热心网友替他想好了产品的名字:原谅宝。
微博下面一片骂声。激烈反对的以女性居多,相反坚定的支持者多为男性。支持者们认为,在微博下反对的女性反而是“自投罗网”;甚至据传,有一位反对者的微博被“挖坟”,发现了所谓“黑历史”。这就意味着,即使是发个帖说下反对意见,也必须做好万全的准备,确保万无一失才行。
5 月 31 日,本来说要直播接受媒体采访的作者取消了原计划,同时删除了整个项目和数据库,因言论给他人造成不便而道歉告终。只是对这个项目的讨论并没有随着作者“删库跑路”而终结。
正如刘慈欣在科幻小说《镜子》中说的那样,即使某一个人有了惊人发现后秘而不宣,地球上一定会有同时想到同一个点子的其它人率先打破沉默,公开同样的成果。[1]
它可能有私心
令人疑惑的是,作者宣布这是一个商业化的软件,即使他自称将把维持服务器开销后的其他收入,用来捐助所谓的防治艾滋病基金。
然而,他并没有选择最稳妥,也最可靠的方法以获得潜在使用者的信任——也就是将整个技术和背后所用的素材库开源。没有开源,代码便不能接受监督,而外部人士也完全有理由来怀疑它是“暗箱操作”。
例如,产品正常判断出结果之后,有可能被植入一些特定人的特定信息,做所谓“人为矫正”。这就意味着即使其数据源网站中并不存在的片段,也有可能会出现在原谅宝的结果当中。
反过来,也有一些人可能已经识别到,但是假设这人交一些钱,或者采用一些手段,就可以让“原谅宝”不显示这个识别结果,相当于是买了 VIP 会员就“隐身”。
如果不是完全开源以证清白的话,没有办法证明作者能抵挡得住这样的诱惑。
有人说,市场上也有对男版“原谅宝”的强烈需求。问题在于,要找出所谓“渣男”的证据,露脸的图片或视频远远比不上之前传出泄露的开房记录有效。
在众多“资源”中,男性的脸和身材并不是观众“欣赏”的主要对象,男主不出现都没关系,更准确的说是不希望他出现,有很多片子是所谓的第一人称视角。这就会使男性在片中曝光的可能性远远小于女性。
更不用说,这其中有一些片段,其实是此前所谓“裸贷”“裸条”的产物。其中的女性是被逼迫拍摄的,并非本人自愿,当然就更不可能有男性出场。因此,男性的数据集要远远少于女性,如果要做“男版原谅宝”的话,准确率也会更低。
但是女性的需求却是真实存在的。《谷雨》的特稿描写了香港的“私家侦探社”,他们就像是“民间的警察”,帮助客户解决警察无法处理的隐形问题。他们经手的多是商业调查和家庭纠纷,后者包括调查子女吸毒援交、配偶婚外情等。[2]
与这些真实而迫切的需求相比,仅通过“小姐姐”单点突破的“原谅宝”,其产品设计上不可言传的暧昧就非常明显了。
它不能确保万无一失
即便“原谅宝”用某种方法证明了自身的中立和非歧视,但仍有或许不可逾越的技术门槛。
人脸识别可能在某些地方已经比较精准,但在缺乏一个准确的数据库的前提下,“冷启动”的准确率仍然不高,这是一个即使连谷歌或百度这样的技术巨头都尚且无法解决的问题。
现在,苹果 [3] 和谷歌 [4] 都在各自的操作系统中,准备把现有的 AI 算法从网络调用变成本地运算,将整个包压缩到手机能承载的范围之内,搭载最新的 AI 芯片,以便将一些在线运算转为本地运算,以充分保护用户的隐私。
即便如此,这也并不意味着经过少数训练,甚至基本没有训练过的某张随意给定的照片,都能得到很高的准确率。
“原谅宝”声称使用的都是公开资源,一些早已出名的“下海”人士的面孔当然是清晰的,但是识别出来也没有太大意义。至于所谓“素人”,要么脸部有遮挡,要么来自偷拍,导致图像晃动或质量不佳,发生误判的几率非常高。[5]
而且,即使是给定的几个网络社区,也不能说其上传的所有内容都是所谓“自愿”的。由分手后有意报复的一方上传的“复仇色情”(Revenge Porn)或者 Deepfakes 等制造的“换脸视频”,都没有 100% 保险的区分办法。
“原谅宝”作者目前为止披露的技术手段,跟外界预测的没有太大区别,所以他所讲的准确率也不让人信服。
它助长传谣,不能辟谣
“原谅宝”的出现还可能促成不准确的结果大举流传,演变为谣言的传播,给可能无辜的当事人带来不可挽回的伤害。
“原谅宝”如何建立自身可信度,以及攻克技术难关都尚且存疑,不过有很多评论者已经决定信以为真。具体使用者不一定能准确的认识到查询结果的模糊性,并在使用时留一个心眼。
一部分原因是,之前出现过有些违规使用户籍查询系统来做“人肉搜索”的情形。由于户籍不靠算法,可以认为是 100% 准确的,只需要考证截屏是否为伪造;而图像真伪,往往又是由所谓“线人”的人格做担保的,可以寻根溯源。这使得人们习惯了相对“精准”的人肉搜索结果。但是,如果也用同样的眼光来看待“原谅宝”生成的,准确度只有一定概率的结果,就非常容易产生误判。
误判之后,能否纠正呢?太困难了。像是最近有一个谣言说华为跟阿联酋签署了 5G 协议,阿联酋为答谢华为在迪拜塔开展灯光秀。这个传闻已经连续两三天出现在我的朋友圈和群聊当中,即使是一些本身就从事传媒行业的朋友也会转发过来。
实际上,阿联酋与华为签署 5G 协议是今年 2 月初的 [6] ;迪拜哈里发塔亮灯发生在去年 10 月 Mate 20 [7] 和今年 4 月 P30 的中东发布会 [8] 期间。但是,在已经广泛辟谣后,此消息仍在流传的现实,再次证明了“造谣一张嘴,辟谣跑断腿”的道理。
所以,我们并不能指望万一“原谅宝”发生误判之后,就能突然以良好的机制来防止谣言扩散和辟谣。倒不如说,由于“原谅宝”所引发的谣言传播,几乎在这个产品公布出来的那一刻,就是注定了的。
它本质上是“人肉搜索”
“原谅宝”所采用的原始数据,以公开状态在网上放了很长时间,并没有掀起什么风浪。然而,这是因为这些数据是打散的,并且没有形成一个系统的链条。
如果“原谅宝”真的如其作者所声称的一般,可以通过极其简易的方法,实现对数据的梳理和总结,使得普通人利用这些信息成为可能,这些信息就从几乎等于不存在一样,转变为对当事人真实可见的威胁。
即使并非“开房”这样敏感的数据,只是一个人普通的人生轨迹,形成完整的链条之后,后果都可以相当严重。微博名人和菜头曾经提出,微博可以帮助人贩子得知博主及孩子的各种详细线索。有位女网友不相信,和菜头就把她的 700 多条微博翻了个遍,并出具了一份含有她所在城市、工作单位地址、孩子的姓名、生日、常去的地方以及家庭结构等的分析报告。[9]
历史上,QQ [10] 、支付宝 [11] 和抖音[12] 都遇到使用者投诉,说利用通讯录、算法等分析得出的“你可能认识的人”推送功能,向其推送了并不愿意再联系的前男友或前女友。即使是这样完全不涉及敏感信息的功能都能遭到争议,那么像“原谅宝”所涉及的领域,如果不遭到更大的非议,反而就很奇怪了。
很多人在匿名状态下,失去了社会身份的约束,容易激发出人性中黑暗的一面。对于涉及别人的隐私,大家都很愿意窥探,有窥私心理,而如果是涉及自己的隐私泄露出去,则一定要坚决反对。
不知是受到先天的影响,还是后天的规训,不同的性别也体现出不同的立场。对自身隐私和安全满不在乎,又有强烈的窥私欲望的,男性居多;反过来,既对别人的历史和隐私不感兴趣,又强烈的在意自己的隐私被曝光的,女性居多。
但有趣的是,经常到别人的微博底下挖坟扒黑历史的,男女都有,特别是在一些触及粉丝“逆鳞”的地方,女性尤甚。[13]
其实,这种因窥私而穿透别人隐藏于互联网各个角落的个人信息,并将其串联起来的行为,正好就是上文说到的“原谅宝”的作用——将打散的数据整合为证据链条,梳理出一个人的数字足迹,带来了极大的社会隐患和人人自危的不安全感。
它的初衷,有更好的方式去实现
作者说,“原谅宝”开发的初衷是为了避免程序员陷入所谓的“女神”陷阱。然而,如果只是想让程序员不做“接盘侠”,想让他们找到品行端正的另一半,就只有这一条路可走?
除了这种反向识别出“小姐姐”的方式之外,明明还是有可以正向识别的方式的。为什么人工智能不能通过一些选择项,让一些默默无闻,藏于深闺,但又渴望真实爱情的好女孩,在人群当中脱颖而出呢?
“母胎单身”绝不可能是男性独有的问题,特别是当城市里其实涌入了不少出身农村,但不愿回去的女孩的情况下,总是会出现单身男女相互不匹配的”结构性资源短缺“。
在知乎的情感问题区,有很多类似“如何让一个男生喜欢上你”的由女性提出的问题。中国孩子在成长阶段,一般都被“禁止早恋”的家长粗暴剥夺了自学恋爱技能的机会,一到上大学或毕业,又被赶鸭子上架要求解决对象问题。这样培养出的,当然有两耳不闻窗外事的男码农,但谁说这样就不能产出觉得恋爱是羞耻的,释放女性魅力是“放荡”的,从而过度封闭自我,不为人注意的女孩呢?[14]
那么,如果这样的女孩能够找到一个同样老实,不会背叛的,又顾家,又上进的程序员,这实际不也是“天作之合”吗?这样的信息,是否能够通过一个正向的所谓“恋爱宝”这样的东西来匹配呢?为什么作者不能从这个方向去想?
退一步讲,即使是从避免“感情骗子”的角度讲,也完全可以做一些更为基础性的工作。
以翟欣欣为例,有人评价她的对外档案十分符合所谓“好嫁风”的描述:长得漂亮,但是穿得很保守,看起来土土的;家世好,家里有点钱,好大学毕业,有不错的工作 [15]。但事发后,她被曝光资料作假,曾有婚史。
这种信息很大概率不会出现在“原谅宝”的数据集当中,但它实际上是“码农”们更需要的。都说区块链追根溯源能解决差不多一切问题,能用区块链或者大数据揪出婚恋网站的公开资料造假吗?这不是比充满了性暗示的“原谅宝”更有用?
小时候,我读到一个故事,但现在已很难找到。故事说,一个优秀的银行验钞员被问到有什么检验的技巧时说,自己也不知道有什么窍门,只是接触纸币时间长了,能感觉到假币的手感不像是真的。
后来,我找到一个媒体报道,说某地发现的拼接假币,验钞机无法识别,是柜台服务人员手工点钞时发现的。[16]
这种“无他,唯手熟尔”的故事说明,解决同样一个问题,我们可以用反向的“堵”,用预设他人不可信任的方法,也可以用正向的“疏”,用给社会造成更小分歧与创伤的手段。
在我看来,现在很流行的概念“科技向善”不需要企业一定得做慈善,而是在面临这样的抉择的时候,去选择那些弥合分歧,而不是撕裂分歧的办法,用保护他人,而不是伤害他人的办法,用双赢,而不是零和游戏的办法,这样就已经是最大的“善”了。
而“原谅宝”这个产品体现出的,就是“科技向善”的反面。
[1] http://www.kehuan.net.cn/book/jingzi/14.html
[2] https://mp.weixin.qq.com/s/glFP-fP2aDQVIK1a0KTuxQ
[3] https://mp.weixin.qq.com/s/shXkZk7-OLEgS1OkW3JyWg
[4] https://www.leiphone.com/news/201905/ArmUEPJXPEx00fuZ.html
[5] https://www.zhihu.com/question/326781498/answer/699600752
[6] https://news.sina.com.cn/c/2019-02-27/doc-ihsxncvf8136019.shtml
[7] https://www.weibo.com/3032210184/GFyC2nATV
[8] https://www.weibo.com/3032210184/HnN6OleI5
[9] https://mp.weixin.qq.com/s/G0e1QX6uofpK59y1LJ_iQw
[10] https://www.geekpark.net/news/155595
[11] https://news.mydrivers.com/1/495/495337.htm
[12] https://news.mydrivers.com/1/619/619833.htm
[13] https://mp.weixin.qq.com/s/PRDB0rTK-S-AyyyB9hjm0g
[14] https://www.zhihu.com/question/267027873/answer/599314321
[15] https://baijiahao.baidu.com/s?id=1601606367980732550
[16] http://www.dffyw.com/fayanguancha/sh/200901/20090117195040.htm