正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2022-04-01 16:11
你在哪里约会“情人”,我知道

本文来自微信公众号:数据杂志(ID:DataMagazine),作者:数字观察员,题图来自:《老友记》剧照


Uber(优步,一家美国硅谷科技公司开发的打车APP,类似我们的“滴滴”),官网曾发布一篇名为“荣耀之旅(Rides of Glory,RoG)”的推文。

 

文中写到,“我们知道,我们(优步)不是你此生唯一的热爱,我们也知道,你们会在什么地方寻找“爱” (we know we're not the only ones in your life and we know that you sometimes look for love elsewhere)。” 

 

什么意思呢?

 

简单说,就是Uber利用大数据分析,推算出用户经常在哪里一夜情。

 

他们筛选出在晚上10点到凌晨4点之间的用车服务,并且这些客户会在四到六小时之后,在距离上一次下车地点大约1/10英里(约160米)以内的地方再次叫车。

 


根据初筛数据描述性分析之后,Uber推断出那些发生一夜情的时间和地点,并将这些地点在纽约(NYC)、旧金山(SF)、波士顿(Boston)以及其它美国城市的地图上进行标注,得出一夜情频繁的高发区。

 

结果发现,波士顿位居美国“一夜情”榜首,而纽约人则显得相对“保守”,“一夜情”的发生率是波士顿的1/5。

 

在时间节点上,一夜情的高频发段是在周五和周六晚上;

 

如果伴侣频繁在这个时间段称自己工作忙在加班,那……

 

Uber此举确实引发了很多关注,但同时也因严重侵犯了用户隐私,遭到客户和媒体的斥责投诉及相关部门的审查严办。

 

抗议以后,Uber迅速删除了这篇博文。

 

“每个硬币都有两面”,大数据技术一方面不断地协助产品优化用户体验,另一方面却在网民的每一个指令间深挖用户习惯与隐私。

 

怎样观察数据的“两面”,而不是被其中一面左右,愚人节(今天),一起来看“数据”是如何“骗人”的。

 

一、选择误差,n≠ALL(所有)

 

波士顿市政府推荐市民使用一款手机应用软件:“颠簸的街道(Street Bump)”。

 

这个应用程序,可利用智能手机中内置的加速度传感器,来检查出街道上的坑洼之处。在路面平稳的地方,传感器加速度值小,而在坑坑洼洼的地方,传感器加速度值就大。

 

Street Bump截图


市民只要下载并打开应用程序,开着车、带着手机,人人皆是义务兼职的市政工作者,而真正的相关工作人员只需打开电脑端软件,就能一目了然的看到哪些道路损坏严重,哪里需要维修。


理想是丰满的,而现实是存在偏差的。


软件在设计之初遗漏了一些细节,造成了选择误差,比如:


  • 用户年龄结构偏年轻化,因为使用智能手机的中青年较多,而拥有一辆车的年轻人却却较少

  • 有多少人愿意为了标记城市坑洼地在开车前习惯性打开Street Bump软件

  • 那些没有完善市政服务的偏僻之地反而是“颠簸的街道”最密集的地方,而那里的人们有多少同时拥有智能手机和私家车


样本n≠ALL(所有)。有些数据只是“有些”数据,更适合在限定条件下做分析,不适合以偏概全。


讲个笑话:


Facebook分析恐怖份子的网络行动数据,与所有美国人的网络行动数据做对比,想以此筛选定位出恐怖份子,结果发现美国遍地是恐怖份子。


二、偏差


二战时,英国发现从战场回来的飞机,机身上的弹孔比引擎和油箱上的弹孔要多得多。因此,很多人主张要在机身上加防护装甲。


事实上,能飞回来的都是“幸存者”,那些在引擎和油箱上中弹的飞机已经回不来了。


所以,更应该在引擎和油箱上装防护装甲。


像这样,眼中只有“幸存者”数据而产生的统计偏差,称为幸存者偏差。


“举个栗子”:


比尔·盖茨(微软创始人)、迈克尔·戴尔(戴尔创始人)、扎克伯格(Facebook创始人)、都是大学辍学创业,因此很多学生也吵着要辍学创业。


事实上,“他们”只是“幸存者”。而只看到了他们成功创业的案例样本即是幸存者偏差。


愚人节,数字观察员祝大家大智若愚……


本文来自微信公众号:数据杂志(ID:DataMagazine),作者:数字观察员

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: