扫码打开虎嗅APP
本文摘自知乎,原问题为“女司机不会开车是偏见还是事实?” ,作者:chenqin。
首先,对昨天重庆万州公交车坠河事故的遇难者表示哀悼。在这起事故中,网民们的反应出现了一个一百八十度大转弯——从一开始对女司机的咒骂,到后来对女司机集体道歉。其中争论的一个关键问题是,女司机开车到底怎么样?
这个问题其实很难回答。目前的数据是怎么算的呢?
比如在这篇最近很火的文章中《女司机真的等于“马路杀手”?我们分析了三个城市的数据找到了答案》,作者使用了男性和女性引起的事故数除以分性别驾驶员人数,得到了这张图:
从这张图看来,男司机的事故率是女司机的很多倍对吧?但这样的计算实际上缺少了一个最重要的环节——登记的司机不等于开车的司机。
类似地,当我们使用分性别车险费率之类的变量来度量男司机和女司机的事故率的时候,也会碰到这样的问题,我们看到女司机的保险费率低时,并不知道保险公司是因为女司机不开车才给了低费率,还是因为女司机开车不容易出事才给的低费率。
问题的关键是缺少一个“风险暴露程度”,也就是暴露于风险的窗口大小。对于交通事故来说,常见的“风险暴露”主要包括里程和驾车时间。
一、驾车里程
例如在 涂子:“女司机不会开”是偏见还是事实? 提到的网址中,可以看到将里程考虑在内的统计数据:
上表一样显示了女性驾驶员的死亡事故数少于男性。
二、驾车时间
在这篇文章中,作者使用了另一个暴露率——驾驶时间。
方式是通过电话随机访谈过去一个工作日的通勤驾驶时间和事故数量,得到下表:
从这张表中能看出,在绝大部分情况下,女司机的单位时间事故率也要低于男性司机。
上面的两个研究结果显示,开车同样长的里程,同样久的时间,女性事故率都是要低于男性的。
但问题是否解决了呢?还没有。因为,即使开同样的里程,同样的时间,凌晨四点驶过街头的半挂重卡,和晚上八点堵在三环上的小轿车,风险暴露的程度也是完全不一样的。而在前一种场景下,坐在车里的几乎肯定是男性司机。而上面的一些分析,最多也只是区分了行人、摩托车和轿车,但我们都知道,车和车之间的差别,大概比轿车和行人之间的差别还要大。
怎么办呢?我最近恰好在使用法律文书数据做一点研究,从2014年1月到2018年10月,一共有105万份和交通事故有关的法律文书时间,上面详细记录了每一起事故,举一个例子:
在上面的裁判文书中有下列字句:
2014年3月15日9时15分,汪杰步驾驶粤THN9**号小型轿车沿沙古公路由古镇往裕祥村方向行驶,驶至中山市沙古公路横栏镇裕祥红绿灯处时,与从古镇往裕祥村方向行驶由郭巨林驾驶的粤TFR0**号二轮摩托车(搭乘植钊洋)发生碰撞,事故造成双方车辆损坏及郭巨林、植钊洋受伤。
在这一份法律文书中,就包含了非常多的信息,比如时间、地点,双方车型,谁开的什么车,事故造成了什么结果,是否有人受伤,是否有人死亡。然后在文书中也可以看到原告、被告的性别、出生年月日。
通过这个数据,我们可以控制更多的变量。
例如事故时间:
上图显示了事故发生的时间和事故中出现死亡的概率,可以看到,死亡率最高的时间出现在凌晨的1到4点,大约每四个事故就有一个事故出现死亡(与半夜运货的重卡有关)。而早晨8点是事故死亡率最低的时间。
例如车型:
被告开的是小轿车时,事故中出现死亡的概率最低,而被告若是开重型货车,那么事故的死亡率飙升至20%。
我们还能识别出的变量包括是否在高速上出事、是否酒后驾驶、是否在市区内驾驶(通过事故地点经纬度来判断)等等。通过这种方式,我们将驾驶事故的场景差异给大大控制住了。
除了以上这些变量以外,使用法律文书数据还能把前面最难控制的风险暴露窗口大小给去掉。
假设所有的驾驶风险是Φ,出现死亡的概率是 P(d),那么要计算谁驾车更容易造成死亡,我们应该计算的是P(d|Φ),也就是在给定风险暴露下出现死亡事故的概率。
但问题是,人们很难去计算Φ,人们不知道怎样才能计算出可比的风险暴露环境来,那自然也无法计算P(d|Φ)了。
而通过法律文书的计算,我们则不需要去计算这个Φ,而是去考虑另一个场景——事故已经发生了,而且至少有一人在事故中受伤或者死亡,设他等于ξ。相对于前面那个难以度量的广义的风险暴露程度Φ,我们现在有了一个更容易控制风险暴露程度的场景ξ。现在去计算P(d|ξ)。
用文字来说,我们前面的计算做了一些什么事?
直接比较事故率的话,必然要用事故数量除以一个分母。而我们不知道分母是什么,往往会陷入女性和男性到底谁开了什么车是倒车时出事还是跑长途出事这种没完没了的讨论,而两个“车型、事故发生时间、事故位置都一样,至少有一人受伤或者死亡(排除剐蹭等轻微事故)”的事故所造成的风险暴露,至少是可控的,也就是分母变得一样了。
我们就是要在这个风险暴露下,计算至少有一人死亡的概率。
举一个例子,“早高峰时间8点到10点,双方都是小轿车,事故发生在距离市中心五公里以内,未酒后驾车,事故造成至少一人受伤或死亡”的场景下,如果被告是驾驶员,那么驾驶员的性别和事故造成死亡的概率之间有什么关系?
再看一个例子,“凌晨3点,双方都是小轿车,事故发生在距离市中心五公里以外,未酒后驾车,事故造成至少一人受伤或死亡”,那么上图变成:
可以看到,在严格控制了风险暴露程度之后,女性司机驾车造成死亡的风险都要比男性低一些。在越容易发生事故的场景,男司机造成死亡的概率超过女司机的程度也越大。
如果我们把这些变量都一股脑儿控制掉的话,那么女性司机驾车造成死亡的概率要比男性低1.4%,系数在0.1%水平上显著。
那么,怎么样直观地去理解这个1.4%呢?
我们发现,在前面计算出1.4%差异的的计算中,若是被告都属于酒后驾车,那么男司机和女司机的事故死亡率差异就立刻消失,在统计上不再显著了。
我们再看第三个场景,事故时间出现在晚上20到23:59分,双方都开小轿车,被告酒后驾车,事故发生地点在市区:
女司机16.67%,男司机16.78%,双方半斤八两了。所以说,男司机和女司机有什么可吵的呢?撑破天了也就1.4%的差异。你以为男女司机的差异很大吗?
十倍的男女司机差异,才能抵得上一杯酒。
本文来自知乎问题:“'女司机不会开车'是偏见还是事实?”,作者:chenqin。