扫码打开虎嗅APP
本文来自微信公众号:差评X.PIN (ID:chaping321),作者:世超,撰文:粿条,编辑:米罗&面线,题图来自:视觉中国
相信大家在前两天应该都刷到过“微软蓝屏”事件了吧。
随着国外媒体同行们的不断深挖,关于这起事件的猛料是越来越多了,所以这个时间点跟大家来盘一盘这件事刚刚好。
事情的起因是这样的,有家叫做CrowdStrike的网络安全公司,他们检测到了新的网络攻击技术后,就对软件进行了例行的更新推送。
结果……这一更新直接把所有用了他们家产品的设备干瘫痪了。
机场、银行、金融、交通运输、零售、医疗……各行各业无一幸免。
在德国柏林勃兰登堡机场,乘客们因为设备故障进不去安检口。
伦敦车站的售票机蓝屏,导致人们买不到车票。
纽约时代广场的标志性广告牌,也喜迎“蓝屏时代”。
向来心直口快的马斯克当然也是在X上激情开喷,还发了一张“火烧CrowdStrike机房”的AI图片,因为CrowdStrike这回捅的篓子影响到了特斯拉的生产线。
“整活害得是你啊,老马!”
总之,这起蓝屏事件几乎影响了所有行业,就连美国的专家都说“看到这种连锁反应,我人都傻了。”
而CrowdStrike捅出的篓子之所以这么大,主要也是因为他们的产品是真卖得不错。
按照市场调研机构IDC的数据,CrowdStrike是终端保护软件行业中仅次于微软的存在,在126亿美元的市场中占到了18%的份额,全球的客户就有2.9万家,所以这回影响到的设备是数百万台。
CrowdStrike,人称美版360企业版(狗头)。
而且让人哭笑不得的一点是,他们这回犯的错误还有点抽象。
从CrowdStrike自己披露的细节,以及安全专家们的分析来看,问题的源头在于一个很小的文件,这个名称为“C-00000291*.sys”是CrowdStrike Falcon平台的一个配置文件,也被称为“通道文件”(Channel File)。
而这个特定的291通道文件就是负责控制Falcon对Windows上的“命名管道”(Named Pipe)执行动作进行评估。
嗯……这么说可能有点难以理解,咱们简单点来说。
打个比方,Falcon就是一个保安系统,它会监视Windows系统里程序的各种活动,而程序之间会通过一个叫做“命名管道”的东西来传递信息。
那么该怎么去判断和处理这些“命名管道”里的活动呢?这个时候就要用到这个291文件,它的作用就像是一个规则手册,Falcon保安系统拿着这本册子就可以判断:哪些的活动是正常的可以放行;哪些活动是可疑的需要检查;哪些活动是有害的需要制止。
如下:进程A到B之间的通信就是通过管道来完成▼
但是CrowdStrike在更新中往291文件里面塞入了一条完全不合理的规则,就好像你邀请别人来家里,但却开了邻居的门,然后说进去吧,邻居:???
所以,在执行291这个错误规则时,Falcon触碰到了Windows系统中它本不该接触的部分,引发了非法的内存访问,最终导致整个系统崩溃蓝屏。
想要解决这个蓝屏问题,还没办法用咱们的祖传绝活“重启”,而是要手动删除这个有问题的配置文件“C-00000291*.sys”,以防止系统在启动时再次加载并解析该文件。
但关键是很多用户连进入系统界面都成问题,这就很难绷……
除了莫名其妙地往更新里塞入了错误文件外,这回CrowdStrike还暴露出了很多其他问题。
比如就有安全大佬指出,每一次的规则更新都应该坚持灰度分发、监测和回滚等策略,而这回CrowdStrike的更新完全就是自动推送的,用户们压根来不及反应,事情发生后也没有回滚机制,只能靠用户自己手动解决。
还有个问题是:杀毒软件居然有这么底层的权限?
针对这点,之前微软顺势跳起来吐槽欧盟说:“当年就是它让我向安全软件开放底层权限的。”
这波啊~我只能说微软真是个纯纯的乐子人了,既然事情跟自己没关系,之前还老是被欧盟罚款,这回就狠狠地暗讽了一波欧盟。
所以,现在安全软件公司只要稍不留神在系统底层搞点花活儿,就容易把整个系统整崩溃,那Windows可不就只能蓝屏伺候了。
还有个有趣的事,之前就有人整出类似的大事儿,而且好巧不巧,这两起事件的始作俑者都是同一个人,前杀毒软件McAfee CEO、现CrowdStrike CEO——乔治·库尔茨(George Kurtz)。
乔治前后两次出手,全世界的数百万台电脑都抖一抖,这种堪称史诗级的操作,应该也是后无来者了。
到这里,关于这起蓝屏事件的前因后果就跟大家聊得差不多了。
这件事对于咱们来说影响比较小,属于事不关己高高挂起,毕竟CrowdStrike之前就对中国大陆禁售了,咱们也“享受”不到他们的服务。
但从另外一个角度来说,这起事件的经验教训还是值得国内产业好好复盘学习的。
因为CrowdStrike事件暴露出来的是,系统安全也是数字基建的重要部分,会波及到各行各业的正常运转,咱们想要走向数字强国,系统安全这块还是得搞好。
资料来源:
CrowdStrike导致大规模系统崩溃事件的技术分析——安全内参
What caused the huge global IT outage?——FINANCIAL TIMES
CrowdStrike导致全球性IT基础设施中断事件分析报告——奇安信