扫码打开虎嗅APP
本文来自微信公众号:CSDN(ID:CSDNnews),作者:八宝粥,责编:张文,头图来自:视觉中国
CSDN 编者按
疫情给全球造成了不同程度的影响,美国每日新增病例一直以万计数。而传染性疾病的传染和预测模型,在传统的机器学习当中非常普遍,然而一位 27 岁青年顾右洋(音译,Youyang Gu)凭借一己之力搞出来的预测模型却将美国各大机构的结果甩在了后面。项目得到了民众甚至业界的广泛关注,后得到了美国疾控中心的引用。
美国民众也感受了一把 “研究机构的参差”
2020 年疫情爆发之后,全球对于此次疫情都较为关注,但是关于疫情走势的论文寥寥无几,只有国内几家医学院和医院进行了数据采集和有效的文章报道。2020 年 3、4 月份,美国有两大预测机构,一个是伦敦帝国理工,另一家是美国华盛顿大学健康指标和评估研究所(IHME)。然而常在河边走,这两家机构的结果真的让美国民众感受到了“研究机构的参差”。
帝国理工提出警告,美国到 2020 年夏天将有 200 万人死于疫情;而 IHME 则发出了保守的预测,表示到 2020 年 8 月份死亡人数会达到 6 万人。结果表明,八月初,美国有 16 万人次死于疫情。这种“巧妙”避开了真实值量级的预测,令人失望,也让 26 岁的顾同学决心利用自己的专长进行大数据预测。
2020 年 4 月,他建立了关于疫情的网站,没有多久,该网站显示的结果就被发现比拥有更多财力和人才的机构更加准确的结果。
2020 年 5 月下旬,顾同学在社交网络发布内容,宣布该网站一直是每周最精确的模型,甚至对于 5 月 16 日的死亡人数的误差在万分之一。“模型预计 5 月 16 日有 88767 人死亡,实际报告有88,751人死亡”。
该模型预测能力在 2020 年 5 月几乎成为了最优解,连杨立昆(Yann LeCun)大佬都连连称赞:
这种级别的精度,难免让人怀疑他是不是发现了数据发布的规律或者搞到了预测的 Bug。可是话说回来,这也不是什么算法比赛,而他所利用的数据也都是公开的数据。所以这些大厂和机构预测结果被顾同学碾压,究竟是技不如人,还是存在人为控制,也不得而知。
但是顾同学确实发现了一些问题,最初在考虑住院人数、其他因素等关系的时候,发现各州和联邦的结果不一致,因而选择了“死亡人数”这样一个更可靠的数值来进行衡量,依靠过去的死亡,预测未来的死亡,并将其作为唯一可以可以用来过滤噪声的变量。
IHME 此前一直为美国当局大量引用,IHME 主管克里斯托弗·默里(Christopher Murray)曾表示,一旦该组织在 4 月以后更好地控制了该病毒,其预测就会大大改善, 试图告诉人民死亡人数将在 7 月份清零。该做法不得不让人怀疑这种预测可能受到了某种不可抗力的影响。也正是因为如此,其他机构通过大量因素参考得到的预测结果,就不可避免地比顾同学的模型多出了更多的噪声。
4 月底,华盛顿大学著名生物学家卡尔·伯格斯特伦(Carl Bergstrom)在社交网络发布了关于顾同学模型的内容,而美国疾控中心也将该模型纳入了预测网站。此后,他也受到了包括包括《华尔街日报》,《经济学人》,《纽约时报》,《华盛顿邮报》,NPR 等媒体的报道。
为什么不做预测了?为什么又来了?
当顾同学看到其他机构的模型已经逐渐成熟和精确以后,觉得自己的工作已经完成了,准备停止项目了。项目停止前的 1 个月,对于 11 月的死亡人数依然有较高精度的预测,仿佛先天知道结果一般。
即使如此,依然有人在“酸”,比如 IHME 的默里就表示,顾同学的机器学习算法能理解短期预测,但是不能理解“全局”。于此,顾同学没做过多回应,而是感谢了默里等人做出的贡献,深藏身与名。
当然,深藏身与名是不可能了。毕竟已经这么“火”了。
然后他又继续在网站上开始自己的贡献,因为疫苗的出现和群体免疫的提出,他开始在这些方面进行一系列的预测和定期信息收集。研究对象也从美国各州镇到了世界各地。
顾同学其人
顾同学出生于中国上海,在伊利诺伊州长大。公开信息显示,顾同学拥有 MIT 电气工程与计算机科学和数学双学士、电气工程与计算机科学硕士学位。在 MIT 的计算机科学与人工智能实验室的自然语言处理小组完成了自己的论文。
此后他从事了金融行业,从事交易算法工作。他的项目也只是在网站众筹捐款,希望自己的数据不受任何利益冲突和偏见的影响。
于我而言,年龄只是一个数字。进行批判性思考和适应新的信息无需数十年的积累。作为局外人甚至是一种优势。在这个信息易得的数字时代,不要让缺乏专业领域的知识阻碍你追求自己真正的兴趣!
疫情预测的中国力量
疫情当中首当其冲的中国、也是对疫情最重视、控制最好的国家,在疫情预测方面也给出了自己的贡献。
2020 年 5 月,兰州大学发布新冠肺炎疫情全球预测系统。该系统两次获钟南山点赞,在日前出席的广州实验室科技助力基层疫情防控万里行”活动当中,也对兰州大学这套系统有所称赞。
有趣的是,和上述顾同学一样,这套系统也并非医疗研究机构的成果,甚至连模型也不是常规的流行病模型。
该套系统是“西部生态安全省部共建协同创新中心”开发的,发挥了统计—动力方法气候预测方面的技术专长和优势,在现有区域疫情预测模型基础上,综合考虑环境温度、湿度和疫情防控措施等关键信息对疫情传播的影响,开发出了具有自主知识产权的《全球COVID-19疫情预报系统》。
NO2 是重要的大气污染物,其浓度变化能够定量地反应政府管控措施的强度。当地NO2 浓度异常偏低时,意味着交通流量显著降低,政府管控措施起到了增加社交距离的作用,这将减少病毒传播。我们之前的研究结果显示,新冠疫情传播的最佳温度是 5~15 ℃ ,而严格的隔离措施有助于减少感染概率。因此,系统引入了温度、湿度和政府管控措施三个变量,对传统流行病学模型进行改良,融合了不同学科领域的成果。
八仙过海,各显神通,专业人士也不会落后。由中国国家呼吸医学中心、广州呼吸健康研究院等开发、钟南山院士参与支持和研发的新冠各地疫情科学预测系统于 2020 年 11 月上线公测版。该预测系统包括“世界地图”“中国趋势”“各国趋势”“疫情预测”“疫苗进展”“疫情监测短信订阅”等功能。为全球抗击疫情提出了有力的支撑。
总结
在这个信息易得的数字时代,缺乏专业领域的知识已经不是不懂的理由,只要你想学,总有所收获。也以此为契机,希望大家都能够利用自己的专业专长,为全球抗击疫情和国家强大贡献力量。
参考资料:
http://covid19.whalemed.cn/#/epidemic-forecas
https://covid19-projections.com/about/https://youyanggu.com/about
本文来自微信公众号:CSDN(ID:CSDNnews),作者:八宝粥