正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
萌虎招新 #大公司情报站
2020-12-06 15:37
程序员进化论,从草莽英雄到达摩院

此稿件为参加萌虎招新的参赛稿件,视频投稿活动正在进行中,详情请戳 萌虎招新


转眼,第12个双十一已经过去,从第一届的27个品牌,5200万元成交额,到如今为期23天的剁手狂欢,4982亿元的成交额。

 


十年前光棍节的光棍们,变成了一个个推着购物车的「尾款人」。

 

想想看,去年我在B站第一期视频,就是和大家介绍李佳琦和薇娅,以及科普淘宝直播的前世今生。还不到一年,他们就已经成了人尽皆知的大主播,「带货」更是堪称年度热词。



消费社会之下的力量,是真的顶。

 

双十一不仅是我等剁手青年拼手速网速的battle,也是阿里员工,尤其是程序员的年度大考。

 

从2009年开始,每年的双十一都是阿里程序员最紧张的日子。他们面对的,是来自全国剁手党的流量攻击。而一批又一批阿里技术人,就在这一次次残酷的战役中幸存下来。



十二年双十一,半部阿里技术史。

 

今天这期内容,我想和大家聊聊双十一背后的阿里巴巴技术史。


01.互联网圈有个著名的论断:腾讯长于产品,百度强于技术,阿里重视运营。

 

也就是说,阿里并不是一家以技术见长的公司。

 

放在十几年前,说得确实没错。

 

比如万能的淘宝网,其实就是7个工程师在湖畔花园关了一个月做出来的,核心系统还是买的美国人现成做好的,稍微改了改就上线了。



再例如淘宝商城,也就是后来的天猫,上线之初,其实和淘宝主站完全是两套系统,两个网站。用户需要重新注册、登录才能进行购物,麻烦到难以想象。

 

随着淘宝、支付宝、淘宝商城日益崛起,用户量订单量越来越大,服务器压力也成问题。

 

以阿里的技术状况,别说双十一这样的活动,能维持日常运转就拼尽全力了

 

偏偏是这样的草台班子,想象力却特别丰富。

 

2009年的秋天,淘宝商城运营团队突发奇想,想要仿照美国的「黑五」,策划一个网上购物节。策划团队盘算了日期,十月有黄金周,十二月有圣诞,唯独11月没有重要节日。


时任淘宝商城总裁,如今的阿里掌门人「逍遥子」张勇拍了板:就11月11日吧,让没事干的光棍来购物吧!

 


第一届双十一的活动口号是全场五折,共有27家商户参加。

 

这场活动,着实暴露了阿里早年技术团队的不成熟。


在活动之前,几乎没有任何预案,服务器容量、网络带宽容量、系统保护,统统没有。程序员和运营们都没想到,淘宝商城的系统竟然如此不堪一击。

 

2009年11月11日,零点一到,被折扣吸引来的用户瞬间上线,淘宝商城流量暴增,一下子把服务器压挂了。工程师们吓了一跳,赶紧跑去重启服务器。重启完毕,系统是恢复了,店铺和商品图片又出不来了。



那一天,淘宝商城的订单量,是平常的十倍。

 

不少文章都记载了那疯狂的一天。很多商家用外链的图片,结果流量太大,把外部图片空间压挂了;有商家的打印机因为打印订单过多烧了起来,淘宝的客服电话被打爆了,只能拉上保安来临时充当客服。



幸运的是,刚好在前一年,阿里技术团队花了大力气,经过一场「五彩石战役」,把淘宝和商城的系统底层架构统一了。


虽然商城的流量爆炸,但相对淘宝的日常流量来说,还不算太夸张,经过一时的混乱,淘宝的交易系统算是扛过了第一次双十一。

 

战报出来,交易额达到5200万元。

 

对运营团队,这无疑是一场大胜,但技术团队却开始担心:才5000多万的交易额,技术就拉了胯,不合适吧?

 


双十一过后,每个阿里技术人都心事重重:明年再来一次,我不知道这个系统顶不顶得住。

 

阿里的管理层也看到了这个问题:底层架构问题再不解决,会严重制约电商和金融业务的发展。还没等到和腾讯百度过招,阿里自己就先自爆了。

 

后面几年的情况,也正如这些他们所预料的。

 

2010年,第二次双十一,程序员们信心满满,给系统加了一倍的容量,应该够了吧?



而消费者给了这些天真的程序员无情的惩罚:9.36亿销售额,整整翻了18倍。

 

那是很多阿里程序员都耳熟能详,最惊险的一次双十一。

 

0点一过,交易量突然飙升至日常的3倍, 支付出现拥堵,系统总容量眼看着就撑不过中午。



那天所有人都在手忙脚乱地关闭各种非重要功能。就像一台电脑,为了保证主程序的运转,杀掉了各种不重要的程序。

 

最后一个功能被砍掉的时候,距离数据库崩盘,只剩下4秒。

 

可以说,第二次双十一和惨败之间,只差了4秒。如果那天系统不幸崩了,说不定现在像过年一样的天猫双十一狂欢节,就不会存在了。

 

就差4秒啊!

 

也就是这一年,中国的快递行业第一次感受到了电商的恐怖,很多人第一次知道了「爆仓」这个词。



再往后一年,2011年11月11日,在这个百年难遇的双十一,交易量又一次翻了3倍多,来到33.6亿元,2200万件包裹。

 

这一年,程序员们再不敢轻敌,虽然一天警报不断,但系统始终没有崩溃,算是顶住了。

 

2012年,淘宝商城成为独立的事业部,改名天猫。

 


为了天猫的第一个双十一,集团提前半年,从5月开始筹划,准备了一大堆方案。

 

可到了当天零点的时候,系统报错、下单报错、购物车支付报错、支付系统报错、购物车的东西丢失……各种报错如潮水般涌来,系统显示交易成功率不到50%。

 

事先准备的紧急方案直接上阵,但效果并不明显。

 


最终到1点,下单高峰过去后,交易成功率才逐渐恢复正常。

 

那几年,做淘宝和支付宝的程序员,太难了。


02.就在天猫和支付宝的兄弟们为了双十一苦苦支撑的时候,另一批程序员也没闲着。

 

2008年,微软亚洲研究院常务副院长王坚博士离职,投奔阿里,09年成为阿里巴巴CTO,阿里云成立。



这个阿里巴巴技术史上「最重要」,甚至没有之一的男人,带领另一批程序员,开始重构阿里巴巴的技术底层架构。

 

他们的主要任务,是自主研发云计算操作系统,为阿里巴巴提供底层计算能力。

 

说得浪漫一点,就是在这艘忒修斯之船乘风破浪的同时,悄悄地把上面所有的材料给换掉,让它脱胎换骨,成为一艘云技术航母。

 


这件事的难度可想而知。

 

为了一步到位,他们直接拿阿里巴巴最核心的宝贝——淘宝当小白鼠,进行改造。

 

这件事情,外面不看好,对内得罪人。

 

在外面,深圳的IT领袖峰会上,李彦宏说:云计算就是新瓶装旧酒。马化腾则表示,这件事几百年一千年以后,到「阿凡达」那个时候还有可能,现在是过于早了。



两位大佬发话,业内对云技术一片唱衰,觉得马云这个不懂技术的老板,是被王坚这个心理学博士给忽悠了。

 

在内部,反对声音同样很大。

 

过去,淘宝和支付宝使用的绝大部分都是 IBM 小型机、Oracle 商业数据库以及 EMC 集中式存储,简称IOE架构。

 

但随着淘宝业务量越来越大,这套架构的问题也越来越明显。

 

上限不高。

 

IOE架构可以说是IT时代的产物,面对互联网时代指数级增长的计算量,继续使用IOE架构,就像顶着天花板往上爬,迟早有碰壁的时候。

 


可这套架构,不少淘宝程序员已经用惯了,对这个要从根子上搞颠覆的阿里云非常不感冒,对自研云计算系统更是忧虑重重。

 

最后还是靠当时的淘宝技术总架构师,也就是现任阿里云总裁行癫,给大家下了决心:「干好了我们大家荣誉等身,干坏了要杀要剐我来扛!」



内外交困,全世界都在反对,但王坚心意已决。

 

在《财新》的报道里,有一个故事。

 


2009年底,当时负责淘宝技术预算的刘振飞向王坚汇报,提出「淘宝2010年不会购买IBM小型机」,没想到被王坚挑战:「既然2010年可以不买小型机了,为什么还要给自己留后路以后还可能购买呢?」

 

于是刘振飞只好在PPT里用粗体写上:「淘宝2010年起不再购买小型机了!」

 

于是3年里,阿里砍掉了高端存储设备,用PC服务器替代了昂贵的小型机,用自研数据库替代了Oracle数据库。

 


这场重构,让淘宝商品库用20%的成本实现了500%的容量。2013年,集团最后一台IBM小型机在支付宝下线。

 

天花板没了,但更难的在后面。


随着淘宝和天猫的迅猛增长,双十一一年比一年疯狂,阿里越来越需要强大的计算力支撑。

 

IOE架构更换完了,但研发多年的云计算,算力却跟不上。

 

就像令狐冲,一身的招式,内功平平。在武侠世界里可以无招胜有招,但在技术世界里行不通。

 

2013年年初,一封内部邮件直达最高管理层,邮件的内容是3个月后,现有算力会达到瓶颈,集团的电商,支付业务无法再扩张,都得被拖死。



这无异于对云计算团队的最后通牒。

 

只有3个月,云计算团队必须完成「飞天5K」的项目,也就是实现「底层计算系统能独自调度5000台服务器」的目标。

 

突破这道门槛,计算集群的规模才能不再受限,保证未来数据量再大,阿里依然有足够的计算力去面对。

 

这是云计算的门槛,是突破算力瓶颈的唯一方法,也是阿里巴巴集团的生死线。

 

这3个月,一批批工程师自发加入云计算的大会战。



阿里技术团队如同完成了人类补完计划一般,不分团队,不分新老,轮班工作。甚至有人入职第一天,谁都不认识,就一头扎进了代码里。


开发到最终阶段时,为了测试云计算的稳定性。程序员们想出了最硬核的测试方法:拔电源。要是连拔电源都能撑过去,这套系统就真的无敌了。

 


随着电源的一拔,每个人的心都吊到了嗓子眼上。

 

四个小时候,重新接通,数据完好无损。

 

一场生死狂奔过后,第一套完全属于中国人的云计算平台:飞天,成功诞生。

 

第二年,阿里启动了「登月」工程,把所有的数据汇集到这个平台上。也就是从此开始,双十一开始逐渐「上云」。



上了云之后的双十一,如同开了挂一般。

 

2013年之后的双十一,逐渐采取了云化架构,再也不用采购大量服务器来支撑这一天的流量需求,也再也没有出现过濒临崩溃的惊险画面。程序员们从此不需要手忙脚乱,可以边喝咖啡,边在电脑前处理各种状况。

 

也就在这一年,双十一备战第一次采用了全链路压测:对整个双十一系统进行线上大流量真实场景读写压力测试,提前发现问题。


同时阿里成立了菜鸟物流,通过大数据提前分仓,并通过物流雷达进行调配。此后,「爆仓」这个词开始一年年地被人淡忘。

 


双十一的用户体验发生了飞跃式的提升。

 

2014年,双十一全天交易量达到571亿,而且在强大的底层技术支持下,实现了零漏单。

 

2015年,淘宝全面转向个性推荐,千人千面,也就在这一年,第一届双十一晚会举办,成功实现了线上线下联动。

 


2016年手机淘宝直播上线,用户可以在手淘和天猫客户端一边看晚会一边参加抽奖和互动游戏。

 

2020年的双十一,为了保证系统稳定,阿里再一次祭出了「拔电源」这种暴力测试法。

 

在双十一技术团队毫无预警的情况下,直接测试在交易系统中注入故障,对用户下单进行限流。并且对数据中心直接进行断电测试。结果故障仅用了1分28秒便被排除,数据中心仅用了4秒便恢复供电,业务完全未受影响。



双十一的底层技术,已经从草台班子进化到了现在的稳如泰山。

 

在阿里技术支撑下,今年双11的玩法更加丰富。10月21日,阿里完成了全球首个多语言实时翻译的电商直播,中文直播被AI实时翻译成英语、俄语、西班牙语等语言 。而这样的直播翻译可以支持214种语言。

 

未来,李佳琦和薇娅的直播间里,说不定会有来自全球的女生为他们剁手。



03.回顾阿里巴巴的技术历程,我们可以明确地找到一条主线,那就是双十一为代表的商业力量,在推动技术的发展。

 

也可以说过去十年,阿里技术一路狂奔,都是为了满足互联网商业指数级增长的计算需求。

 

但从2015年开始,情况倒了过来。技术力量开始反过来推动商业的进步。



标志性的节点,是2015年,阿里正式启动中台战略。

 

简单解释一下,中台就是将底层的数据和技术功能打通,一家公司的不同业务之间,在保证用户隐私前提下,可以共享数据、共用功能模块。

 

一方面,是避免同一功能的反复开发造轮子。另一方面,则是为了业务共通。

 

「中台思维」其实一直是阿里技术的指导思想。从2008年,打通淘宝和商城系统底层架构的「五彩石战役」开始,「底层打通」就是阿里技术人一直在做的事情。

 

后来阿里云的开发,菜鸟和钉钉的诞生,都是基于同样的指导思想。

 


如今,在阿里巴巴的大中台上,消费者、商家、商品、物流的数据都被打通,得到的不仅是效率提升,更是商业创新成本的大幅下降。

 

另一个标志性的事件,是2017年,阿里巴巴旗下研究院:达摩院宣告成立。



这个研究院结合了基础科学、技术创新和商业应用。在阿里的规划中,这个研究院会如同金庸小说里的达摩院那样,成为一个「武学殿堂」。这个殿堂的武艺,就是世界最厉害的技术。

 

达摩院孵化出的半导体公司平头哥,连续发布了玄铁910处理器,SoC芯片(系统级芯片)平台「无剑」和AI芯片「含光800」。含光800在业界标准的ResNet-50测试中,推理性能比目前业界最好的AI芯片高4倍,能效比是第二名的3.3倍。



如今的平头哥,已经初步完成终端处理器IP、终端芯片设计平台SoC和云端AI芯片的布局,未来将推动芯片自主研发,在硬件领域为国产技术寻找突破口。

 

达摩院的成立,是阿里对「未来商业和技术之间是什么关系」的一份答卷,也体现着阿里巴巴的技术价值观:技术创造新商业。

 

现在,阿里巴巴已经有了一套完整的,名为阿里巴巴商业操作系统的概念。基于阿里云、钉钉、菜鸟、阿里妈妈这些数字基础设施,将能力输送到阿里数字经济体的各个业务中。



其中也包括双十一。


04.说回双十一

 

双十一这十二年,让阿里练成了一身的技术内功,而这些技术,又支撑起了双十一数百亿数千亿的成交额,建造出这消费社会里最抢眼的景观,甚至有可能改变未来商业社会的形态。

 

2019年双十一过后,阿里云扛过了全球最大的流量洪峰。阿里宣布,其核心系统已 100% 跑在阿里云公共云上。

 

这意味着阿里巴巴已经正式成为一家「云上企业」,一家全面智能化的企业,一个未来数字时代的新物种。



2020年双11,阿里核心系统全面云原生化,商业操作系统迈向数字原生。

 

阿里相信,数字原生时代会如同第二次工业革命的电气时代一样,改变整个商业社会。

 

再回头看看那句论断:腾讯长于产品,百度强于技术,阿里重视运营。

 

也许十年前,这个说法还挺贴切,那么现在,至少阿里巴巴已经变了,变成了一家不折不扣的技术公司了。

 

疫情期间,钉钉在App Store爆火的案例,我在之前的视频里提到过应该不止一次。在这个新冠阴影仍未退去的大环境下,全球范围内,更多工作、服务向线上转移,几乎成为板上钉钉的事实。

 

社会需要更多的数字化、智能化服务。当下的社会更需要阿里在人工智能、物联网、云计算、数据中心等为社会提供更多价值。



今年9月,阿里巴巴发布了第一款物流机器人「小蛮驴」,同时发布机器人平台。小蛮驴机器人集成了达摩院最前沿的人工智能和自动驾驶技术,具有类人认知智能,大脑应急反应速度达到人类7倍。面对未来即将爆发的物流需求,机器人技术,就是阿里巴巴自己的解决方案。



而就在这个双十一,阿里推出了一项全新的技术:读光OCR。这一技术可以将所有商品的图片信息转成语音信息。今年的双十一,视障人士靠耳朵就能完成购物。

 

在阿里,有一支无障碍技术团队,在努力推进技术平权。

 

虽然淘宝上的视障用户与用户总数相比微乎其微。2019年,双11视障用户的订单交易量不到双11交易量的万分之一。但一项有温度的技术,并不一定在乎有多少经济回报。



在我看来,这正是商业与技术结合的真意:

 

技术的进步推动商业的成功,用商业的成功来创造社会的价值。

  

最后,我想再聊聊技术这件事。

 

有时,做技术,尤其是最尖端的技术,就像在黑暗中奔跑,不知道要跑多久,也不知道有没有跑出去的一天,甚至没有人和你同行。

 

最后看到光明的人,需要无条件的相信,需要一生悬命的投入,需要独自前行的勇气。

 

看到那些阿里技术人的故事,我总是想起阿里巴巴官方纪录片《造梦者》的开头,引用了金庸小说典故的一段文字:

 

「我走过山的时候山不说话,我路过海的时候海不说话。」

 

未来从不开口说话,它只等着造梦的人一路走向它。


本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: