扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词

当双11支付背上“绿色KPI”

特别策划

2021-11-10 14:58

在“3060”的双碳目标下,绿色成为今年双11要回答的新命题。实际上,算力需求越大的地方,就越能成为技术减碳的试验场。

 

从全球范围来看,谷歌、微软、IBM等全球知名科技公司在几年前就开始探索,如何通过技术创新实现数据中心减排,并已取得了一些成效。

 

对于国内的互联网企业来说,如何在保证用户体验的前提下,提高服务器使用效率、减少碳排放,是一件重要但有着极高难度的事情,这也正是技术的重要使命。

 


在电商领域,双11是技术人员的年度大考,也是见证技术变迁的时代注脚。十几年来,在与支付洪峰的对抗中,淬炼了许多耳熟能详的技术能力。曾经的不可想象,已经变为平常。


看似轻舟已过万重山。然而,今年出现了新的变量。

 

今年3月12日,蚂蚁集团对外公布碳中和目标,承诺在2030年实现净零排放。在这样的背景下,蚂蚁给自己定下了双11的“绿色KPI”,并将首次规模化应用“绿色计算”,以降低服务器的用量,减少碳排放。

 

这是一次重大的转变。

 

往年,为了应对双十一如洪水般涌来的流量,蚂蚁技术团队的第一要求是稳定——即扛住压力,不让系统出现支付失败、卡顿、宕机的局面。

 

为了保证用户体验,让系统不崩溃,往往会提前准备大量的服务器,对系统进行扩容,以应对数百倍于平时的流量峰值。而流量洪峰往往就在双十一的几个小高潮,其他时间段中闲置的资源造成了大量的浪费。

 

要实现绿色计算,就得在减少服务器用量的同时,保证业务稳定和用户体验不变。

 

完成“绿色KPI”,背后是蚂蚁几代工程师不断突破焦虑、挫折与想象力极限的一场接力赛。

 

初生:猝不及防的四秒惊魂

 

2009年双十一的故事大家都已经耳熟能详——突然闪现的点子、简单粗暴的五折、仅27家品牌、狂欢的消费者,还有那张流传极广的淘宝业务团队拼起5000万销售额的图片。

 

刚起步的双十一,对技术人员来说是一场磨砺,对支付宝团队来说尤其如此。

 

2010年,经历过前一年不得不重启服务器的惨痛教训后,技术团队作出了调整:成立了双十一大促小队,进行了流量预测和大规模地扩容和改造。

 

2010年11月11日零点一过,支付宝业务量迅速攀升到平时最高值的3倍,但并没有出现致命的故障。就在大家以为峰值已过时,零点钟声敲响后的30秒,核心账务系统的报警声响起,系统资源即将耗尽。

 

更关键的是,当时根本来不及对数据库进行拆分,只要一崩溃就意味着所有的业务停摆,造成巨大的损失。

 

支付宝的工程师们飞速敲响键盘,关闭一个又一个的应用,在数据库崩溃的4秒前,终于释放出足够的资源,挽救了那一年的双十一。

 

双十一最开始只是以个促销和推广的点子,但中国经济和互联网的快速发展,让平台一再承受这种前所未有的流量压力。正是这种意外的压力,让蚂蚁在磕磕碰碰中,不断突破技术的边界。

 

体检:是骡子是马,拉出来遛遛

 

虽然先后在团队组建、系统扩容和底层技术等方面作出了努力,但急速增长的流量还是带来了各种各样的问题,技术人员开始产生了“双十一焦虑症”。在这种焦虑中,各种各样的技术创新接踵而至。

 

比如今天被整个互联网行业作为大促备战核武器的全链路压测。所谓全链路压测,是根据对双十一的流量峰值的预判,提前在内部进行模拟演练,再将演练过程中出现的各种问题一一解决。

 

2018年支付宝大促保障副队长巩杰说,“全链路压测对真实用户请求的模拟可以达到与双十一当天请求90%以上一致,到了双十一当天,平稳度过的概率就极高了。”

 

比如,OceanBase数据库。很早的时候,支付宝技术人员就意识到,旧有的IOE技术架构不足以满足未来的业务发展,即使勉强实现,成本也会高得无法想象。为了能够从底层架构支撑海量流量,支付宝加速推动“去IOE”,即用自研系统来替代业内普遍使用的IBM服务器、Oracle数据库和EMC存储设备。

 

于是诞生了今天被很多银行广泛采用的OceanBase数据库。OceanBase最早只是应用在淘宝的收藏夹上,后来拿到1%的业务量、再后来拿到10%。到2016年,成功支持支付宝核心的交易、支付、会员和账务等,并且创造了新的纪录:交易创建17.5万笔/秒、交易支付12万笔/秒、全天累计支付10.5亿笔。

 

2019年10月,经历过多次双11检验的自研数据库Oceanbase,超过Oracle首次拿下 TPC-C测试第一名


而老牌的数据库提供商Oracle在中国的市场份额则持续下降,更在2019年5月宣布中国区首批裁员900人。

 

双十一就这样成为蚂蚁技术创新的淬炼台,是骡子是马,双十一遛遛就知道了。一匹匹“千里马”从双十一走出去——除了全链路压测、OceanBase之外,这份名单还可以列得很长:


2013,支付宝最后一台小型机下线。


2015年,支付宝系统实现“三地五中心”异地多活,蚂蚁金融云发布。


2018年9月,蚂蚁三地五中心异地多活解决方案进行现场“剪网线”,系统实现自动切换的时间仅需26秒。


2018年11月,支付宝支撑双11自主研发的核心技术实现100%开放。


2019年,通过SOFAMesh,分时复用的资源切换从4小时下降为3分40秒;OceanBase2.2再次刷新了数据库处理峰值,达6100万次/秒,创造了新的世界纪录。

 

2013年6月,支付宝下线最后一台小型机


2021年,开头提到的绿色KPI,便是今年要在双十一接受挑战的绿色计算。

 

技术转身:不但要快,也要更绿

 

对于涉及到金融的技术,蚂蚁的首要任务一直是稳定。没有稳定,一切都无从谈起。

 

但今年,蚂蚁的绿色KPI意味着,不但要保障稳定,更要减少能耗。

 

气候变化、双碳目标的新时代背景下,做到稳定只能算拿到了及格分,更为重要的是,如何继续承担起引领行业技术发展的责任。这不仅是外界对于平台的期待,也是平台实现可持续发展的必由之路。

 

蚂蚁集团可信原生技术部负责人何征宇博士坦言,“我们做这个事情,对于蚂蚁来说不容易,蚂蚁上面跑的很多都是金融业务,而金融业务对安全性、稳定性有非常高的要求。我们在提高效率时,克服了很多困难,包括我们自身的容灾要求,安全保障要求等。”

 

从常规的思维出发,要实现减排,先要清楚哪些地方会产生碳排放。

 

当前应用最为广泛的国际排放核算工具温室气体(GHG)核算体系,将碳排放分为三类,分别称为范围1/2/3。其中范围一是企业的直接排放,比如车辆、食堂的燃气等;范围二是企业外购的电力、燃气、供热等导致的间接排放,比如电脑、电灯、空调等用电用暖产生的排放;范围三则是除了范围二之外的其他间接排放,如蚂蚁的数据中心带来的碳排放。

 

针对范围1/2,蚂蚁选择了购买绿电、建设低碳园区、倡导低碳的工作方式等。

 

作为互联网公司,蚂蚁集团最主要的碳排放其实来自于数据中心,这也是行业特点。一份报告显示,2018年国内数据中心的用电量达到1608.89亿千瓦时,超过上海全社会用电量(1567亿千瓦时)

 

蚂蚁集团社会责任部高级专家王玲玲说,“推动数据中心减排时,我们遵循两个思路。第一,我们会选择一些具有绿电资源、PUE较低的数据中心,以及采购新型服务器等。第二,如何高效使用数据中心资源,提高算力效率,这就是蚂蚁集团绿色计算的应用。

 

数据中心的能耗包括IT设备和非IT设备,常以PUE(总能耗/IT设备能耗)来衡量。非IT设备能耗占比越小,PUE越小。PUE越接近于1,数据中心越节能。

 

降低PUE也是目前业内主要在做的硬件减碳,但在何征宇看来这还不够。“打个不恰当的比方,给你一台计算机非常高效,但是你在里面写的程序都是一些死循环,就是写了一些死机的程序,这个排放也是大的,没有产生真正的业务价值。”

 

蚂蚁更看中的是,“消耗的每一分能源、每一分电力,是不是真正能够为整个社会、整个行业带来一些更好、更高效的服务”。这正是蚂蚁的技术优势,也是绿色KPI的初衷所在。

 

破题:云计算,也要“绿计算”


目前,蚂蚁主要采用三种技术手段来实现技术减碳。

 

首先,是在空间上,把不同服务器的闲置资源利用起来。数据中心所要完成的任务,根据可靠性、响应速度等的要求不同,可以分成离线任务和在线任务。

 

何征宇表示,“一些传统的做法,包括互联网行业很多公司在做的,是把在线任务和离线任务分开部署的,在线一个集群,离线一个集群。在线那个计算机是用不满的,消耗了电力,没有提供服务。这个时候,我们用技术把在离线任务融合进去了。“

 

打个比方,在线任务像是机动车,跑的快,比如支付业务;离线任务像非机动车,跑的慢,比如商家对账单。如果硬要他们跑在一起,就会互相干扰,容易发生安全事故。有没有一种方法让机动车、非机动车跑在一起,同时又做能做到安全、高效?

 

听起来好像不太可能,但蚂蚁通过Kata容器强隔离技术做到了。这种技术能够让离线任务和在线任务跑在同一个集群上而不互相干扰。当离线的作业调度上来的时候,在同一台计算机内不会影响在线服务。即使服务器CPU利用率非常高的时候,每一次支付还是在1秒内完成。

 

其次,在时间上,让同一个计算机资源在不同的时段来应对不同的业务需求。还是以交通为例。一般来说,我们城市的道路的行驶方向都是固定的,比如来去各两条。在高峰期时,我们常会发现一些道路,某个行驶方向畅通无阻,另一个行驶方向却纹丝不动。这个时候,如果能够根据不同的时段来变换行驶方向,就能够大大缓解拥堵的情况。

 

具体到业务,技术人员发现:早上七点是蚂蚁森林收能量高峰、中午十二点是点外卖高峰、下午三点是基金理财交易高峰等,如果能够自由地让这些业务跑在同一批服务器上,就可以大大节省不必要的计算资源,实现减碳。蚂蚁的云原生分时调度技术实现了这种设想。

 

这种被称为潮汐调度的技术,核心在于实现了时间上的共享,大大提升了资源利用率,资源切换的周期也从过去的几个小时降到了一分钟左右。

 

除了空间和时间上的资源共享,还有实现类似于“人走灯灭”的AI弹性容量技术。节约用电的一个重要倡议就是让大家需要时开灯、人走时灯灭,到数据中心上也是一样的道理:需要时调用,不需要时关闭。

 

过去,为了应对流量峰值的挑战,技术人员往往会多申请服务器资源,而在度过流量高峰后,为了保障业务平稳,应对未知的风险,技术人员不一定会减少服务器的数量,而空置的服务器导致了大量的浪费。

 

2019年,蚂蚁开发了AI弹性容量技术,用AI算法预测在什么时候需要多少资源,智能精确地调度所需的资源。

 

何征宇透露,通过技术手段,“比起去年,人力上我们减少了30%投入,整体双11备战时间成本也下降了15%。另外蚂蚁集团的服务器利用率比三年前提高了2倍多;同时,支持同等规模业务所需的算力,耗电减少了一半。

 


双十一的迅猛发展,倒逼中国电商和金融技术开始了迅猛的升级换代。虽然这些技术层面的东西,用户很难有具体的认知和感受。

 

但用何征宇的话说,“我觉得用户没有感受,就是最好的感受”。一代又一代的蚂蚁技术人所追求的,正是用户的这种无感体验。

 

开放:共享与赋能

 

在英国格拉斯哥,COP26进入下半场时间,气候问题从未如此备受全球关注。气候变化可能带来的危机——“绿天鹅”已经为全世界敲响了警钟。

 

据《财新周刊》报道,英格兰银行分析,气候变化所导致的物理风险,在极端情况下可能会带来43万亿美元的金融损失,相当于全中国金融资产的1/3。

 

去年,中国率先提出“3060”双碳目标,应对气候变化态度积极,行动坚决有力。对于互联网行业而言,要助力达到这个目标,真正重要的是利用自身的科技优势,进行技术创新方面的探索,为行业减碳指引方向。

 

包括蚂蚁在内的互联网科技公司,也正在这方面进行自己的探索。

 

要实现3060目标,一个重要的前提就是各企业的碳排放量能够得到准确的核算,企业要能够对自身的碳排放进行科学管理。而这一切,都需要一个准确又可靠的碳排放管理平台。

 

今年9月份,蚂蚁链企业碳中和管理SaaS产品——“碳矩阵”上线。“碳矩阵”可以实现企业碳中和数据统一平台管理及数据可视化,以及链上第三方专业机构认证和颁发证书。通过区块链安全计算的能力,帮助企业在确保数据安全的前提下披露环境相关数据。

 

另一方面,蚂蚁集团在“绿色计算”的技术探索,也在逐步对外开源。如,蚂蚁集团实现在离线混合部署的核心技术——Kata安全容器的强隔离技术已经对外开源。根据Kata Containers官网显示,其使用者包括阿里巴巴、百度、华为、IBM、AMD等公司。

 

何征宇补充说,接下来还将通过学术论文等方式,与同行交流和分享AI智能容量技术、云原生分时调度等技术,期望共享共建绿色计算生态,也与更多业界同行共同努力。

 

最早因解决信任问题而生的支付宝,在数次双十一超级工程的锤炼下,也要回答好技术如何助力绿色的时代命题。如今,蚂蚁从自身的硬件减碳到技术减碳,到开源技术,率先探索了互联网企业在碳中和行动中应扮演的角色。

本内容未经允许不得转载。授权事宜请联系 hezuo@huxiu.com。
频道: 金融财经

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: