正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2023-11-14 22:36

阿里云大规模故障,吴泳铭迎来大考

本文来自微信公众号:凤凰网科技(ID:ifeng_tech),作者:汤之斐,编辑:蒋浇,原文标题:《“灾难三小时”背后:大考的吴泳铭 动荡的阿里云|新视界》,题图来自:视觉中国


双十一的热度还没过去,阿里用一次堪称史诗级的事故再次成为业内焦点。


11月12日傍晚,阿里云的服务出现大面积故障。据阿里云公告,故障原因与某个底层服务组件有关。三个多小时后,阿里云通告称云产品恢复,但部分数据仍可能受到影响。


本次事故中,阿里旗下淘宝、云盘、饿了么、钉钉等产品未能幸免于难。


有些吃瓜群众更是看热闹不嫌事大,就在阿里云故障的当晚,一则所谓的马化腾聊天截图开始在圈内流传。截图显示,图片头像为“马化腾”的用户称“用阿里云不如用腾讯云啊朋友们”。腾讯云方面不得不出面紧急辟谣。


这是阿里成立20多年间,第一次出现如此重大事故,也是一次惨痛的教训。但并非毫无预兆,有些事,或许早已在暗中标好了价码,只是等待一个“时机”。


阿里云再次停摆的三小时


鲜少有人注意到,今年天猫双十一促销结束后,淘宝曾经短暂宕机。


到了11月12日,阿里旗下多个产品都被“传染”了似的,陆续出现崩溃状态,阿里云则成为事故源头。自12日17时44分阿里云发生故障至21时11分全部修复完毕,这次故障持续3小时27分钟。


在故障最为严重的1小时内,阿里旗下多款产品瘫痪,淘宝登陆异常,饿了么无法下单,骑手进不了系统,“淘宝崩了”“闲鱼崩了”等相关话题迅速冲上微博热搜。


依赖阿里云的社会设施大批停转:外卖派送停止、超市无法结账、停车场不抬杆。甚至洗衣机、直饮水机和充电桩们,因为自助服务搭建在云上,也同样停止运转。


而在B端,波及范围之大,在阿里系历史上亦实属罕见,三个多小时时间里,阿里云的故障覆盖不仅影响到国内,还波及印度、美国、英国、韩国和日本等多个国家和地区。



图|阿里云故障影响区域


“从没听说过这种规模的云计算故障。”有云行业人士说,从云服务状态页来看,这不是某个可用区的故障,很可能是全球大故障。


即使阿里云2019年的那次宕机,受影响范围也仅限于部分区域和应用。彼时,阿里云在回应中表示,华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后逐步恢复。


云服务如同“水电煤”一般的当下,阿里云宕机受影响的企业面临的将是业务中止、客户流失、熬夜赶工,部分已经在生死边缘的企业甚至可能因此倒闭。


而根据阿里云SLA协议(服务合同)赔偿方式仅限于代金券,且赔偿总额不超过未达到服务可用性承诺当月客户支付月度服务费用(不含用代金券抵扣的费用)的30%。


图|阿里云SLA协议(服务合同)赔偿标准


某创业公司CEO对此感叹,离谱,赔的代金券,毫无信用。他表示,按这次事故的程度,实际上业务就崩溃了,这个赔偿约等于零。


他解释称,各大云厂商其实都耍了个心眼,大部分赔偿的都是代金券,这意味着用户必须买它的产品。而在以前,相关厂商可能也发过代金券,因此这个赔偿约等于没有。


图|某公司CEO对于阿里云赔偿的评论


这不是阿里云首次出现大规模故障。2019年3月3日,阿里旗下天猫、淘宝、闲鱼、聚划算等多个App在凌晨出现登陆异常现象;2022年12月18日,阿里云香港Region可用区C服务中断,影响香港及澳门多个站点运营。


等待反馈的客户与市场


高可用性是阿里云一直对外宣传的优势。然而,经过一次次事故后,还有多少企业能信任阿里云的高可用性?一旦失去信任,客户是否会选择迁移到其它云平台?


截止目前,除了故障修复外,阿里云未对此次事故进一步回应。


阿里云市场份额巨大,就在十几天前的2023云栖大会上,阿里巴巴董事会主席蔡崇信曾指出,国内80%的科技企业和一半的大模型公司都跑在阿里云上。


阿里在云计算领域的先发优势,长久以来帮助阿里云在国内占据了不可撼动的位置。根据市场调查机构Canalys公布的报告,今年二季度,阿里云继续领跑中国云服务市场,收入份额高达39%。


但激烈的竞争导致云服务市场已是红海,阿里云的疲态已经显露多时。


2021年一季度,阿里云收入增速开始下降。至今年一季度,更是降至负数,这是阿里云成立以来最差业绩增速。


刚刚过去的二季度,阿里云收入终于喜迎反弹,增长4%。看起来似乎还不错。但作为对比,微软云增速为15%,谷歌云增速28%。就国内市场而言,2023年上半年,电信天翼云同比增长63.35%,移动云增长80.34%,联通云增速36.36%。


此消彼长,阿里云承受的压力可想而知。


更为重要的是,阿里云此次故障,也会引发云服务路线争议。在当下竞争激烈的环境中,其他云厂商或许借此机会向客户推行“多云”服务,蚕食阿里云的市场。


有业内人士指出,此次事件中微博的图片显示正常,就是因为采用了多家云服务。要想要业务健康持续,真正的解法不是期待某家云厂商“永远健康”,把身家性命托付在一家公有云上。而是主动部署多云,在受灾时及时切换。“不要把鸡蛋放在一个篮子里。”


对这种趋势,主流云厂商已经有动作。包括阿里云、腾讯云、华为云,都构建了PaaS层面的多云解决方案。在第二梯队中,京东云和UCloud,也以多云作为主要卖点之一。


该业内人士称,华为这种IaaS设施根基厚重、投入规模较大的云厂商,对多云并不热衷。不过,二线云对混合多云的重视力度大得多。因为其自身业务出海时,就需要适配其他云大厂的IaaS设施,因此对多云有需求,也乐于对外推广。


动荡不安的阿里云


阿里云故障事件发生后,网络上有这样一段话引发广泛流传:“坏消息,这就是阿里云降本增效的结果?好消息,阿里对外输出的都是真人才。”


这些调侃的话,虽将本次事故过于简单地归因于阿里组织变动,但并非完全没有道理。


近两年,受外部环境影响,阿里和其它互联网企业一样在进行降本增效。2022年四月份的财报会议上,阿里CFO徐宏透露:未来一个财年阿里将聚焦提升效率、降低成本、保证现金流等方面,以寻找更多的“确定性”。


也就是在这年年末,阿里云出现了史上时间最长的一次事故。


降本增效以外,阿里云管理层经历了一年两换帅:去年12月,执掌阿里云三年的张建锋(花名行癫)从阿里云离任,是否与当时阿里云香港区故障有关外界不得而知。随后,时任阿里CEO张勇走向前台,亲自接管阿里云。不到半年后,张勇卸任集团职务同时卸任阿里云董事长和CEO,交由元老吴泳铭接任。 


吴泳铭是阿里巴巴创始人之一,曾担任过B2B、淘宝、支付宝等多个重要业务的首席技术官,主导构建了相关业务的底层技术架构,还是阿里集团核心业务阿里妈妈的创始人。


上任两天后,吴泳铭发布内部信,提出用户为先、AI驱动的两大战略重心。在此基础上,阿里巴巴将对三类业务加大战略性投入——第一是技术驱动的互联网平台业务,第二是AI驱动的科技业务,第三是全球化的商业网络。 


2023年,ChatGPT的爆火引爆新一轮AI浪潮,在此驱动下,云的战略重要性更加凸显。 


过去的一年,阿里云人员持续动荡更迭,但守市场、降成本仍是主旋律。


如果把云计算比作一场长跑,阿里云曾经是那个冲在最前方的人。而现在,后方追兵越来越近的同时,阿里云自身正处在一个疲劳期。能否熬过这个艰难时期,将是刚刚就任三个月的阿里云CEO吴泳铭面临的最大考验。


本文来自微信公众号:凤凰网科技(ID:ifeng_tech),作者:汤之斐,编辑:蒋浇

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: