作者 | 刘宝丹
编辑 | 柴旭晨
四天前,在2023年世界互联网大会上,吴泳铭刚刚宣布阿里要成为科技平台企业,四天后,阿里系旗下多个产品因技术故障登上热搜。
11月12日,淘宝、闲鱼、钉钉、饿了么、天猫精灵、菜鸟、夸克等阿里系应用,集中出现App无法访问或服务异常等情况,而这些APP都跑在阿里云上,都是由阿里云提供技术服务。
据阿里云官方状态监控页面(Status Page)显示,11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。随后,阿里云确认,故障原因与某个底层服务组件有关,工程师正在紧急处理中。
晚上19:20左右,阿里方面向华尔街见闻确认,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复。
对于上述故障影响范围,阿里云在官网表示,云产品控制台、管控API等功能受到影响,大部分产品如ECS、RDS、网络等的实际运行不受影响,OSS、OTS、SLS、MNS等产品的服务受到影响。
实际上,不仅国内,阿里云的故障还影响了国际用户。阿里云状态界面亦显示,11月12日,德国、英国、美国、阿联酋、沙特等国家均出现了异常标记。
如此广泛的影响,与阿里云的业务规模有关。大约半月前的2023云栖大会上,阿里巴巴集团主席蔡崇信曾指出,目前中国80%的科技企业和一半的大模型公司都跑在阿里云上。
阿里云对外合作的主要模式是提供算力。根据官网介绍,阿里云将算力以按需使用、按量付费的形式提供给用户,算力形态包括计算、存储、网络、数据库、大数据计算、大模型等,其付费云计算客户超过100万。
过去几年,随着数字化转型不断深入,阿里云发展迅速。根据IDC发布的《中国大数据平台市场份额,2022》报告,2022年中国大数据平台公有云服务市场规模达49.6亿元,其中阿里云市场份额遥遥领先,占比达到40.5%,连续三年排名第一。
拥有如此强势的市场份额,阿里云时刻严阵以待,但仍免不了出现技术问题。去年12月,阿里云香港Region可用区C发生大规模服务中断事件,从早上8点持续到晚上22点多,是阿里云运营十多年来持续时间最长的一次大规模故障。这次事件之后,张建锋卸任阿里云智能总裁一职。
对于云计算市场来说,稳定和安全意味着生命线。然而,距离去年的香港技术问题,还不到一年,阿里云就爆发了规模最大的一次技术故障,这不仅暴露了阿里云的技术隐患,也给刚刚立下FLAG的吴泳铭出了一道难题。
9月10日,阿里管理层迎来正式交替,吴泳铭正式成为阿里集团CEO,他还同时兼任阿里云董事会主席与CEO,阿里云也因此成为内部唯一一个集团CEO亲自带队的项目,可见地位之高。
当下,阿里云正处于关键发展阶段,一方面,阿里一拆六之后,阿里云开启了上市进程;另一方面,在阿里内部,阿里云是最大的第二增长曲线业务,尤其随着人工智能的爆发,阿里云被寄予厚望,有可能创造下一个资本神话。
吴泳铭上任后的首次露面,强调的就是科技实力。11月8日,他在2023年世界互联网大会乌镇峰会上表示,AI时代,阿里巴巴要成为一家服务全社会AI创新的、开放的科技平台企业。
为此,吴泳铭希望阿里坚持做好两件事,其中最重要的一件就是提供稳定高效的AI基础服务体系,特别是强大的云计算能力,为全行业训练AI、全社会使用AI打造坚实的基础底座。
然而,这次故障无疑会加重阿里云的压力,如果后续再出现类似问题,外界对阿里云技术实力和安全性的信心将会不可避免地动摇。
这次事件或许是个提醒,阿里云的技术系统还需要更多保障,这是阿里云也是吴泳铭的未来重要命题之一。