春晚进入第40个年头。从第33年开始,也就是在2015年,首现“互联网+”春晚。抢红包互动环节,也成为当年的互联网经济年度关键词。
“数实融合”是2022年春晚关键词。“数”指数字技术,“实”为实体企业。因此,虎年央视春晚互动合作方筛选标准是既具实业基因属性,又有数字技术能力。
1月5日,央视宣布,京东成为中央广播电视总台2022年春晚独家互动合作伙伴。与历年只抢红包不同,这次还能“摇到”好物。
作为全球华人过年集体参与场景,春晚互动环节,本质上体现着中国数字技术的在大规模、高并发等方面的顶级实力。
华尔街见闻了解到,虎年春晚互动技术支持方京东云,在零新增服务器的前提下,以历年最短备战时间和最大规模资源切换能力,保障全民顺利“抢到”并“收到”春节红包和好物。
就像中国传统基建能做到“三元桥43小时换桥”,此次京东云19天架构搭建和秒级敏捷调度能力,体现中国数字新基建速度。
这一切如何做到?
数据规模堪称世界顶级
在同一时刻参与同一个互动环节,这在全球华人除夕春晚历史上,直到2015年才实现。这个全民共同参与的环节,就是在观看春晚节目间隙,全球观众拿起手机“摇一摇”,抢红包。
2015年,腾讯微信首开春晚抢红包先河。此后,2016-2021年(2017年无红包合作方),支付宝、淘宝、百度、快手和抖音先后成为春晚红包独家合作方。
这些互联网巨头参与春晚互动环节,有什么目的?提升知名度?借助最具规模的春晚场景,获取最具性价比的集中流量?合作方必有其各自的商业目的,但华尔街见闻注意到,这些独家合作,可能也在体现当年中国互联网发展的阶段重点。
比如,2015年和2016年,微信和支付宝分别是独家合作方,其本质是移动支付在全球攻城略地;2020年和2021年,快手和抖音掀起的是全民参与制作、传播和互动的短视频浪潮。
京东这次,体现的是什么?
公开资料显示,2016-2021年(2017年除外),支付宝、淘宝、百度、快手和抖音分别派发8亿元、10亿元、9亿元、10亿元和12亿元红包。
这次虎年春晚,与以往历次最大的不同,在于“摇一摇”的内容,除了传统的抢红包,还增加了一项:抢好物(实物大奖)。“红包+好物”总价值,达到15亿元,价值为历年最高。
虎年春晚,如果“摇到”商品,京东就要以不差于平时在京东商城购物的体验,快速将商品送到“幸运儿”手中。
这就是京东与众不同之处。
支撑这种不同,需要什么样的技术能力?京东得在稳健支撑春晚红包流量峰值冲击的同时,要做到“年货春运”零售和物流等整体供应链履约。
也就是说,京东从前端网站、订单、结算、支付、搜索和推荐,到后端仓储、配送、客服和售后各类业务系统,都要占用京东云资源,这就要求京东云要有高超的云资源调度能力。
增加任何一个链路环节,春晚场景复杂度和应对难度都将呈现指数级增长,这刷新了春晚全球最复杂场景的难度纪录。
就春晚互动量来看,除夕夜4个多小时,7轮红包累计互动量达691亿次。在此期间,不能出现宕机(用户无法登陆账号)、刷新延迟(页面无法即时打开)或无法支付等影响交易和配送体验的差错。
只看这些数据可能无感,那就看看此事:美国收视率最高的节目“超级碗”,直播间隙放广告。全美观众在这段时间如厕,结果冲马桶的瞬间水量,竟导致美国各州市政供水系统过载崩溃。
2021年,全球收看“超级碗”直播节目的观众,仅9163万(数据来源:FOX)。春晚全球观众有多少?2021年,收看春晚直播的全球观众数量达12.72亿(数据来源:央视)。
通过这个对比,不难想象,即使只有50%的春晚观众,在主持人口播抢红包那一刻,共同摇动手机,他们汇聚起的将是何等规模的网络流量洪峰?“惊涛拍岸,卷起千堆雪”,哪种崖岸能经得住此种数据冲击?
抢个红包而已,有啥难?
2015年,当时对春晚力量一无所知的腾讯,在全国观众同时摇动手机的那一刻,服务器立马崩溃,宕机长达一小时,被笑称“金诚所至跪倒拜年”。
要应对如此规模流量峰值冲击而不能出现宕机或延迟,一般做法是调用数倍于平时用量的服务器。
2018年淘宝就这么干,调用了三倍于当年“双11”的服务器资源。结果如何?在春晚抢红包互动瞬间,因相当于“双11”15倍的瞬间流量峰值冲击,淘宝服务器没能扛住,也出现宕机事故。
2019年,或许是吸取淘宝宕机教训,百度下血本专门采购10万台服务器。据说当时通向百度南京数据中心的高速公路上,每隔100公里,就有一辆满载百度新采购服务器的重型卡车在飞驰。
百度投入如此成本,除了担心重蹈微信和淘宝宕机覆辙,也因为百度准备时间不到腾讯和阿三个月的一半,也就是不足40天。
2021年,抖音从确认央视春晚互动合作,到除夕春晚抢红包环节开始,时间更缩短至27天。
字节跳动采取了两个办法防止出现服务器宕机:新增12万台服务器,同时与阿里云、腾讯云、京东云和金山云合作,几乎聚合全行业的力量,共同为春晚互动环节提供技术保障。
投入海量成本是百度和字节跳动的共同做法,因为央视春晚互动合作时间紧迫。
此次京东面临的困境却远超百度和字节跳动:时间仅19天、无新增服务器、独立作业、叠加抢红包和年货春运的供应链履约。除了独立作业,其他任何一项,从未有互联网公司面对过,也就是无现成经验可供参考。
在使用方一端看,抢红包整个流程非常简单,不就四步嘛!首先是时间,在除夕春晚期间,主持人数次(虎年春晚共7轮)口播抢红包开始;其次是渠道,打开京东App;第三是参与人,全球观众;第四就是动作,尽可能快速点点点。
这有何难?
压测:61页应急简化预案
19天备战时间,包括抢红包、送好物和日常购物,京东技术体系端涉及多少人?100多个虚拟团队,近万人研发协同。
整齐划一,万人协同,效果如何?
看个案例,要实现“抢红包”动作,必须有应用场景。通过京东云一个被称为“行云”平台自带的低代码工具(姑且称为乐高),京东云将无穷尽的不同场景抢红包和营销策略结合,以“拖拉拽”手段,像搭乐高积木,京东云项目组仅用两天,就完成了“抢红包”应用场景开发。
通过“行云”平台,京东云仅花1天,就将分布在各地、横跨多个不同部门的近万京东研发人员,做到需求日结日清,以小时为单位跟进资源库的缩扩容,同时实现全体目标、规划、流程和供需交付节点等的对齐。
如何保证系统稳定运行,如何提前发现可能出现的故障并提前准备应对预案,这是这场零容错全民互动的核心要求。
京东云基础设施研发部高级总监,春晚项目IDC基础保障负责人常亮说,“我们做了(应急)预案,其中最简版的预案共61页,2万字。”京东云春晚项目组技术中台负责人沈建林则对华尔街见闻说,“我们模拟(抢红包)用户的真实使用场景,采用了7轮高保真全链路压测。”
具体怎么做压测?
“基于实际业务场景和系统环境,模拟海量用户请求和数据,大概每两天一次做一个全链路压测。主要是对各种场景做测试和验证,以便发现瓶颈从而做调优。”常亮说,“我们模拟了机房断电、服务器崩溃、硬盘故障和网络中断等‘硬核’故障,以锤炼团队协作应变、快速响应和技术练兵,最终目的还是提升和保障春晚全国观众的体验。”
京东云用一套名为“云泰”的全自动压测系统,模拟可能发生的一切故障,包括破坏性故障。京东云将解决这些不可测的故障称为“混沌工程”。以云泰模拟各种破坏性故障,用“混沌工程”加以快速解决,配合应急预案演练,共同夯实了极端环境下丝滑的用户体验。
事实上,要让C端用户感受京东App抢红包、浏览、搜索、下单和查询等动作的丝滑体验,京东云云舰的作用不可不提。
此次京东支撑春晚红包之所以技术难度大,主要在于叠加了京东日常网购业务和春晚红包互动。前者被称为“常态模式”或“黄金流程”,后者即“春晚模式”或“红包流程”。
“我们充分调动全公司所有资源保障春晚业务。在整个演练过程中,做了多频次的高度切换,以保证常态模式和春晚模式切换和互动顺利。”京东云混合多云操作系统云舰底层容器研发组负责人赵建星说:“春晚红包最底层资源由云舰提供统一调度和保障,这是史上规模最大的切换调度,频率也是最高的一次。”
京东所有底层业务、服务承载和算力资源,都以京东云混合多云操作系统云舰为底座,由云舰提供业务场景和资源切换的技术保障。云舰的作用,在于消除底层各类软件基础设施差异,将所有可供调配的资源聚合在一个统一的资源池内,通过阿基米德智能调度系统,实现资源需求的即时响应。
中国云计算新基建新速度
靠云舰实现的资源聚合,在黄金流程和红包流程运行和切换过程中,哪里需要精准资源匹配,阿基米德智能调度系统就成为资源调配的“上帝之手”。
但在此之前,即在云舰聚合全部资源和阿基米德系统根据需求调配不同等级的资源之前,还有个环节:通过云原生技术,实现弹性、高效、多组和按需求量智能使用/消耗资源。
赵建星说,“云原生技术强调的这些特性,可简化底层资源的复杂性,让研发精力集中在应用方面,从而提高系统反应的敏捷性。”
这种敏捷性的作用是什么?
举个例子,春晚4小时,可能有数亿观众在抢红包,也有庞大规模的用户在做网购。从技术角度看,这等于京东“红包流程”和“黄金流程”同时推进,且资源可能随时在两个流程间调整切换。但是,调度这两个场景的系统资源,必定存在秒级差异。
那么要做到资源平滑切换,让C端用户无感,时间必然极短,比如精确控制在1秒之内,云原生技术能实现在两个不同流程之间的资源平滑切换。
做个简单小结,京东云资源,以云原生技术实现快速弹性有机组合,通过云舰聚合在统一的资源池,最后靠阿基米德智能调度系统做资源供需精确调配,实现C端用户无感应用体验。
在“聚合压榨”资源方面,工具是京东云全链路追踪系统。这能精确分析C端用户在京东App上每个动作,对应用逻辑、数据访问和网络传输等系统的资源消耗情况,由此采取在相关环节做资源的极致优化。
沈建林说,“我们要压榨每段CPU时间片的计算资源,同时还要压缩网络传输数据包,使之尽可能更小,读取更快,以此节省每个字节的网络带宽。”
全链路追踪系统的另一项功能,能监控实时动态,同步构建应用容量水位和应用画像,之后再通过阿基米德智能调度平台,做与应用容量和画像匹配的资源调配。“如此就能实现场景秒级调度平滑切换。”沈建林说,最终实现资源错峰应用。
通过以上这些技术手段,京东云搭建了在春晚4小时内,伴随着主持人7次红包口播指令,达成京东日常网购场景和红包互动场景多达16次的资源精确腾挪,并在“常态模式-春晚模式-常态模式”两次涉及超过1000万核资源等级的场景无缝切换的超级系统。
这一切,是在零新增服务器条件下,用春晚红包备战史上最短时间(19天),扛住叠加春晚红包互动和日常网购峰值流量冲击。
这是中国云计算行业的首个案例,能与传统基建“三元桥43小时换桥”案例相提并论的中国速度体现。
2015年11月13日23点,北京三元桥更换“桥面”工程正式启动。
三元桥地处黄金主干道,长时间施工可能对城市出行造成较大影响,施工方最终决定采用整体置换技术,通过运用千吨级驮运架一体机,将重达1600吨的旧梁中跨由驮梁车分两幅依次移走,再将工厂预制好的钢梁在原桥墩上拼装为一个整体。
整个换桥过程,仅耗时43个小时,新桥梁与预定位置误差控制在9毫米之内。
三元桥换桥只是中国传统基建能力诸多案例中的一个,此次京东云对春晚红包互动无卡顿宕机的支持,也必将成为中国数字新基建能力的典型代表。