本文来源:深几度 (ID:deepchanpin),华尔街见闻专栏作者
美剧《纸牌屋》中曾有这样一个画面。男记者Lucas以采访之名受黑客之托前往FBI的云计算中心,把一枚带有病毒的U盘插入了服务器上。意图借此感染服务器网络,盗取其中的数据。FBI的探员眼疾手快,Lucas因此被捕。
事实上,这只是美剧常用的夸张表述。这种场景基本不可能实现。但是云计算中心的重要性在这个画面中被体现得淋漓尽致。
是的,云计算中心是科技企业、政府组织最为神秘的一个组成部分,是这家绝对的“心脏”。每一个科技公司都一定会有多个云计算中心,它们承载了企业的所有业务。
这一次,我进入了百度的“心脏”——百度阳泉计算中心。它既是百度AI技术的基石,也是百度AI商业化的基石。
一
为什么说是心脏?
百度在阳泉、顺义、南京等地区都已部署数据中心,而阳泉是百度最大的云计算中心,也是亚洲单体规模最大的计算中心。
它在2014年投入使用,建成投产12万平米,服务器超过15万台,拥有超过300万颗CPU核、6EB级存储容量,可存储信息量相当30多万个中国国家图书馆的藏书总量。
阳泉云计算中心据说是百度的“心脏”毫不为过。
覆盖全球的互联网和无数机构的业务实际上是在成千上万台服务器支持下运转的,承载庞大服务器资源的就是数据中心。数据中心已经成为交通、能源一样的经济基础设施。
不管你是刷百度、聊微信、抢红包、看网剧,都离不开数据中心在背后做支撑。你在手机上的每一次操作,都和数据中心有关系。
阳泉云计算中心既是百度AI技术的心脏,也是百度AI商业化的心脏。
1、AI技术的心脏
百度App、百度地图、百度智能云、智能城市、小度、Apollo等AI业务的数据都在这里传输、存储、计算。
今年春节为例,百度APP的全球观众互动次数达到208亿次,春晚数据流量为每秒峰值5000万次,每分钟峰值10亿次。
抢红包的人春晚之夜轻松愉快,但对数据中心来说可不是如此。
我在《BAT春晚暗战云计算》这篇文章中很早就提到:大家明面上能看到是三家发了多少红包、撒了多少现金,背后牵扯到的技术、资源等配置确是错综复杂——这都要靠数据中心做支撑。
在这次探秘阳泉云计算中心的过程中,百度系统部总监张炳华用了“数据海啸、惊涛骇浪”这八个字来形容今年百度春晚红包带来的数据挑战。
在阳泉的全部百度员工以及十余家供应商技术支持人员在除夕当晚守在“数据海啸”面前,最终抵挡住了亿级流量。可以说,没有阳泉、顺义、南京在内的几个云计算中心,就没有今年百度春晚红包的正常运转。
2、AI商业化的心脏
去年12月,百度组织架构整合,决定升级“ABC智能云”业务战略、加速推进“云上百度”的进程。ABC智能云事业部升级为智能云事业群组(ACG),同时承载AI To B业务和云业务,越来越多地为互联网、娱乐、金融、教育、交通、安防、能源等行业的客户提供全栈ABC+IoT产品与解决方案。
以能源工业等行业为例,炼钢厂、发电厂需要在高温的生产车间部署摄像头、传感器等IoT设备,这些设备会对运转温度、压力等数据的实时采集。像宝钢和百度智能云的合作中,就要通过百度智能云的AI、大数据平台,对各种数据进行分析和处理。
百度智能云在为这些客户提供服务的时候,则是有赖于云计算中心在背后做支撑。
二
心脏到底有多强?
走进百度阳泉云计算中心的机房之内,就会发现一排排机柜统一排列,机柜上的服务器的风扇声嗡嗡作响。机房的温度明显比室外高了一截。
这是百度“心脏”的声音与温度。百度的“心脏”到底有多强,我们可以从这几个维度来进行解析。
1、性能和效率
“心脏”想要跳的快,一方面需要“心脏”本身有力度,另外一方面则是需要血管供血足。对AI的“心脏”来说则是两个点,一是算力强,另一方面也要数据传输快。
百度阳泉云计算中心目前已上线服务器超过15万台。包括了天蝎整机柜服务器、“冰山”冷存储服务器、X-MAN超级AI计算平台等多种百度自研计算系统。像去年年底百度最新发布AI计算平台X-MAN3.0每秒可完成2000万亿次深度神经网络计算。这种强大的计算能力都是为了适应AI时代的运算要求。
为这种强大算力“供血”的“血管”则是百度自主研发高性能交换机。提供超大规模的网络吞吐,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。百度通过大带宽、低时延、无损网络,让数据中心数十万台服务器连接成了一个超级计算机。
2、容灾和备灾
“心脏”作为人最重要的器官当然一刻都不能停止,数据中心作为心脏当然也不能停。云计算中心里设备价格昂贵,一旦发生不可预知的灾难,对企业将造成严重损失。设备损坏等有形的损失可以弥补,而宝贵的数据丢失造成的损失则是无法计算的。
在移动互联网时代,一个数据中心的服务器一旦出现短时间抖动,就会导致刷不了淘宝、付不了支付宝,在全网产生讨论。
AI时代服务器出问题,可能会导致自动驾驶车辆失控,钢铁能源工业客户面临数以亿计的经济损失。
因此,数据中心的容灾备灾显得及其重要。而百度阳泉云计算中心通过AI控制,数据中心的运维从人工走向智能,可以实现大数据分析和诊断,迅速缩短故障维修时间。过去30分钟的网络故障排查直接缩减到了5分钟。
当问到一旦出现自然灾害、意外火灾等极端意外情况下百度阳泉云计算中心要如何应对时,百度系统部总监张炳华提到:
从业务部署角度,百度数据中心计算资源采用了N+1的冗余设计,用户的流量有多个入口,可以绕道其他数据中心。在入口层面也有一套智能调度的系统。
百度内部甚至做过这样一个极端测试——关掉任何一个数据中心,用户端也不会有任何感知,服务也不会受到任何影响。
我简单翻译一下这段话。大概相当于百度有好几颗“心脏”,即使是一颗“心脏“出现故障,其他心脏也可以在故障的那一瞬间随时顶上。
事实上,截止4月8日,百度阳泉云计算中心已安全运行1744天。目前也还尚未遇到这些极端意外情况。
3、能耗和环保
某种意义上说,科技企业也是高能耗企业。因为庞大的服务器群组每天处理各种数据,产生了庞大的能源消耗。
国家层面在今年9月发布了《关于加强绿色云计算中心建设的指导意见》,提出到2022年全国新建大型、超大型云计算中心PUE(云计算中心总设备能耗/IT设备能耗,越接近1表明能效越高,是云计算中心领域衡量能源效率的权威指标)需达到1.4以下。
这个指导意见的目的在于逼迫科技企业提高自身技术,做到节能环保。
2018年8月,Uptime Institute发布的《2018数据中心调查报告》显示2018年全球数据中心PUE为1.58。
阿里所有自研云计算中心平均PUE已经低于1.3,即使是谷歌业务关键应用和广告系统也都运行在PUE 1.2的云计算中心上。
令人意外的是,百度阳泉云计算中心的PUE突破了1.10,达到1.09,能源效率国内第一,每年可节电量可达2.5亿度,相当于13万户居民一年的用电量。
三
为AI+5G+IoT未雨绸缪
百度阳泉云计算中心可以说是目前国内云计算中心的顶级水准,而且和百度目前的AI战略以及面向未来的业务布局高度匹配。
我曾在《春晚红包宕机史,也是半部中国互联网技术进步史》中提到:
春晚的流量规模,未来可能正是5G和IoT时代的“常规需求”。提前排兵布阵,百利无一害。
2017年,微软CEO纳德拉在曾经提到过一个信息,在1992年互联网每天流量总量是100G。今天一个手机就能存下所有的数据。
服务器和计算中心的算力、存储进化史,其实也是世界互联网的技术进步史。互联网的发展,伴随着IT算力、存储能力的指数级提升。
2018年全球有70亿台IoT设备,有机构预测到2020年全球将有500亿台设备同时连接网络,2023年则是有790亿设备连接到物联网。5G时代流量每小时所产生的数据高达数百GB,预计将处理比4G多1000倍的数据。
当代哲学家西闪在《国家的计算》中对计算有过这样一个论述:
在现实世界的“赌局”中,帕斯卡的上帝已经隐退,取而代之的,是作为信仰的“未来”。它像一个永恒的奖杯,在时间的尽头闪闪发光。而计算则取代了程式化的行为训练,演变成为一种新的思维习惯。
百度作为一家面向AI的企业,它的业务同样无处不体现着计算的魅力——信息流、智能云、无人车……所有数据都要经过服务器存储、计算、传输,最终实现业务落地。
百度阳泉云计算中心恰恰是在为AI+5G+IoT时代做准备。
----------------------------------------------
作者系独立撰稿人,微信号852405518
关注科技公司、互联网现象的解读
曾获钛媒体2015、2016、2018年度作者
新浪创事记2018年度十大作者
品途网2016年度十大作者
腾讯科技2015年度最具影响力自媒体