寒武纪科技:中国“芯”希望?

砺石商业评论
如何争取更多大客户,创造好的营收和提升在市场中的可见度还是一个难题。

本文来源:砺石商业评论 (ID:libusiness),华尔街见闻专栏作者

金梅 |编辑

芯片历来被誉为科技皇冠上的明珠,中国在芯片领域一直积贫积弱,甚至有人把这种状况比喻为甲午海战时期土炮与洋枪大炮的区别。中兴因为芯片被美国卡住喉咙一事,更是给中国企业敲响了警钟。

然而,芯片研发需要高投入、长周期,有志于此的公司必须具备非常准确的长期战略眼光,在趋势到来的第一时间就能发现并投入大量资源,才能有望在行业谋得先机。

近几年,随着AI大热,技术应用场景向移动端转移,AI芯片需要更强的性能、更高的效率和更小的体积才能支撑AI技术和产业更进一步的发展,这给新兴企业带来了机会。

1

AI“芯”浪潮

因为技术和数据积累的限制,2007年以前AI对芯片要求不高,都是采用通用的CPU芯片提供所需算力。如今随着产业向纵深发展,AI技术不断进步、应用规模扩大,芯片研发势必要紧跟行业发展的步伐,因而作为AI产业根基的AI芯片成了各大公司角力的战场。

所谓AI芯片,一般是指针对AI算法的ASIC(专用芯片)。传统的CPU、GPU都可以拿来执行AI算法,但是速度慢、性能低、成本高,无法进行商用。所以,开发ASIC就成了必然。AI芯片的主要特征就是加载了AI任务专项处理单元。比如苹果推出的A11神经仿生芯片,就内置了神经网络引擎,来实现AI计算在终端的运行。

以手机为终端来说,AI芯片的优点在于:

一是数据处理速度更快。传统的对复杂数据的计算要上传到云端,然后再下载到终端;AI芯片的强大算力使得这些复杂计算在手机终端就能运行,原来需要10分钟完成的任务现在1分钟就能完成。比如手机识别照片并进行人物、风景等分类的功能,因为算力不够会选择在夜间不用手机的时候上传到云端,然后处理分类,现在加入了AI芯片,照片分类即时进行就成为了可能。

二是数据相对安全。在手机终端就能进行计算,无需上传到云端,就避免了数据泄露的风险。就像你把文件存在U盘里是一个道理。

三是让手机更智能,这也是叫做“AI”芯片的原因。比如,手机摄影可以根据场景智能切换拍摄模式,手机会自动识别场景并自动提示最佳的拍摄角度和地点。另外,手机可以根据你的某一件行为比如看电影,为你作出餐饮、交通、天气等各方面的建议。

四是构建AI应用开发平台的基础。AI芯片的应用肯定不只是拍照那么简单,实际上,AI芯片的推出只是整个手机AI化的第一步,搭建基于AI芯片的AI应用开发平台,让更多的人参与到手机AI应用的开发中来,形成手机AI应用生态才是AI芯片研发的进一步方向。也就是以后用到的每一款App都会添加AI模块。比如你拍一张照片,然后进行商品识别,可以直接跳转到App当中甚至直接在线购买。

现在的AI芯片可以分为两类,一类是既面向训练又面向推断(Inference)的,虽然GPU甚至CPU都可以,但是专用芯片在能耗比上有优势;另一类是Inference Accelerator推断加速芯片,简单说就是把训练好的模型放在芯片上跑,这块目前是百花齐放,比如寒武纪NPU、Intel Movidius、深鉴的DPU、地平线BPU等等,这类既有产品又提供IP授权,让其他开发者将深度学习加速器集成到SoC(System on Chip,片上系统)内。

国际上,英伟达、谷歌、高通等巨头针对AI专用芯片越来越被需要的趋势相继推出新芯片产品,卖给谷歌、亚马逊、微软等行业巨头,带来股价的飞涨。

谷歌等公司也为自己的机器学习应用而研发设计芯片,2016年3月打败了李世石和2017年5月打败了柯洁的阿尔法狗用的就是谷歌算力可达180万亿次每秒、功耗只有200w的TPU系列芯片。

而在国内不仅阿里、百度与华为等大公司纷纷布局这一领域,一些创业公司更是把业务直接聚焦在了AI芯片上,寒武纪科技就是一个典型,2016年甫一成立就发布了世界首款商用深度学习专用处理器寒武纪1A(Cambricon-1A)。

之后,AI芯片应用领域的竞争加剧。2017年华为和苹果都发布了终端芯片。9月华为抢先在德国柏林消费电子展上发布了搭载寒武纪科技NPU的麒麟970芯片,并在10月推出处理器为麒麟970的Mate 10系列新品。除了手机芯片外,2018年10月华为还发布了昇腾910(max)和昇腾310(mini)两颗AI芯片,昇腾910主打云场景的超高算力,预计将于今年第二季度量产,昇腾310主打终端低功耗AI场景,去年已经量产。

苹果先是发布了iPhone X系列手机内置的A11芯片,每秒可处理相应神经网络6000亿次的计算需求,之后随着手机产品的进化芯片也变为A12。

2018年7月,百度云端的昆仑芯片发布,之后阿里平头哥公司成立,也将推出首款AI芯片。小米生态链公司华米科技推出了号称全球首款支持AI的可穿戴设备芯片组。甚至连传统制造业的格力也要造芯片,董明珠称:即便是花500亿也在所不惜,2019年开始,所有的格力产品都要用上格力自己研发的芯片。

国内公司纷纷入局,国外公司同样人声鼎沸。2018年11月,三星发布了旗舰处理器Exynos 9820处理器晶片组,年底量产,并用于2019年年初Galaxy S10系列旗舰机之上。这套产品的最大卖点是有了独立的神经网络处理单元(NPU),能把产品的AI运算速度提升到原来的7倍左右。

亚马逊于2018年12月发布了首款云端AI芯片Inferentia并将于2019年下半年推出,用于EC2、SageMaker、Elastic Inference等的云服务。几乎同时,安卓阵营带头大哥高通一鸣惊人,拿出了比华为980和苹果A12还强2倍的杀手锏:骁龙855搭载最新一代AIE引擎之后,性能提升了3倍。

造电动车的特斯拉也来凑热闹,宣称定制的AI芯片会在2019年年中安装到新车当中,内置了这款芯片的特斯拉自动驾驶性能可提升5到20倍。

“传统”时代的跑马圈地尚在进行中,5G时代又轰轰烈烈地到来了。新时代产生新机会,竞争格局或有改变。据报道,全球6家头部厂商中除了苹果都在努力抢占5G手机的先发优势。

在高通2018骁龙峰会上,三星演示了将在2019年上半年推出的首款5G智能手机。不到24小时之后,AT&T又宣布将在下半年推出三星第二款5G手机。几乎同步,2018年12月6日,中国移动合作伙伴大会上,小米首次展出了旗下首款搭载高通骁龙855及X50 5G调制解调器的5G手机小米MIX 3 5G版,下载速度最高可达2Gbps。

华为也在今年年初推出了5G芯片并于6月推出基于这款芯片的手机产品。

除了手机,AI芯片的另一重要应用场景自动驾驶也在不断发展,百度、谷歌等自动驾驶技术和产品的推进反推芯片行业的快速发展。

据报道,中国希望芯片产业大部分需求靠国内供应,预期本土芯片产业的收入从2016年的650亿美元增长到2030年的3050亿美元。而随着物联网的迅猛发展,未来会有成百上千亿的设备连接网络,生成一个基于AI芯片的互联互通的世界。

但随着摩尔定律的失效,新的芯片技术的发展,无论是产业层面的竞争,还是个体能力的比拼,领先者总会碰到天花板,这就给后来者留下了超越的机会。

2

新秀寒武纪

寒武纪科技刚刚成立两年多,是源自中科院计算所的专注于AI芯片研发应用的创业公司。取名“寒武纪”,以地球自然史上短时间内出现的“生命大爆发”意喻人工智能即将迎来的大爆发。

寒武纪科技分别于2017年8月和2018年6月完成A、B两轮融资,B轮融资后整体估值25亿美金,折合120多亿人民币,是智能芯片领域发展势头强劲的独角兽公司。

目前公司产品主要分为两条线,一条是面向嵌入式终端提供IP授权,这些芯片通过提供强大的推理能力赋予终端设备AI处理能力;另一条是面向云端服务器提供芯片和加速卡,在面向深度学习、机器学习的专用处理器上,在云端或者在数据中心大规模的学习中提供推理+训练的能力,使得端移一体的架构能为人工智能提供强大的助力。

简单来说就是,寒武纪选取了机器学习范围内最通用的方向,所有机器学习的训练和应用都做,寒武纪的芯片在机器学习领域通用性强,类似一个厉害的适合神经网络的CPU。

其技术的主要应用领域包括三个方面:一是机器视觉,包括对人脸、行人、车辆和建筑物等目标进行实时追踪、识别和属性分析,进行文字检测和识别、物体检测和识别和视觉寻路;二是对语音进行识别处理,主要应用在智能手机、机器翻译等上,包括语音识别、声纹识别、多麦克风阵列等;三是自然语言,主要应用于聊天机器人、智能客服的词句嵌入、语义建模等。

寒武纪科技的创始人是陈云霁、陈天石兄弟俩,二人都来自科大少年班。寒武纪科技CEO陈云霁教授现在是中科院计算所智能处理器研究中心主任,弟弟陈天石博士现在是中科院最年轻的正教授、博导。

有“天才少年”之称的陈云霁2015年入选《麻省理工科技评论》35岁以下的全球最佳35名创新人士,他9岁开始上中学,14岁进入科大少年班,毕业后一直在研发芯片,陈天石则一直做算法,芯片+算法正好诞生了“寒武纪”。

陈氏兄弟是江西南昌人,父亲是电力工程师,母亲是历史老师,家庭环境让兄弟二人“文理兼备”。陈云霁兴趣有二,看书和打游戏,从书中学习知识开阔视野,从游戏中获得芯片的灵感。

在大学最后一年,陈云霁听说中科院计算所在研制中国第一块通用CPU芯片龙芯1号,他觉得这个机会光荣又难得,于是申请并如愿以偿,于2002年来到计算所,师从胡伟武研究员,成为当时龙芯研发团队中最年轻的成员。

博士毕业后,陈云霁留在计算所工作,25岁时就已经是8核龙芯3号的主架构师。

虽然2016年才成立,但是从2008年开始,寒武纪主创团队就在进行人工智能架构方面的交叉研究,这8年时间团队一直在努力将领先的学术成果转化为真正的产品,落地应用于各个行业。团队于2013年发布了国际首个深度学习处理器架构,2014年发布了国际首个多核深度学习处理器架构,2015年对机器学习的算法进行了深度研究,发布了国际首个通用机器学习处理器架构,以及超低功耗智能识别加速器。

陈云霁认为,人的大脑是已知世界中最智能的物体,如果能把大脑中的神经元和突触数字化抽象出来,这种网络某种程度上就继承了人脑对信息的处理能力。而制造出具备人类智能的机器大脑能把人类从繁琐的体力劳动和简单的脑力劳动中解放出来,聚焦到创造性活动中。

通用处理器功耗高、效率低不能支撑人工智能更快速地发展。陈云霁在2017年8月底中科院举办的“探索者”创新大会上说:公司(寒武纪)未来想实现的是让AI芯片计算效率提高一万倍,功耗降低一万倍。

寒武纪团队成员平均年龄25岁,但他们中大多数都已是芯片设计开发领域的“老司机”了,很多骨干成员在校期间就已经开始从事相关领域的工作。

寒武纪的AI芯片通过模拟神经元和突触的计算,对信息进行智能处理,还通过设计专门存储结构和指令集,每秒可以处理160亿个神经元和超过2万亿个突触,功耗却只有原来的十分之一。

据咨询公司Tractica的预测数据,到2025年,与人工智能相关的深度学习芯片组市场收入,将从如今的5亿美元飙升至122亿美元的规模,复合年均增长率超过40%。

寒武纪的主营产品一种是智能处理器IP产品,包括第一款深度学习处理器1A,具备更高性能、更完备的深度学习处理器1H16,计算机视觉领域专用的1H8处理器和面向智能驾驶的1M处理器等。

深度学习处理器1A是一款云端高性能智能处理器,支持服务器端的推理和训练需求,尤其是侧重推理,相对于四核的通用CPU来说,寒武纪1A具有25倍以上的性能和50倍以上的能效,人工智能实测性能远超苹果A11处理器,搭载寒武纪1A的麒麟970每分钟能够识别2005张照片,而苹果A11每分钟识别889张照片。

1H8适合运算深度学习任务,稠密计算峰值是512GMAC@INT8,端到端地支持物体检测和识别模型;1M支持可扩展的1K、2K、4K性能,用户还可以通过多核互联进一步提高处理效能;峰值性能能达到2T、4T、8T以满足不同场景下不同量级智能处理的需求。

这款芯片支持帮助终端设备进行本地训练,可为视觉、语音、自然语言处理等任务提供高效计算平台,能够有效保护数据隐私、显著降低云端负载。“这意味着使用1M设备可以根据用户行为对应用进行个性化定制”,陈天石表示。该产品可应用于智能手机、智能音箱、摄像头、自动驾驶等不同领域。

对于AI芯片公司来说,无论是架构创新还是构建产业生态,终究要走向落地。但是,神经网络芯片要走出实验室,进入市场应用并不容易。神经网络处理器是新兴领域,没有通用CPU那样的历史积累。

寒武纪在深度神经网络处理器领域做得是最早的,商业化终端产品主要应用在手机、智能眼镜、手环等产品上,比如,2017年9月2日华为重磅发布的全球首款麒麟970移动计算平台,其背后的AI芯片就搭载了寒武纪的嵌入式IP,而麒麟970整合NPU(神经处理单元)的构想早在2012年就已经开始酝酿。

由于IP授权利润空间有限,寒武纪通过进军云端市场把旗下芯片的应用范围由神经网络(Neural network)扩展到机器学习(Machine Learning)的加速任务上。早在2014年,寒武纪主创团队就开始这两颗测试芯片的研发,“我们时刻准备着将自己的产品放入云端”,陈天石表示。另一种是面向云端的高性能智能芯片MLU,包括两款:一款是MLU100智能处理卡,是寒武纪推出的第一款通用智能处理器,侧重推理;另一款是MLU200智能处理器,支持训练和推理,侧重训练,预计2019年6月上市。

为了与之前的神经网络处理器(NPU)区分,寒武纪科技特意将云端芯片命名为机器学习处理器(MLU),意在强调其云端处理器不再局限于深度学习加速,而是扩展到整个机器学习加速,同时搭建一整套生态。

寒武纪MLU100智能处理卡

MLU100采用寒武纪最新的MLUv01架构和TSMC 16nm工艺,可工作在平衡模式(主频 1Ghz)和高性能模式(1.3GHz)主频下,等效理论峰值速度则分别可以达到128万亿次定点运算/166.4万亿次定点运算,而其功耗为80w/110w。

与寒武纪系列终端处理器相同,MLU100云端芯片也具有很高的通用性,可支持各类深度学习和常用机器学习算法。可满足计算机视觉、语音、自然语言处理和数据挖掘等多种云处理任务。搭载这款芯片的板卡使用了PCIe接口。

寒武纪云端产品主要服务于科大讯飞、曙光这样的公司。

基于寒武纪芯片的部分应用方案包括:联想推出的基于MLU100服务器ThinkSystem SR650,该产品为2U2路机架式规格,支持两个MLU100智能处理器计算卡,打破了37项服务器基准测试的世界纪录。

中科曙光推出了基于MLU100服务器产品系列PHANERON,这款服务器可支持2-10块寒武纪MLU处理卡,面向多种智能应用任务,其中PHANERON-10集成了10块寒武纪人工智能处理单元,可以为人工智能训练应用提供832T半精度浮点运算能力,在推理时提供1.66P整数运算能力,基于寒武纪芯片技术产品的新一代服务器可以为中科曙光用户在典型场景下将能效提升30倍以上。

在提供硬件产品的同时,寒武纪还提供了一套通用性很强的软件平台,平台上层支持目前的主流软件类似Caffe、Caffe2等,算法人员可以以较低开销来迁移自己的算法,甚至可以做到无缝切换。

陈天石表示,寒武纪科技创立的初衷就是要扩展智能处理器的使用范围。寒武纪旗下的终端和云端产品均原生支持寒武纪NeuWare软件工具链,可以方便用户进行智能应用的开发、迁移和调优。

3

新秀“芯”未来?

2019年,AI市场竞争会异常激烈。一方面,2019年AI可能会被作为大国之间技术博弈的一个重要手段,特别是在中美两个AI超级大国之间;另一方面,中国AI迅速发展,相较欧美已经在多个领域具备独特优势,2019年会加速通过AI技术弯道超车的比赛。

寒武纪、华为等中国公司、企业加快布局AI芯片领域,减少对国外芯片的依赖,Google、Facebook等巨头想在中国AI业务商用上瓜分一块蛋糕,这让中国在AI技术上的话语权不断加大。

同时,2019年资本寒冬的到来可能会让一些没有真正技术突破性和商业落地能力的公司,拿不出被认可的成绩单,在融资周期拉长的情况下,控制不好现金流的AI芯片公司将会倒下。

芯片行业具有资本和人才密集且周期长的特点,对于已经有一定规模的芯片公司,在已有的体系里引入AI芯片是正确的选择,因为他们更容易看到客户的需求,AI芯片也更容易落地。

而一些初创公司,在芯片本身周期长,加上AI芯片软硬结合成本较高,如果不能持续融资,就很容易倒下。

AI芯片初创公司中,擅长算法的公司因为融资能力很强,有足够的现金储备,加上有自己的应用场景,相对安全一些。而单纯提供AI芯片硬件的公司风险会更大,如果控制不好现金流就有很大概率会倒下。

能否获得资本市场是否青睐无非两点:现在的盈利能力以及未来的盈利能力。2019年,AI芯片公司的一大挑战是如何在保持自己核心技术领先性、持续迭代产品的同时,证明自己具有将技术优势转化为成功的商业模式的能力。

而实现规模商用的核心点在于找到满足客户需求的差异化优势。AI芯片只有在落地场景中才能体现价值,对于AI芯片公司,一方面要充分发挥和培养自己的核心技术优势,不断打磨和迭代自己的产品;另一方面要深入挖掘和理解场景需求,以开放的心态推动产业合作,推动AI芯片在场景中的落地。

技术方面,AI芯片最受关注的就是算力的提升,由于AI芯片更加强调软硬一体的结合,因此提升算力非常关键。

场景应用方面,以竞争激烈的手机行业为例,2018年手机芯片巨头们的SoC包括苹果A12、海思麒麟980、三星Exynos9820、高通骁龙855、联发科Helio P90等,2019年手机AI的竞争会从硬件走向应用的探索。

随着软硬结合进一步发展,芯片架构革命的机会之一在于领域专有架构(Domain Specific Architectures),2019年会有更多的领域专有架构和领域专有语言(Domain Specific Languages)的协同设计。

寒武纪期望以架构设计者及生态主导者的双重身份,带动中国AI产业的发展。

虽然寒武纪在过去数年中国AI产业猛爆成长的过程中扮演了相当重要的角色,证明了自己的技术实力,但目前看,光有技术还不够,寒武纪的产业地位及其未来发展更重要的是要看其市场打开和落地能力。

首先,寒武纪在终端客户开拓上还不够,在市场上出货的终端客户只有华为,而华为也要转用自家的昇腾方案,彻底摆脱寒武纪。虽然寒武纪官方表示已经有不少客户正在考虑或已经引入其架构,但目前还没看到更多实际进展。

其次,寒武纪也推出了云端方案,不仅是IP,也要推出实体计算卡,这个作法等同于在告诉市场,要用寒武纪的IP来制造芯片,可能第一个遭遇的对手就是寒武纪。目前,云端除了中科曙光的合作以外,也没有其他新增客户信息。

而华为也在积极推动自己的AI计算布局,昇腾方案便是完全自制的AI计算架构,不只针对云计算,也要扩及所有终端AI,这与寒武纪面对的是同一个市场。

在服务器AI计算方案方面,华为也是不仅推出芯片方案,还积极推动生态经营,与寒武纪如出一辙,所以未来寒武纪或寒武纪推出的客户方案,在中国市场上的最大对手会是华为。

寒武纪的尴尬在于,目前主流框架都是他人的现成成果,在Google、微软和Facebook等的推动之下,支持多种框架的加速已经是所有可编程AI芯片/计算架构的必备功能,开放是AI芯片的卖点,而算法的发展则是各家AI芯片为了确保自家产品竞争优势的重要方向。但寒武纪专注于发展AI的通用计算硬件平台,在算法方面没有太多着墨。

除了华为以外,目前在中国AI产业中能看到包含DSP、GPU、FPGA的各种方案以及各种为视觉识别、语音识别等特化的ASIC计算架构。

对应用企业而言,能够实现商业目标才是重点,采用的架构来源并不重要。而考虑到既有架构应用的便捷,没有必要徒增更多人力与技术研发支出去更换效果未必更好的架构。

所以,如何在拥挤的市场中凸显自己的定位是寒武纪目前遭遇的难题,芯片架构已经不是主角,在芯片中运行的算法与框架,甚至是整套开发工具才是重点。如果没有办法说服既有市场玩家自己的开发体系更具优势,那么想要改变现有的AI计算生态如何实现?

寒武纪作为新创事业,仅仅两三年的发展就要求其有庞大的客户基础是强人所难。但寒武纪的技术概念虽好,却没有足够稳定可靠的获利模式,并借以形成生态。

中国市场对寒武纪抱以殷切期盼,希望能为中国AI产业带来不同的空气,但如今不同的外来计算架构早就称霸一方,即便单单在中国市场,AI方案的选择也是多如牛毛,加上过去的客户华为转身一变成为最大敌手,寒武纪想在这么险恶的市场杀出一条生路,前景不容乐观。

幸而,寒武纪已经考虑到其IP授权模式的局限,并向计算领域迈出了一步,而且提供了通用性较好的软件平台。只是,在调整商业策略之后,如何争取更多大客户,创造好的营收和提升在市场中的可见度还是一个难题。

品牌传播 | 企业专访 | 投稿合作

 

原标题《寒武纪科技:中国“芯”希望? | 砺石》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章