硬件软件齐发力,AMD正在努力赶超英伟达,目前正面临生态垄断的关键问题。
9月底,Lamini联合创始人兼首席执行官Sharon Zhou在X平台发布了一条推文,推文表示在过去的一年里,她一直在使用AMD(超威半导体)的100多个芯片来为其人工智能初创公司的产品提供支持。
这条推文再度引发了市场兴奋。为了追赶英伟达,AMD今年以来动作频频,过去两周以来,AMD股价累计上涨了约10%。
今年6月,AMD在其新品发布会上发布最新GPU Instinct MI300,并称MI300X提供的HBM密度最高是英伟达AI芯片H100的2.4倍,其HBM带宽最高是H100的1.6倍。这意味着,AMD的芯片可以运行比英伟达芯片更大的模型,将于今年晚些时候发布的Instinct MI300XA也因此被视为英伟达H100的有力竞品。
但是在软件方面,英伟达的Cuda生态圈将AMD芯片拒之门外,想要打破英伟达的垄断并非易事。
AMD的软件难题:跨越Cuda生态壁垒
从硬件参数上来看,AMD Instinct MI300A已经赶上甚至赶超了英伟达H100的水准,剩下的难题就是完善软件生态,主要是需要兼容英伟达自研的Cuda生态。
英伟达的Cuda软件及其芯片形成封闭的生态圈,使得AMD的RocM软件难以流行。此外,英伟达在其他软件组件(例如连接操作系统和硬件的驱动程序)方面也拥有巨大的领先优势。
Zhou在接受采访时表示,尽管其初创公司成立时间不过一年,但她的联合创始人Greg Diamos已经花费了多年的时间致力于针对Lamini开发的软件优化AMD芯片。
因此,如果一家初创公司的AI应用搭载的是英伟达芯片,那么它基本上不可能转向AMD芯片,因为这意味着公司必须“扔掉所有代码并从头开始”。
为了更明确地表达跨越生态的难度,Zhou指出,英伟达在Cuda生态方面拥有“两个十年的领先优势”。
但这不意味着AMD的芯片没有任何优势。
首先,AMD MI300A芯片率先实现了CPU和GPU的结合,能够加快训练计算的速度,而英伟达的Falcon Shores计划尚未落地。
其次,MI300A芯片拥有128GB的内存,比H100 80GB的内存更大,意味着开发人员可以在单个芯片上加载更大、更复杂的人工智能模型,而不是将其拆分到多个芯片上,分割模型会使训练和运行速度变慢且更加耗电。
此外,很多初创公司也正致力于让非英伟达芯片也可以兼容生态。比如Lamini一直致力于简化在AMD GPU上构建人工智能模型的困难;Modular正在构建软件,以允许开发人员在不同类型的硬件上训练和运行模型。
周二,AMD表示,正计划收购一家名为Nod.ai的人工智能初创公司,以增强其人工智能软件的开发能力,以便更轻松地部署针对AMD芯片的人工智能模型。