Groq的LPU,能否颠覆英伟达的GPU?

LPU虽好,但暂时难言“颠覆”。

AI热潮还在持续,“AI卖铲人”英伟达遭遇对手Groq,后者靠着自研芯片LPU火遍社交网络。

LPU最显著的特点就是快——每秒生成大约500个tokens,而GPU每秒只能生成约40个tokens。

最近在社交媒体上,充斥着大量Groq与其他AI系统的对比,但其中最为核心的一点是:LPU能否颠覆英伟达GPU的霸主地位?

“性价比”因素难有定论

LPU能否颠覆GPU的关键就在于性价比,但这一点尚不能确定。

随着AI热浪席卷,AI新创企业不仅难以获得GPU,而且成本翻倍。困扰AI开发工程师的难题,就是如何尽可能低成本获得强大的GPU(比如英伟达的A100和H100芯片)。LPU的出现无疑是为AI开发者提供了一个新的选项。

从性能上看,横空出世的Groq声称LPU芯片速度比GPU快10倍。

为什么LPU芯片速度能提高这么多?Groq品牌和创意副总裁Mark Heaps解释称,LPU通过“软件优先的硬件解决方案”,简化了数据的传输方式,而这种简化既表现在芯片上,还表现在芯片之间甚至是整个网络中。他补充说:

LPU不需要调度程序、CUDA库、内核等内容,但它不仅可以提高性能,还可以改善开发人员的体验。

但从价格上看,LPU与GPU价格孰高孰低,引起了一些争议。华尔街见闻此前提到,原阿里技术副总裁贾扬清发文分析,一张LPU卡仅有230MB的内存,且售价超2万美元,在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍

华为“天才少年”左鹏飞则表示,Groq成本价非常低,预计每卡成本在1200美金左右。GPU的成本大头则在HBM,但 Groq 直接丢掉了HBM,可以按 SRAM 的成本价估算卡成本。按1200美金/卡的成本计算,500张Groq卡的总成本是60万美金。Groq公司拿这60万美金只能采购两台英伟达H100。

Heaps表示,他们的芯片是基于14nm成熟工艺,容易获取且成本低廉。同时,Heaps指出了LPU未来的发展方向:

我们下一代产品是4nm芯片。

与GPU的适用场景各异

Heaps在比较GPU与LPU时提到,选择GPU与LPU往往需要考虑很多因素,比如工作负载和型号。Heaps称,在运行较小规模的硬件部署时,GPU系统确实将很有优势:

但如果我们谈论的是使用大型语言模型,为成千上万的用户提供服务的大型系统,我们的数据显示LPU在功耗方面更有效率。

在Groq LPU推出之前,大模型的训练和推理都是基于英伟达GPU来设计,采用昂贵的CUDA软件技术栈,而LPU则是专为AI推理所设计的芯片,在很多领域还未被大规模应用。

Heaps解释说,去年大量新的LLM模型推出,需要芯片兼容训练和推理,而往后则会有更差异化的需求(例如专用推理芯片),LPU就有了用武之地:

过去,人们想要一个像GPU这样的通用解决方案,既可以用于训练,也可以用于推理。

但现在,新兴市场迫使人们追寻差异化,通用的解决方案并不能很好地帮助他们实现目标。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。