首先我们得先想清楚一个问题,做这个给谁用?现在有几个不同的观点。其一,回看当初的GH200,对推荐系统的提升效果尤其明显(下图)
此外从之前我们探讨的meta报告中给出的不同模型的能力需求雷达图中,也可以看到,推荐系统模型的特点是对Memory Capacity(注意这里不见得是HBM,应该包括了DDR)的要求尤其高。因此GH200通过grace hopper实现的统一大内存(恐怖的144TB DDR),的确非常适合推荐系统。这里又会让人联想到近期NV反复与市场强调的正在爆发的推荐引擎推理需求。
但这里的确有个问题,1)这玩意很贵;2)费这么大劲定义这么牛逼的一个系统,不可能只面向推荐系统的少数巨头。3)推荐系统不需要如此强的带宽,岂不是浪费?具体网络配置和架构设计
该文件中,专门区分了CX7和CX8两种参考设计,另一个J总也透露,可能在B100沿用CX7,B200才会升级到CX8(特别是前后版本NVlink,寻址空间从256直接到了2000…)。价格上GB200(1 Grace+2GB100)接近7万美金。而文件中展示的B100和B200的价格,的确非常有竞争力,会给AMD相当大压力...
我们回到前面探讨的产品定位问题。表面上看又是一个巨贵的玩意儿(NVL72 rack是250万美金)。但从性能的提升看,过去GH200在LLM 65B上的推理速度相比H100提升了2倍多,在VectorDB和DLRM上的相比H100提升了5-6倍。假设在LLM负载上,B100相比H100的提升是4倍(两颗die+更大的HBM),GB200相比B100的提升是2-3倍(nvlink升级+grace hopper vs pcie),这里还没考虑软件的优化,之前tensor-RT优化过的推理任务提升也是好几倍。几个因子相乘,整体推理性能的提升可能是20-40倍...当然你要除以价格因素(2.3万美金vs7万美金),依然获得了10倍以上per dollar的性能提升...
如果上述我们的推演大差不差,那这一次GB200的性能的确可能会成为大杀器。上一代GH200相比H100的提升不够明显、推出时间拉的太长、价格因子放到分母被摊平....让GH200显得没有那么惊艳。这一次的GB200似乎的确值得期待。其实就等下面这张图,NV何时给我们放出后续,看GB200的那根柱子能捅到哪里去.......
本文作者:Jason,本文来源:信息平权,原文标题:《初探GB200参考设计》