据 DataLearner,GPU Utils最近总结了一个关于英伟达H100显卡在AI训练中的应用文章。里面透露总结了一些当前的主流厂商拥有的显卡数量以及一些模型训练所需的显卡数。
H100是目前全球性能最高的专业级显卡,特别适合用来训练大语言模型这种超大规模参数的大模型。速度很快。在16-bit训练上,比A100快2.3倍,在16-bit的推理上比A100快3.5倍。
GPT-4/Falcon等模型训练用到的GPU数量
• GPT-4:可能由1万到2.5万块A100训练
• Falcon-40B:384个A100训练
• Inflection用了3500个H100训练了一个等价于GPT-3.5的大模型
• LLaMA-1:2048个A100
• GPT-5:可能需要3万到5万个H100(存疑)
OpenAI、特斯拉等厂商拥有的GPU数量
• Meta有2.1万块A100
• Tesla有7000块A100
• StabilityAI有5000块A100
• GPC有2.5万块H100
• Azure有1-4万块H100
• CoreWeavw有3.5-4万块H100
• OpenAI可能有5万块H100
• Infection希望有2.2万块H100
• Meta已经有2.5万块H100,但是希望再买1万块