当地时间7月29日,苹果在官网的一篇论文中披露,其训练模型采用了谷歌研发的第四代AI ASIC芯片TPUv4和更新一代的芯片TPUv5。
早在今年6月的全球开发者大会(WWDC)期间,媒体已经在苹果公布的技术文件细节中发现,谷歌成为苹果在AI领域发力的另一位赢家。苹果的工程师在构建基础模型时运用了公司自研的框架软件及多种硬件,包括仅在谷歌云上可用的张量处理单元(TPU)。只不过,苹果未透露,相比英伟达等其他AI硬件供应商,苹果有多依赖谷歌的芯片和软件。
TPU—AI训练的专用芯片
TPU(张量处理器)是Google 2016年首次推出的用于机器学习的专用处理器。
该处理器擅长大型矩阵运算,可以更高效地训练模型,芯片内集成的HBM也有助于更大规模的模型训练,此外多个TPU可以组成Pod集群,极大地提升了神经网络工作负载的效率。
对比当下市场主流的英伟达GPU产品,其主要有以下特点:
核心数量上,GPU拥有大量的处理核心,可以同时处理多个任务,而TPU其核心数量相对较少,但每个核心都针对深度学习的工作负载进行了优化。
适用范围上,GPU提供了一定的通用性,可以处理包括图形渲染、科学计算和深度学习等任务,而TPU则专注于深度学习中的张量运算,这使得TPU在特定AI计算任务上可能比GPU更快,但在其他类型的任务上可能不如GPU灵活或高效。
应用上,GPU因其通用性和灵活性而被广泛应用于各种计算密集型任务,包括但不限于游戏、电影制作、科学研究、金融建模和深度学习训练。TPU由于其专门为深度学习优化,通常用于需要高吞吐量和低延迟的深度学习推理任务,如搜索引擎、推荐系统和自动驾驶汽车。
性能上,谷歌曾在一篇论文中表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.7倍的性能,同时在能效上也能提高1.9 倍。
此外据华创证券,2023年Google先后推出TPUv5e及TPUv5p两款芯片。其中TPU v5e,可在同样成本情况下,为大语言模型和生成式AI模型提供相较于TPUv4高达2倍的训练性能和2.5倍的推理性能;TPUv5p则是Google有史以来功能最强大、可扩展性最强、灵活性最高的AI芯片,其训练大型LLM模型的速度为TPUv4的2.8倍,较TPUv5e有近50%的提升。当前,TPU已成为Google大模型训练的主力军。从TPU的使用情况来看,目前Google 90%以上的模型训练均在TPU上进行。
谷歌的大杀器——OCS
另外,据此前Google论文的数据,在搭建TPUv4的集群时,与传统Infiniband交换机方案相比,OCS(光路交换机)方案成本更低,功耗更低,部署更快。
OCS是谷歌自研的数据中心光交换机,它通过MEMS系统的阵列组反射实现光信号交换,取代原有光电混合交换机体系。
中泰证券指出,谷歌Gemini主要使用TPU v4和TPU v5e大规模训练,且自TPU v4起开始使用OCS光交换机,其使用基于MEMS的微镜阵列在64个TPU slice之间切换,能够根据实际网络中的数据量,灵活选择数据链路和网络拓展,意味着当网络中部署更高速率的光模块和交换机时,原有的低速器件可以继续使用,降低成本功耗。预计大规模AI芯片组网有望进一步扩张高速率光模块需求,OCS全光方案或为光器件带来全新增量。
产业方面,华创证券表示,基于MEMS的光交换方案在对数据速率及波长不敏感、低功耗、低延迟等方面都具备优势,Google选择自研OCS、光模块和光环形器三大主要器件,以构成一个低成本高效益的大规模光交换系统。其中:
1)MEMS反射镜是OCS的核心组成器件,OCS的创新性应用,有助于MEMS代工业务的拓展。
2)光模块为适配OCS需求,被重新定制化设计为使用环形器+CWDM4/8的最新一代Bidi OSFP封装。光模块国内企业具有较强竞争力,未来应用技术难度更高,客户粘性有望持续提升;
3)环形器被创新性引入光模块内,传输效率进一步提升。环形器供应链较为成熟,核心器件法拉第旋转片国产化程度较低,偏振分束器近年国内厂商已具备量产能力;
4)光芯片与电芯片因更高链路预算需求而配套升级,EML及DSP芯片均以海外供应商为主,国产化程度较低;
5)铜缆与光纤受益Rack内外连接,带来较大需求。