苹果官宣:支持Apple Intelligence的模型在谷歌定制芯片上训练

硬AI
苹果论文披露,在8192块谷歌TPUv4 芯片上训练一个大型服务器语言模型——服务器苹果基础模型(AFM),进行6.3万亿token训练;端侧AFM在2048块TPUv5p 芯片训练;AFM和AFM服务是在“云TPU 集群”上训练。

本文作者:李丹

来源:硬AI

公开文件显示,苹果开发自家的人工智能(AI)系统Apple Intelligence离不开谷歌定制芯片的支持。

美东时间7月29日周一,苹果官网公布了一篇技术论文,详细介绍为支持苹果个人智能化系统Apple Intelligence而开发了一些基础语言模型,包括一个用于在设备上高效运行的约30亿参数模型——端侧“苹果基础模型”(AFM),以及一个为苹果云端AI架构“私有云计算”(Private Cloud Compute)而设计的大型服务器语言模型——服务器AFM。

论文中,苹果介绍,端侧AFM和服务器AFM是苹果开发的生成式模型大家族成员,这些模型都用于支持用户和开发者。论文中,苹果披露,训练模型采用了谷歌研发的第四代AI ASIC芯片TPUv4和更新一代的芯片TPUv5。文章写道:

“我们在8192块TPUv4 芯片上从无到有训练服务器AFM,使用4096的序列长度和4096个序列的批量大小,进行6.3万亿token训练。”

“端侧AFM在2048块TPUv5p芯片上进行训练。”

在这篇长达47页的论文中,苹果没有提到谷歌或是英伟达的名字,但表示,其AFM和AFM 服务是在“云TPU 集群”上训练。这意味着,苹果向云服务商租用了服务器执行计算。

事实上,今年6月的全球开发者大会(WWDC)期间,媒体已经在苹果公布的技术文件细节中发现,谷歌成为苹果在AI领域发力的另一位赢家。苹果的工程师在构建基础模型时运用了公司自研的框架软件及多种硬件,包括仅在谷歌云上可用的张量处理单元(TPU)。只不过,苹果未透露,相比英伟达等其他AI硬件供应商,苹果有多依赖谷歌的芯片和软件。

因此,本周一在社交媒体X上有评论指出,6月就出过苹果用谷歌芯片的消息,现在我们有了更多关于训练堆栈的细节。

有评论称,苹果并不是讨厌英伟达,只不过TPU的速度更快。还有评论称,TPU速度更快,所以苹果用它是有道理的,当然也可能它比英伟达的芯片更便宜。

本周一媒体评论称,谷歌的TPU最初是为内部工作负载而创建,现在正得到更广泛的应用。苹果用谷歌芯片训练模型的决定表明,在AI训练方面,一些科技巨头可能正在寻找并且已找到英伟达AI芯片的替代品。

华尔街见闻曾提到,上周,Meta的CEO扎克伯格和Alphabet兼谷歌的CEO皮查伊都在讲话中暗示,他们的公司和其他科技业公司可能在AI基础设施方面投资过度,“可能过多投入AI”。但他们同时都承认,如果不这样做,商业风险太高。

扎克伯格说:

“落后的后果是,你在未来10到15年内,都会在最重要的技术上处于不利地位。”

皮查伊说:

AI成本高,但投资不足的风险更大。谷歌可能在AI基础设施上投资过多,主要包括购买英伟达的GPU。即使AI热潮放缓,公司购买的数据中心和计算机芯片也可以用于其他用途。对我们来说,投资不足的风险远远大于投资过度的风险。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章