字节跳动发布新一代折叠模型SeedFold,性能超越谷歌AlphaFold 3

AI寒武纪
在FoldBench基准测试中,SeedFold在蛋白质单体、抗体-抗原复合物等多项任务上刷新SOTA纪录。研究揭示三大缩放策略:加宽模型比加深更有效,将成对表示维度扩至512;引入线性三角注意力机制,将计算复杂度从立方级降至平方级;通过知识蒸馏构建2650万样本训练集。

就在生物分子结构预测领域竞争日益激烈之时,来自字节跳动Seed团队的一篇新研究,为如何有效缩放这类基础模型,提供了全新的解题思路。

他们推出了名为 SeedFold 的新一代折叠模型,不仅在多个蛋白质相关任务的性能上超越了AlphaFold 3,更重要的是,系统性地揭示了通往更强模型的三个关键“缩放配方”:

模型缩放:加宽而非加深。研究发现,增加Pairformer模块的宽度是提升模型表示能力最有效的方式。

架构创新:引入一种新颖的线性三角注意力机制,将关键计算的复杂度从立方级降低到平方级,实现了高效缩放

数据扩展:通过大规模知识蒸馏,将训练数据集扩充至惊人的2650万个样本,为模型提供充足“养料”。

实验结果在权威基准测试集FoldBench上得到了验证。SeedFold在蛋白质单体、蛋白-蛋白复合物、抗体-抗原复合物等多个关键任务上,均取得了当前最佳(SOTA)性能

缩放法则:加宽比加深更有效

如何让模型变得更强?这是一个基础且核心的问题。过去的研究大多集中于增加模型的深度,即堆叠更多的Pairformer层。

但SeedFold团队通过实验发现,模型性能的瓶颈主要在于成对表示(pair representation)的隐藏维度,而非模型的深度。

他们设计了三种不同的缩放策略进行对比:

加宽主干 (Wider Trunk):将成对表示的维度从128逐步增加到256,再到512

加深主干 (Deeper Trunk):将Pairformer的层数从48层增加到96层

加深结构模块 (Deeper Structure Module):将结构模块的Transformer层数从24层增加到48层。

实验结果(上图b)清晰地表明:

宽度缩放的效果远超深度缩放。

从128宽度(Base)扩展到256宽度(Medium)时,模型的全局结构准确度(RMSD,越低越好)和局部结构质量(lDDT,越高越好)都获得了巨大提升。进一步扩展到512宽度(Large)时,性能仍在持续提升,尽管收益边际递减。

相比之下,将模型主干或结构模块加深,带来的性能增益则非常有限。研究人员认为,现有的循环(recycling)机制已经等效地创造了一个非常深的网络,单纯增加物理深度意义不大。

这一发现的核心结论是:提升成对表示的维度,直接增强了模型编码复杂空间相互作用的能力,是打破性能瓶颈的关键

下表展示了不同模型配置的参数量和训练效率

架构创新:线性三角注意力

确定了“加宽”是正确方向后,一个现实的计算瓶颈随之而来:Pairformer中的三角注意力操作。其计算复杂度和内存消耗会随着蛋白质序列长度的增长呈立方级(O(n³))增加,严重制约了模型的扩展和对长链的处理能力。

为此,SeedFold引入了一种新颖的 线性三角注意力(Linear Triangular Attention) 机制。

其核心思想借鉴了大型语言模型中的线性注意力,通过用简单的非线性函数(如ReLU)替换Softmax,并利用矩阵乘法的结合律,巧妙地将计算复杂度从 O(n³d) 降低到 O(n²d),实现了从立方级到平方级的跨越。

从上图(b)可以看出,相比原始的Vanilla注意力机制,两种线性注意力(AdditiveLinear和GatedLinear)在峰值内存占用和计算时间上都表现出巨大优势,且这种优势随着序列长度增加愈发明显。

最终,团队开发了两个主力模型:

SeedFold:一个512宽度的模型,使用原始的三角注意力,稳定性更强。

SeedFold-Linear:一个384宽度的模型,集成了计算效率更高的门控线性三角注意力(GatedLinearTriAtt)。

数据为王:2650万样本的大规模蒸馏

高质量、大规模、多样化的数据集是训练强大模型的基石。然而,通过实验测定的生物分子结构数量仍然有限。

特别是当结构预测模型从AlphaFold2的IPA模块转向AlphaFold 3的通用Transformer架构时,模型对数据的需求量变得更大,因为Transformer缺乏固有的旋转平移不变性等归纳偏置,需要从海量数据中学习。

为了解决这一问题,SeedFold团队构建了一个超大规模的蒸馏数据集,将训练样本总数扩充至2650万,是实验数据集(约18万)的147倍。

这个训练集主要由三部分构成:

  • PDB实验数据:来自PDB数据库的真实结构。
  • AFDB蒸馏数据:从AlphaFold DB中筛选出的330万个高质量预测结构,主要为短序列蛋白质。
  • Mgnify蒸馏数据:基于Mgnify宏基因组数据集,通过OpenFold预测生成的2300万个高质量结构,序列多样性更高,且包含更多长链蛋白质。

通过混合使用真实数据和大规模蒸馏数据,SeedFold有效地学习到了蛋白质结构的基本几何规律,显著提升了模型的泛化能力和稳健性。

实验结果:多项任务超越AlphaFold 3

SeedFold在全面的基准测试集 FoldBench 上与当前最先进的模型进行了正面比较,包括AlphaFold 3、Boltz-1、Protenix-0.5和Chai-1。

总体性能

下表展示了主要结果,数值越高代表性能越好

可以看到:

SeedFold(512宽度,标准注意力)在 蛋白质单体 预测(lDDT 0.8889)、抗体-抗原界面预测(DockQ 53.21%)和 蛋白-RNA 界面预测(DockQ 65.31%)上均刷新了SOTA纪录,显著优于AlphaFold 3

SeedFold-Linear(384宽度,线性注意力)则在 蛋白-配体 预测(成功率 66.48%)和 蛋白-蛋白 界面预测(DockQ 74.14%)上取得领先

界面预测细节

为了更深入地分析模型在关键界面预测任务上的表现,研究团队还绘制了成功率的累积分布图

在 抗体-抗原 预测中,SeedFold在整个DockQ分数区间内都展现出压倒性优势。在 蛋白-配体 任务中,SeedFold-Linear的表现最佳。而在竞争激烈的 蛋白-蛋白 任务中,两个SeedFold模型也持续稳定地优于其他开源模型。

这些结果充分验证了SeedFold提出的宽度缩放策略、线性注意力架构和大规模数据蒸馏方法的有效性。

写在最后

在论文的最后,研究人员还指出了未来值得探索的两个方向:

  1. 专家混合网络(MoE):对于需要处理多种分子类型(核酸、蛋白质、配体等)的通用模型,不同任务间的梯度更新可能存在冲突。MoE架构有望让模型更高效地学习多任务,同时降低计算成本。
  2. 训练后缩放:目前的监督学习信号可能有限。未来可以探索如RLxF(从“X”反馈中进行强化学习)等技术,使模型的预测分布与真实世界更加对齐。

总而言之,SeedFold不仅提供了一个性能强大的新模型,更重要的是,它为整个领域指明了一条清晰、可行的模型缩放路径,为构建下一代生物分子基础模型奠定了坚实的基础。

本文来源:AI寒武纪

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章