Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界

新智元

2023/06/13 15:29

Transformer的出现，不仅让NLP变了天，成为自然语言领域的主流模型，还成功跨界CV，给AI界带来了意外的惊喜。

2017年6月12日，Attention is All You Need，一声炸雷，大名鼎鼎的Transformer横空出世。

它的出现，不仅让NLP变了天，成为自然语言领域的主流模型，还成功跨界CV，给AI界带来了意外的惊喜。

到今天为止，Transformer诞生6周年。而这篇论文被引数高达77926。

英伟达科学家Jim Fan对这篇盖世之作做了深度总结：

1. Transformer并没有发明注意力，而是将其推向极致。

第一篇注意力论文是在3年前（2014年）发表的。

这篇论文来自Yoshua Bengio的实验室，而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

它是「RNN+上下文向量」（即注意力）的组合。

或许很多人都没有听说过这篇论文，但它是NLP中最伟大的里程碑之一，已经被引用了29K次（相比之下，Transformer为77K）。

2. Transformer和最初的注意力论文，都没有谈到通用序列计算机。

相反，两者都为了解决一个狭隘而具体的问题：机器翻译。值得注意的是，AGI（不久的某一天）可以追溯到不起眼的谷歌翻译。

3. Transformer发表在2017年的NeurIPS上，这是全球顶级的人工智能会议之一。然而，它甚至没有获得Oral演讲，更不用说获奖了。

那一年的NeurIPS上有3篇最佳论文。截止到今天，它们加起来有529次引用。

Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。

对此，Jim Fan认为，在一项出色的工作变得有影响力之前，很难让人们认可它。

我不会责怪NeurIPS委员会——获奖论文仍然是一流的，但影响力没有那么大。一个反例是ResNet。

何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧，得到了正确的认可。

2017年，该领域聪明的人中，很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样，很少有人能预见自2012年以来深度学习的海啸。

OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣，并表示，

介绍注意力的论文（由@DBahdanau , @kchonyc , Bengio）比「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看，这两篇论文都非常普通，但有趣的是恰好都是为机器翻译而开发的。

你只需要注意力！

Transformer诞生之前，AI圈的人在自然语言处理中大都采用基于RNN（循环神经网络）的编码器-解码器（Encoder-Decoder）结构来完成序列翻译。

然而，RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性，无法实现并行。

Transformer的现世可谓是如日中天，让许多研究人员开启了追星之旅。

2017年，8位谷歌研究人员发表了Attention is All You Need。可以说，这篇论文是NLP领域的颠覆者。

论文地址：https://arxiv.org/pdf/1706.03762.pdf

它完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，进而实现了并行计算。

甚至，有人发问「有了Transformer框架后是不是RNN完全可以废弃了？」

JimFan所称Transformer当初的设计是为了解决翻译问题，毋庸置疑。

谷歌当年发的博客，便阐述了Transformer是一种语言理解的新型神经网络架构。

文章地址：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

具体来讲，Transformer由四部分组成：输入、编码器、解码器，以及输出。

输入字符首先通过Embedding转为向量，并加入位置编码（Positional Encoding）来添加位置信息。

然后，通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征，最后输出结果。

如下图所示，谷歌给出了Transformer如何用在机器翻译中的例子。

机器翻译的神经网络通常包含一个编码器，在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。

然后，利用自注意力，从所有其他的词中聚合信息，在整个上下文中为每个词产生一个新表征，由实心圆表示。

接着，将这个步骤对所有单词并行重复多次，依次生成新的表征。

同样，解码器的过程与之类似，但每次从左到右生成一个词。它不仅关注其他先前生成的单词，还关注编码器生成的最终表征。

2019年，谷歌还专门为其申请了专利。

自此，在自然语言处理中，Transformer逆袭之路颇有王者之风。

归宗溯源，现在各类层出不穷的GPT（Generative Pre-trained Transformer），都起源于这篇17年的论文。

然而，Transformer燃爆的不仅是NLP学术圈。

万能Transformer：从NLP跨到CV

2017年的谷歌博客中，研究人员曾对Transformer未来应用潜力进行了畅享：

不仅涉及自然语言，还涉及非常不同的输入和输出，如图像和视频。

没错，在NLP领域掀起巨浪后，Transformer又来「踢馆」计算机视觉领域。甚至，当时许多人狂呼Transformer又攻下一城。

自2012年以来，CNN已经成为视觉任务的首选架构。

随着越来越高效的结构出现，使用Transformer来完成CV任务成为了一个新的研究方向，能够降低结构的复杂性，探索可扩展性和训练效率。

2020年10月，谷歌提出的Vision Transformer (ViT)，不用卷积神经网络（CNN），可以直接用Transformer对图像进行分类。

值得一提的是，ViT性能表现出色，在计算资源减少4倍的情况下，超过最先进的CNN。

紧接着，2021年，OpenAI连仍两颗炸弹，发布了基于Transformer打造的DALL-E，还有CLIP。

这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。

再到后来的DALL-E进化版DALL-E 2，还有Stable Diffusion，同样基于Transformer架构，再次颠覆了AI绘画。

以下，便是基于Transformer诞生的模型的整条时间线。

由此可见，Transformer是有多么地能打。

2021年，当时就连谷歌的研究人员David Ha表示，Transformers是新的LSTMs。

而他曾在Transformer诞生之前，还称LSTM就像神经网络中的AK 47。无论我们如何努力用新的东西来取代它，它仍然会在50年后被使用。

Transformer仅用4年的时间，打破了这一预言。

新硅谷「七叛徒」

如今，6年过去了，曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了？

Jakob Uszkoreit被公认是Transformer架构的主要贡献者。

他在2021年中离开了Google，并共同创立了Inceptive Labs，致力于使用神经网络设计mRNA。

到目前为止，他们已经筹集了2000万美元，并且团队规模也超过了20人。

Ashish Vaswani在2021年底离开Google，创立了AdeptAILabs。

可以说，AdeptAILabs正处在高速发展的阶段。

目前，公司不仅已经筹集了4.15亿美元，而且也估值超过了10亿美元。

此外，团队规模也刚刚超过了40人。

然而，Ashish却在几个月前离开了Adept。

在Transformers论文中，Niki Parmar是唯一的女性作者。

她在2021年底离开Google，并和刚刚提到的Ashish Vaswani一起，创立了AdeptAILabs。

不过，Niki在几个月前也离开了Adept。

Noam Shazeer在Google工作了20年后，于2021年底离开了Google。

随后，他便立刻与自己的朋友Dan Abitbol一起，创立了Character AI。

虽然公司只有大约20名员工，但效率却相当之高。

目前，他们已经筹集了近2亿美元，并即将跻身独角兽的行列。

Aidan Gomez在2019年9月离开了Google Brain，创立了CohereAI。

经过3年的稳定发展后，公司依然正在扩大规模——Cohere的员工数量最近超过了180名。

与此同时，公司筹集到的资金也即将突破4亿美元大关。

Lukasz Kaiser是TensorFlow的共同作者人之一，他在2021年中离开了Google，加入了OpenAI。

Illia Polosukhin在2017年2月离开了Google，于2017年6月创立了NEAR Protocol。

目前，NEAR估值约为20亿美元。

与此同时，公司已经筹集了约3.75亿美元，并进行了大量的二次融资。

现在，只有Llion Jones还在谷歌工作。

在论文的贡献方面，他风趣地调侃道：「自己最大的意义在于——起标题。」

网友热评

走到现在，回看Transformer，还是会引发不少网友的思考。

AI中的开创性论文。

马库斯表示，这有点像波特兰开拓者队对迈克尔·乔丹的放弃。

这件事说明了，即使在这样的一级研究水平上，也很难预测哪篇论文会在该领域产生何种程度的影响。

这个故事告诉我们，一篇研究文章的真正价值是以一种长期的方式体现出来的。

哇，时间过得真快！令人惊讶的是，这个模型突破了注意力的极限，彻底改变了NLP。

在我攻读博士期间，我的导师 @WenmeiHwu 总是教育我们，最有影响力的论文永远不会获得最佳论文奖或任何认可，但随着时间的推移，它们最终会改变世界。我们不应该为奖项而奋斗，而应该专注于有影响力的研究！

本文作者：桃子、好困，来源：新智元，原文标题：《Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。