近日,Drastic Research副总裁兼Gemini联合负责人Oriol Vinyals在Google DeepMind播客访谈中分享了对AI模型的看法,涉及多模态模型背后的过程、创新的重要性以及AI的下一步。
他认为,AI目前的挑战是实现算法的通用性。他还表示,在预训练中没有所谓的无限数据状态,数据是有限的。他倾向于相信未来可以稍微推高数据的极限,超过目前的极限,并将打破一些scaling laws和在纯预训练中看到的限制。
以下为访谈要点:
算法本身,我们努力让它们非常通用,以便我们可以继续攀登难度阶梯,游戏课程, 并做更多复杂的事情。
AI训练,有两个基本步骤一直保持相对不变,第一个步骤,即预训练或模仿学习。强化学习或后期训练的部分,这是训练的第二阶段。这两个步骤实际上从AlphaGo到AlphaStar到当前大型语言模型几乎是相同的。 当然,还有一些细节很重要。而且这个领域已经发展,但原则几乎没有改变。
计算单元是神经元,神经元之间的连接实际上就是权重。所以你可以想象有一个神经元,有几个神经元与之相连。你基本上是将所有传入神经元的激活值乘以权重。
这些模型实际上做一些事情,采取一些行动,学习任何可用的新东西,这是相当强大的。这是推动通用性最大的因素,这就是许多人称之为的AGI,感觉更接近。
为了推动前沿,你需要给计算机一个数字身体,这样它不仅可以思考,给出指令或文字输出,还可以在线或在你可能上传的文件上做一些事情,或问非常复杂的问题,并为你个性化等等。
因为训练模型的过程是昂贵的。所以我们需要非常小心地积累创新,以便最终,当我们准备好时,我们有足够的创新,可能也会有更好的规模来运行下一次模型的迭代。我们运行它,然后我们不仅通过数据和计算获得算法上的突破。
预训练中,我们没有所谓的无限数据状态,数据是有限的。
我们只有有限的数据来训练这个仲裁者,而真正的标准可能需要专家的判断。然而,这种方式不可扩展。
通过给模型提供这些工具,它们可以开始实现更多超越训练语料库的高阶功能,比如依赖最新的新闻来解释或总结前一天的重大事件。
我们希望通过延长模型处理时间,它能更好地总结新闻、写诗,甚至解决数学问题。但这肯定是另一个scaling轴,我们正开始解锁,我们希望解锁。同样,我们将打破一些scaling laws和我们在纯预训练中看到的限制。
当你需要考虑个性化和时间安排时,模型需要从多个信息来源中整合数据,才能给出最佳答案。这不再是一个简单的‘天空是什么颜色’的问题。
今年的一个突破是能在上下文中处理数百万个标记,你可以从过去检索一些东西,然后将其带到未来,然后进行非常详细的分析。
以下为访谈原文,部分内容略有删减:
AI训练的两个基本步骤:预训练和强化学习
主持人:
上次见到你时,你正在研究一个可以使用键盘和鼠标的智能代理,它可以在画图、绘画或玩《星际争霸》。从那时起,事情已经取得了很大进展。
Oriol Vinyals:
我们当时所做的是制定一系列越来越难的任务。我们谈到电子游戏《星际争霸》时,这是当今最复杂的现代策略游戏之一。当然,DeepMind以开创了雅达利游戏的趋势而闻名, 这是一个简单的左右移动球拍和打球的游戏。
这是算法本身,我们努力让它们非常通用,以便我们可以继续攀登难度阶梯,游戏课程, 并做更多复杂的事情。现在发生的事情是,我们训练的模型比我们当时开发的模型应用范围更广。
所以想想创建这个数字大脑的过程并没有改变太多。但当时该大脑能够做的事情相对有限,尽管非常复杂, 比如玩《星际争霸》或围棋。现在,这些模型可以做更多广泛的应用,当然,还有与我们聊天的聊天机器人等等。
主持人:
那时候,强化学习是你主要的杠杆吧。我想知道现在有什么不同?
Oriol Vinyals:
是的,所以从算法上说,AlphaGo和AlphaStar使用了相同的一套算法序列来创建这个数字大脑。它与当前大型语言模型或多模态模型的创建方式并没有太大不同。 在我们参与的许多项目中,有两个基本步骤一直保持相对不变,第一个步骤,即预训练或模仿学习。
也就是说,从随机权重开始,有一个算法会尝试模仿人类为玩游戏而创建的大量数据,或者在这种情况下,模仿互联网上所有我们可以获取的知识。在这第一阶段,你只需调整权重以尽可能好地模仿那些数据。
主持人:
这些权重本质上是每个神经元内部的一系列数字,这些数字描述了它与其他事物的联系?
Oriol Vinyals:
是的,所以基本上计算单元是神经元,神经元之间的连接实际上就是权重。所以你可以想象有一个神经元,有几个神经元与之相连。你基本上是将所有传入神经元的激活值乘以权重。而这些权重是唯一会改变的东西。输入激励神经元,这很像大脑的运作方式,有一些自由度的创造性。
主持人:
好吧,如果我们做一个类比,那就像你有神经元,水流过它,而权重就像神经元之间管道的宽度?
Oriol Vinyals:
是的,没错。然后你可以想象有数百万个神经元,数十亿甚至万亿的管道。这就是我们花费大部分计算资源训练这些模型的地方,特别是语言模型,就是在预训练或模仿所有我们可以获取的数据。
主持人:
好吧,所以你现在有了一张巨大的网络,有很多管道连接所有的神经元。那就是你的模仿阶段完成了。接下来,如果你在做,比如说AlphaGo或AlphaZero,你会让它自己跟自己对弈。
Oriol Vinyals:
是的。当然,这些句子在英语中看起来很合乎逻辑。或者如果它在玩一个游戏,它会合理地点击东西,以移动棋盘上的棋子等等。但这个模型还没有学会的是学习这些行为会产生回报。
那就是强化学习或后期训练的部分,这是训练的第二阶段。 所以你可以通过“嘿,平均来说,互联网上的诗是什么样的?”来写一首诗。但接下来的问题是,“我只想要好的部分”
所以我如何基于某种信号进一步调整这些管道,现在写完整首诗后,它会给一个0或1的分数。
比如说,如果是一首平庸的诗,你得到0分;如果是一首好诗,你得到1分。再用一个游戏的类比,这是我们传统上使用强化学习的地方,如果你赢得了游戏,你得到1。如果你输了,你得到0,然后你进一步调整权重。
但现在,不再是模仿人类, 而是说,忘掉过去,我想超越人类能够做到的,尝试让我的所有诗歌都成为完美的诗歌,或者我的所有棋局都成为完美的棋局。在语言模型中,这个第二阶段, 即强化学习后训练阶段,往往相对短暂,因为我们没有获得超级干净的奖励。
主持人:
所以一旦完成,那就是所有幕后进行的事情。然后你就说,大家保持原地不动。我们要对整个网络进行一个快照,这就是你作为用户实际能够访问的东西。
Oriol Vinyals:
是的。所以现在这个惊人的过程完成了。这些权重非常珍贵,所以你找到的这个配置,你真的花了几个月的时间来完善它,调整一切。所以训练结束,你不再改变配置。
你可能想让它非常高效。比如说你发现这个神经元没有多大用处,它对任何事情都没有用,你把它移除,一切都变得更快,更便宜,以便大规模运行它。
然后作为用户,你就得到了相同的权重,每个人都会得到我们训练过的相同权重。。 这就是我们所称的Gemini 1.5 Flash。这仅仅意味着一组冻结的权重,不会再进一步训练或任何事情。
所以这两个步骤实际上从AlphaGo到AlphaStar到当前大型语言模型几乎是相同的。 当然,还有一些细节很重要。而且这个领域已经发展,但原则几乎没有改变。
AGI是推动通用性最大的因素
主持人:
这是雅达利的例子,或 AlphaGo中使用的算法类型,或者在大型语言模型中,架构是不同的,对吧?
Oriol Vinyals:
是的。所以有一些组件构成了数字大脑。其中之一是架构,所以有这些神经网络。现在我们有变压器模型,这在DQN时代我们肯定没有。所以总是有一些架构上的突破,更好地从数据中学习。
但从变压器模型到今天,几乎都是一些小调整。即使你看看AlphaFold,它也是由变压器驱动的,团队有时需要数年只是为了找到一些小的调整,比如,“嘿,让我们移除这一组神经元,让我们再加一层,让我们把这个弄得更宽一点”, 所以你塑造大脑的形状,它稍微改变一下,有时候这会影响性能的实现。
主持人:
如果这些都是迄今为止取得的成就,我的理解是,目标是创造更多的代理行为,让这些东西能够做出自主决策。这些如何帮助实现这一目标?
Oriol Vinyals:
是的。所以让我们深入一点当前的趋势。我们称之为大型语言模型,但它们是多模态的。
想象一下,能够添加图像,然后提出问题、继续提问,这是多么好的一件事。所以这项技能,我们仍然会改进它。这些权重集能够对输入进行的这些惊人的推断。这张图像是什么?用户在问什么?我能写一首更好的诗吗?我能把它写得更长吗或别的什么吗?
就像我们现在这些互动,我们都能玩这些东西,但这只是一种组件,我们可以想,嘿,这现在是我们的中央处理器,我们可以在它周围添加更多内容。
如果模型能去为你做研究呢,比如说,我举的一个例子,我们早就开始考虑这个问题。我可以要求一个语言模型或视觉语言模型学习玩《星际争霸》游戏。这与创建一个玩游戏的代理是非常不同的方法,在另一个例子中,它可以上网、看关于游戏的视频。当然,它可以下载游戏,开始与之互动学习。
在网上做研究,去论坛、阅读论坛。去玩并发现它在某方面薄弱并加以改进。经过几周后,它可能会给你发一封电子邮件说,我现在知道如何玩这个游戏了,让我们来玩。这不是一个太遥远的现实。
但这些模型实际上做一些事情,采取一些行动,学习任何可用的新东西,这是相当强大的。这是推动通用性最大的因素,这就是许多人称之为的AGI,感觉更接近。
数字身体能扩展答案
主持人:
所以如果我的理解没错的话,目前我们拥有的东西,大型语言模型,多模态模型,无论你怎么称呼它们,那是核心。但下一步是你在这个核心之上构建东西,让它能够脱去稳定器,去做自己的事情。
Oriol Vinyals:
是的,确实如此。如果它能够访问所有的知识,并且可以利用它的时间进行一些真正的研究, 编写假设,编写一些代码等等,并花时间真正回答非常非常复杂的问题。现在的可能性大大扩展了。
虽然我们当然不是在所有事情上都需要这样。如果我们问一个问题,比如,“嘿,我喜欢米饭。今晚我该准备什么?”可能不需要进行深入的思考或者持续三周的研究,你可能对等待时间不太满意。
但我认为,为了推动前沿,你需要给计算机一个数字身体,这样它不仅可以思考,给出指令或文字输出,还可以在线或在你可能上传的文件上做一些事情,或问非常复杂的问题,并为你个性化等等。
主持人:
我喜欢这个想法,你有了电子大脑,现在你给它一个数字身体。我知道大型模型的大想法之一就是把它扩大、让它们越来越大。你认为通过扩展看到的结果现在已经稳定下来了吗?
Oriol Vinyals:
是的,这是一个非常重要的问题。我们研究了随着模型变大,也就是这些模型有多少神经元,它们在我们有明确指标的某些任务上变得多么出色。例如,一个非常容易理解的例子是机器翻译,所以当你从数百万到数十亿甚至可能数万亿个神经元扩展时,你会看到性能不断提高。
这在通俗意义上意味着,在过去三年中,我们取得了一些进展,你不应该期望在接下来的三年中取得相同的进步。实际上这条路变得越来越难走。这意味着计算投入也在超线性速度下进步,但可能没有这些趋势所显示的那么好,你会看到一些收益递减。
因为简单地扩大x轴,即参数数量,你需要增加10倍才能看到相同的改进。这就给我们带来了一些压力,嘿,也许我们不能扩展那么多,我们需要考虑其他方法来扩展以使模型更好。
事实上,这个类比甚至可以应用于模型的表现。即使你有非常好的表现,如果你想让这些模型完全准确,不会编造事实。但实际上,有时通过测试可以发现它们会产生不准确的内容。要达到完全的准确性仍然非常困难,这给大规模部署带来了一些有趣的挑战。
主持人:
我听到了你所说的收益递减。但就如何让这些事情变得更好、如何让这些模型变得更好而言,仅仅是数据、计算能力和规模吗?这些是唯一需要拉动的杠杆吗?
Oriol Vinyals:
是的。如果你冻结架构,比如说在接下来的一年里没有创新,我们只是扩展,因为有更好的硬件问世,那肯定会有一个看起来不错的趋势。但发生了什么,特别是在Gemini, 我们有其他创新,其他技巧,技术,关于如何从何种顺序展示模型数据的细节,到架构的细节,如何运行训练过程,运行多长时间,我们实际向模型展示什么样的数据?我们如何过滤?我们展示更多高质量的数据,展示更少低质量的数据,所有我们称之为超参数的不同内容。
当然还有其他算法进展,我们也非常仔细地研究,因为训练模型的过程是昂贵的。所以我们需要非常小心地积累创新,以便最终,当我们准备好时,我们有足够的创新,可能也会有更好的规模来运行下一次模型的迭代。我们运行它,然后我们不仅通过数据和计算获得算法上的突破。
训练AI的过程中,数据实际上是有限的
主持人:
我想关于这种扩展的另一件事是,没有真正的限制,你可以输入的节点数量实际上没有限制,也许在理论上输入的计算能力叶没有限制。但你可以投入的数据是有限的。人类语言的数量是有限的。
Oriol Vinyals:
很好的观点。所以我认为节点是有极限的,因为你扩展这些模型的方式是,它们不能在一个单一的芯片上运行。所以现在你有一个芯片网格。它们在通信。有一些限制,比如光速等等。所以开始有一个时间点,训练这样一个大模型的效率也很不值得,即使是从你手头硬件的利用率来看。
另一个关键点是在这个预训练中,模仿所有数据,我们没有所谓的无限数据状态,数据是有限的。因此一旦模型需要——你可以想象,让我们在所有数据上训练。如果你想训练所有的东西,全部互联网。所以我们刚刚开始思考,我们快要用完数据了。有些技术,比如合成数据,我们可以用多种方式书写或重写现有数据吗?
语言是一个显而易见的思路,你可以用不同的方式编写互联网。它主要是用英语写的,但有办法用不同的方式重写相同的知识。我们正在探索这些。这是一个很多人开始投资的研究领域。因为如果你用完数据,scaling laws会进一步惩罚你。
主持人:
那么,例如,你可以让Gemini写自己的互联网版本,然后用它来训练新的Gemini版本? 如果你开始输入相同模型的输出,会不会有创造出小的,不太有帮助的反馈循环的危险?
Oriol Vinyals:
他们当然可以做一些有趣的实验来测试像你刚才提到的想法。的确,从表面上看,这不是个好主意。如果你让模型重新创建整个互联网,模型会受苦。确实,从信息和内容的角度来看,实际上,从信息内容的角度来看,这个数据集具有它所具有的信息。你怎么能创造新的信息,对吧?我不知道,这些想法可能会有所帮助,我们并未达到从互联网真正提取所有信息的根本能力。我们有好的算法,但它们并不完美。
主持人:
如果你能找到人类概念的E=MC²,然后仅用它生成新数据,那么这似乎更现实。
Oriol Vinyals:
是的。这些语言模型只是重复在线上的内容而不能创造任何新东西吗?或者他们正在学习一个世界模型,然后你就可以基于它提取的原理,可能超越数据所包含的范围?在更乐观的版本下,我更倾向于相信,我们可以将数据的极限稍微推高一点,超过我们目前的极限。
不过,有一些数据来源我们还没有看到突破,比如视频数据。尽管这些数据量庞大,我们还没有找到一个能够从所有视频中提取出大量知识和物理规律的突破口,即使这些视频中没有文字说明。即便如此,我也不认为我们利用了那个来源。
主持人:
它不是那样运作的?或者你不知道?
Oriol Vinyals:
是的。它感觉它应该。早期有一些语言学习,但我们也通过观察三维世界进行学习等等。所以可能还有更多知识我们还没有提取出来。显然,我们已经做得很好了,你可以通过测试模型看到,将视频中的概念联系起来。然后你可以做一些很棒的事情,比如,“嘿,把这个完整的视频提取三个有趣的时刻”。但模型本身,是否真正利用了这些信息?可能还没有。
主持人:
如果我理解的话,目前它可以告诉你视频中有什么,但它不能然后说出“E = MC²”。 或者如果你给它展示夜空的照片,它不会突然能够像人类天文学家那样预测行星运动。
Oriol Vinyals:
是的,确实如此。我们在这里采取的捷径是我们在训练图像或视频时,几乎总是附带有文本说明。所以它可能是一个解释这张图像或视频有什么的说明等等。当然,这很了不起。
你可以放一张家庭作业的照片和一个小的概念图,它它就会连接起来,并基于此做出很多很好的逻辑。但我在这里说的是,是否可以仅通过视频,不借助语言,来训练模型理解发生的事情,甚至在某种程度上推导出一种语言(当然不是我们的语言),并提取概念。目前这还没实现,但这可能会实现。
主持人:
回到你一开始提到的Deep Mind所构建的模型,基本上都有两个阶段。
Oriol Vinyals:
是的。
主持人:
模仿阶段,然后是在其上的强化学习阶段。Alpha Go和Alpha Zero以及许多其他模型通过自我对弈变得更好。这也适用于这里吗?
模型会寻找bug掌握游戏
Oriol Vinyals:
是的。这是主要的开放挑战之一不仅是预训练,还有后期训练或强化学习。在游戏中,强化学习的妙处在于有一套明确的规则。
如果你赢了,你就知道自己赢了。比如在下棋时,如果你赢了,程序会验证所有步骤,确认将军并表示祝贺。
然而,在语言中,这就更棘手了。比如,这首诗比那首更好吗?即便在我们之间讨论也很难达成一致。因此,这种泛化使得精确计算变得非常困难。如何评估这是不是一部电影的更好总结? 或者这是不是视频中最有趣的部分?这很难量化,但我们尝试在做。你训练一个模型,根据一些人的偏好,要求它进行泛化。让模型批评自己的输出,结果不会太糟,也许在80%的时间里表现尚可,虽然这不完美,但可以提供一些信号。
然而,当你开始根据一个不完美的奖励模型进行训练时,模型会利用奖励的弱点。比如在国际象棋中,假设一个兵在某个位置总能赢,而这个位置是没有人会下的。那么,算法可能会发现这一点,并利用它赢得比赛。尽管算法掌握了游戏,但从研究人员的角度来看,这种策略并不理想。
所以这就是挑战。基本上你是在寻找漏洞,而非真正理解优秀策略的真正含义。
主持人:
你能不能通过增加另一个模型,作为终极仲裁者来解决这个问题?
Oriol Vinyals:
好建议,但问题是,你如何训练那个模型?我们只有有限的数据来训练这个仲裁者,而真正的标准可能需要专家的判断。然而,这种方式不可扩展。
想象一下,如果我们在3秒内完成了参数更新,然后要求专家审核这10000件事情,因为这是一个可靠的来源。我们没有足够的数据来训练一个足够好的奖励模型。因此,虽然有一些想法,但我们无法获得真实的标准。
将打破一些scaling laws和限制
主持人:
而现在我们正在建立数字身体,你希望这个数字身体拥有什么样的能力, 比如推理,因为在那方面也有很多工作,不是吗?
Oriol Vinyals:
是的。所以当你开始思考时,我们可以给这些模型有限的访问权限,以便它们能够看到它们权重之外的东西,而这些权重是冻结的,能够收集知识或者做一些可能更复杂的事情,而不仅仅是根据它们在上下文中拥有的内容,以及它们在权重中拥有的内容来预测下一个单词?
那么显而易见的是,给它们访问搜索引擎的权限。这是我们在Google擅长的。另外,赋予它们运行自己编写代码的能力,可能更广泛的是给予它们与有互联网访问权限的浏览器互动的能力。
在所有这些过程中,你必须小心sandbox,这意味着保护这些环境,以确保即使模型不那么先进,也不会执行意外的操作。因此,当模型超出训练时,安全性问题变得更加引人关注。但如果我们只是梦想有什么可能,通过给模型提供这些工具,它们可以开始实现更多超越训练语料库的高阶功能,比如依赖最新的新闻来解释或总结前一天的重大事件。所有这些事情,你需要给予它们这些工具。
主持人:
好的,那么推理如何融入这一切呢?
Oriol Vinyals:
是的。推理很有趣,对吧? 我刚才描述的内容可以概括为:如果我想了解昨天发生的事情,我可以说,"嘿,模型,我是Oriol,我对这些事情感兴趣,我的政治观点是这样的或那样的。给我一个关于昨天新闻的积极看法。"然后模型可能会进行搜索,检索所有新闻,按照我的要求以我喜欢的方式呈现。如果我不满意,还可以反馈说我不喜欢这个或这个笑话不好,然后在对话中进行调整。
现在,推理是一个不同的扩展轴。所以你可以想象模型决定了哪些中间步骤,以给我一个更好的答案。想象一下,谷歌搜索检索到大约一百家新闻媒体的信息,模型可能会决定不只是简单地阅读和总结所有内容,而是先逐篇总结所有文章。这意味着模型会为自己总结每篇文章,而不是直接给用户。
然后,它可能将这些总结按主题分组,甚至还会对某些看似可疑的文章进行进一步验证,比如查看网上讨论。这种多步骤的研究过程可以持续很长时间,直到模型认为它得出了更高质量的答案,才会提供简洁的总结。
此时,模型有充足的时间来处理信息和进行推理。我们希望通过延长模型处理时间,它能更好地总结新闻、写诗,甚至解决数学问题。但这肯定是另一个扩展轴,我们正开始解锁,我们希望解锁。同样,我们将打破一些scaling laws和我们在纯预训练中看到的限制。
主持人:
这是否也包括计划能力?比如说,模型能否浏览你的日历,计算出你的发薪日,并在即将到来的一月打折季前提醒你推迟假期预订?
Oriol Vinyals:
这可能会变得非常复杂。当你需要考虑个性化和时间安排时,模型需要从多个信息来源中整合数据,才能给出最佳答案。这不再是一个简单的‘天空是什么颜色’的问题。
我想起一个例子,在我们的一篇早期论文中提到,语言模型能够自发回答而无需编程指令,这令人惊讶。但如果涉及到行星位置、时间、天气等的推理和规划,答案就会变得非常微妙。所以思考和计划,这些模型可以做到这一点。
主持人:
我想起2019年的一个对话,对方谈到关于人脑的两种思维系统:一种是快速直觉型,另一种是慢速计算型,比如做数学和下棋。第二种更容易用计算机实现,但现在我们也开始看到快速直觉反应的可能性。你在谈论将这两者结合,对吧?
Oriol Vinyals:
是的,的确如此。他可能也在谈论系统,这确实是你更多地思考的一个方面。在游戏中这很明显,直觉上觉得对的就直接行动,但深思熟虑可能带来更好的决策。挑战在于这些模型的通用性。
为了在非常通用的功能基础上添加思考能力,你可能需要一种通用的思考方式。因此,你使用模型本身来生成它应该如何思考任何事情。然后模型会想出,我要总结每一篇文章,我要做这做那。这不是我们编程,这是一个非常深刻的见解。这是唯一的方法吗?是最优的方法吗?目前尚处于早期阶段,五年后。我们拭目以待。
AI实现了记忆并能进行深度分析
主持人:
你正在谈论计划和推理,记忆是另一个非常重要的问题。它实现了吗?人们经常谈论长短上下文。我想这在某种程度上就是工作记忆,不是吗?
Oriol Vinyals:
是的,有一些技术可以应用于语言模型,至少有三种,而且它们相当容易解释。我们拥有一个记忆整个互联网的系统的第一种方法是通过执行预训练步骤。这实际上是一个特定格式的记忆步骤,我们有这些权重,它们是随机的,然后我们将它们组装成这些惊人的架构。
第二个层次,我可能稍微解释了一下。如何将谷歌等搜索引擎工具提供给模型。你可以说,这就是神经科学家所说的情景记忆,作为人类,也许就像我们很久以前就有这些记忆一样。
它们不是很精确,所以它们往往有点模糊。如果我必须思考,我在谷歌的第一天是怎样的?我记得一些零零碎碎的事情,在一个房间里,或者我遇到的某个人,诸如此类。
现在,有趣的是,这些模型可能没有这个限制。你可以在网上找到一篇多年前写的文章,它将包含所有图像,一切都将是完美的,完美地重建。所以第二种模式称为情景记忆,很明显当你将特别强大的搜索引擎集成到我们的模型中时,我们会看到这一点。
第三个是你可以称之为工作记忆的东西,实际上我描述的整个思维就是其中之一。如果我们把每一篇新闻文章都拿出来,然后我们想创建摘要,找出它们之间的关系,批评其中的一些,这就开始结合工作记忆,这意味着我将有一个摘要的草稿本。这结合了工作记忆,比如在处理长短上下文时,可以更好地进行推理。
今年的一个突破是能在上下文中处理数百万个标记,你可以从过去检索一些东西,然后将其带到未来,然后进行非常详细的分析。比如,我们可以上传并总结电影或长视频内容,我们可以在每一帧内进行相当多的关联,电影中的每个对象等等。
主持人:
更长的上下文窗口是否总是更好,因为我只是在想,我不知道你们还在多大程度上将神经科学作为你们所做工作的灵感。但人类的工作记忆是有限制的。当然,有些时候你会觉得,我的大脑已经满了,我做完了。
Oriol Vinyals:
有时大脑是一种灵感,但计算机肯定有优势。我们应该利用它的优势,所以也许事实上他们可以记住每一篇维基百科文章,不管是什么,我们做不到,但如果模型可以,那么就行了。
但同时,即使对于这些神经网络来说,太多的信息也可能会让人感到困惑。所以压缩可能是一个好主意。所以你可能想从中获得一些灵感,让我们做我们做的事情,这在记忆检索等方面是相当了不起的。