Llama 3.1 405B--大力出奇迹

Joe表示,Llama 3.1 405B 真正关注的是推动规模化(它使用16000个GPU在15万亿个token上进行训练),他对它将实现的零样本工具使用以及它在提炼和生成合成数据以教授较小模型方面的作用感到兴奋。

日前,Llama团队发布了新的 Llama 3.1 405B 模型。7月30日周二,Meta生成式 AI 产品管理负责人、Llama团队领导人Joe Spisak参与红杉资本的访谈,介绍了Llama 3.1 405B的新功能,并分享了Meta如何看待开源在AI生态系统中的作用。

Joe表示,Llama 3.1 405B 真正关注的是推动规模化(它使用16000个GPU在15万亿个token上进行训练),他对它将实现的零样本工具使用以及它在提炼和生成合成数据以教授较小模型方面的作用感到兴奋。

同时,他还认为即使是前沿模型最终也会商品化,这对初创企业生态系统来说是一件好事。

谈话要点如下:

1.Llama 3.1 405B 能够调用代码解释器并实际运行代码,或者构建自己的插件,诸如rag之类的东西,并让它成为最先进的。

2.最终希望 Llama 无处不在,我们只希望采用,真正让全世界使用它并在其基础上发展。

3.首先,我们的商业模式并不依赖这种模式来直接赚钱。所以我们不是在销售云服务,我们从来都不是云公司。

4.我们如何建立通往它的桥梁并真正能够利用坚实的创新,而做到这一点的方法是开放,让世界在你的东西上构建。

5.当事情透明时,它会更安全,错误可以更快地被推送。

6.模型正在商品化,所有的技术将被投入到 Instagram 和 WhatsApp 的所有最终产品中,我们实际上会从中获利,我们实际上会增加真正的价值。

7.如果我是一家初创公司,尝试进行预训练并没有多大意义,我认为 Llama 模型实际上非常适合作为基础。

8.我们训练了超过 15 万亿个 token。在训练后,我们使用合成数据,这大大改进了模型。我们在训练过程中对超过 16000 个 GPU 进行了训练,这是我们以前没有做过的事情。这真的很难做到,因为 GPU 会出现故障。

9.如果你在预训练中加入了很多这样的内容,你的模型就会更好地推理。

10.在设备上,甚至在边缘和本地,小模型实际上可以做得更好。

访谈全文如下,部分内容有删减:

405B具备长文本处理能力 正迈出许可证步伐

Stephanie Zhan:

您认为 405B 在哪些具体功能上特别独特,尤其是与其它最先进的模型相比?

Joe Spisak:

405B 是一个怪物,它是一个很棒的模型。我认为我们从中学到的最重要的事情是,它就像是其他模型的伟大老师,我们一直都有这个计划。因为当你有一个大模型时,你可以用它来改进小模型,或者就像蒸馏,这是 80 年代和 70 年代成为伟大典范的原因。

就能力而言,我们倾听社区的意见,我们显然倾听我们自己的产品团队的意见,因为我们必须为Meta构建产品。长上下文是人们最想要的东西之一。我们内部的上下文比我们发布的要大得多。

但我们看到的只是用例,比如开始建立多语言。我们是一家全球性公司,所以我们发布了更多的语言,未来还会有更多。因为显然像Meta一样,平台上有数十亿人和数百个国家。

对我来说,那些就像赌注一样,但它们在模型上做得非常好。就像我想的那样,我们花了很多时间进行不同语言的后期培训,并提高它们的安全性,它们真的非常高质量。所以我们不只是喜欢预先训练大量的数据,然后说:“看看我们,我们是多语言的。"我们实际上在SFT阶段做了很多工作,监督微调和很多安全工作。

我认为最酷的事情之一是工具,零样本工具的使用。这对社区来说会很疯狂。我们展示了一些例子,比如我们可以调用Wolfram,或者我们可以进行Brave 搜索或谷歌搜索,它的效果非常好。但零样本工具使用将是一个改变游戏规则的机会。能够调用代码解释器并实际运行代码,或者构建自己的插件,诸如rag之类的东西,并让它成为最先进的。

我认为这将是一个巨大的游戏规则改变者。我认为我们发布了405版本本身,并且更改了我们的许可证,所以你实际上可以使用我们的数据,这是一件大事。

我们就此举行了很多次会议,最终我们找到了一个解决方案。是的,这一直是社区的痛点。它们就像这些封闭模型,就像我不能使用输出一样。或者也许我实际上可以使用它们,或者其他什么。我们实际上在鼓励人们这样做一样。

Stephanie Zhan:

我确信这是一个艰难的决定。请向我们介绍一下你在实际迈出开放许可证的步伐需要考虑的事情。

Joe Spisak:

很明显,许可证本身显然是的一个大话题。你可能花了整个播客来谈论它。我不想,但我们可以。我认为我们想要的,首先是解锁新事物。就像我想我们希望拥有 405 以及我们的 Llama 3.1 模型来区分人们的新功能,就像我们刚刚研究人们在社区中真正兴奋的东西一样,不仅是在企业和产品方面,而且在研究社区中也是如此

因为我们显然有一个研究团队,与学术界合作并与人们交谈。有人一直在问我什么时候发布它?当你发布它时,我能用它吗?保持耐心。但我认为我们听到了他们的声音,我们知道他们想要什么。我认为我们最终希望 Llama 无处不在,我们只希望采用,真正让全世界使用它并在其基础上发展。

我认为要做到新的标准或标准化,你必须启用类似的东西,你必须打破所有这些不同的用例的阻碍,真正了解社区想要做什么,确保你没有这些人为的障碍,这就是讨论的真正内容。事实上,除此之外,我们开始与 Nvidia 和 AWS 等合作伙伴合作,他们开始构建蒸馏配方,甚至合成数据生成服务,这非常酷。你可以开始使用它们,并从中创建专门的模型。

而你的数据,我们知道数据有多好,因为我们在较小的模型中使用它,它真的很好,并且显著改善了我们的模型。

开源生态系统的未来

Sonya Huang:

我想更多地利用开源,我读过扎克伯格的宣言,它很棒。但我仍然在努力思考,这对 Meta 有什么好处,这是一项巨大的投资。你现在有一个最先进的模型,你可以免费提供给每个人。所以我想,这是一种进攻性的举动吗?这是一种防守性的举动吗?这对 Meta 有什么好处?

Joe Spisak:

首先,我们的商业模式并不依赖这种模式来直接赚钱。所以我们不是在销售云服务,我们从来都不是云公司。我想说,我们一直在与合作伙伴生态系统合作,可以追溯到五年前,当时我在帮助领导 PyTorch,生态系统和社区就是围绕它建立的。

就像我们从未建立过某种服务一样,我们可能以某种方式做过,但那会很奇怪。回到 PyTorch,我们把它看作是通向高熵领域的一种通用语言桥梁。所有这些创新都在发生,我们如何建立通往它的桥梁并真正能够利用坚实的创新,而做到这一点的方法是开放,让世界在你的东西上构建。我认为这种精神被带到了 Llama。

而且,我们实际上会看到这些架构不断出现,人们会编写代码并将其发布在PyTorch上,然后我们将其内部采用。我们对开源模型的人员进行了评估,并将他们发布在 model zoo 上。我们对其进行评估,并观察社区改进的速度。我们实际上利用了这一点。

我们看到了一周又一周、一个月又一个月的改进。它是建立在我们内部使用的东西之上的。所以我们很容易把它带入内部,所以我认为 Llama 在这方面肯定是相似的,当学术界和公司开始对这些模型进行红队测试时,我们希望人们也能对人工智能模型进行同样的操作,这样我们就可以改进。当事情透明时,它会更安全,错误可以更快地被推送。

我们不希望这变成一种完全封闭的环境,就像我认为今天如果你处理 Linux 和 Windows 之类的问题,在我看来,两者都有空间,人们可以根据自己的需要和应用程序使用。我认为将会有一个开放模式的世界,我认为将会有一个封闭模式的世界,我认为这完全没问题。

Sonya Huang

反对开源的主要论点是什么?有吗?

Joe Spisak:

我们确实讨论过竞争问题。我认为我们不太担心这个问题,因为我们发展得非常快。如果你回顾过去,我已经在Meta工作了六七年了。就像去年,我们已经完成了Connect发布,我们在去年 12 月发布了 Purple Llama。我们发布了 Llama 3.1,在此之前,我们在 7 月发布了 Llama 2,Llama 1 是在二月份。

所以,如果你想一想速度,令人难以置信的创新速度,就像我们团队和公司现在正在以疯狂的速度前进一样。所以我不太担心,我不喜欢担心这个词。

前沿模型正在商品化

Stephanie Zhan :

所以我很想谈谈你对更广泛生态系统的个人看法。我认为人们提出的许多问题都集中在所有这些模型的价值会发生什么变化,随着 Llama 3.1的推出、OpenAI 为许多模型推出了GPT-4o mini。你对模型是否商品化的看法是什么,即使是在最前沿的位置?

Joe Spisak:

这个问题问得好。如果你只看过去两周的情况,我认为4o mini是一个非常好的模型。每百万tokens的投入大约是15美分,产出60美分。所以它运行起来非常便宜,但它也是一个优秀的模型。就像他们在蒸馏和获得真正的东西方面做得非常出色一样,就像真正的性能,但非常便宜。然后,如果你看看我们上周所做的事情和推广,我会说最先进模型在整个领域内都非常引人注目。

我确实认为它正在迅速发展到这样一个地步,这个模型将成为一种商品。我们当然可以从互联网上收集数据,我们可以授权数据,但在某种程度上,存在某种限制边界,我认为我们都将面临这种边界。这又回到了我们的谈话中,我们得到了更好的数据、规模和计算方面的教训。

这就够了吗?可能还不够,但就像计算和数据一样,如果你拥有足够的数据和规模,你就可以得到最先进的一阶近似,而不需要任何其他东西,这就是我们所看到的。

所以我确实认为模型正在商品化。我认为价值在其他地方。我看看Meta,看看我们的产品,看看我们正在构建的东西,这对我们来说确实有价值。它是Meta AI,它是我们的代理。我们将把所有的技术都投入到 Instagram 和 WhatsApp 的所有最终产品中,我们实际上会从中获利,我们实际上会增加真正的价值

我认为,模型本身肯定会不断创新新的模式、新的语言、新的功能,这就是研究的意义所在。推动新兴能力的前沿,然后我们可以在产品中利用它们,但这些模型肯定在朝那个方向推进。

开源方法为初创公司提供灵活性

Stephanie Zhan:

如果是这样的话,所有这些拥有大量分销和出色应用的现有公司都可以采用这些最先进的模型。你会给那些试图脱颖而出的新兴创业公司什么建议?他们要么使用其他最先进的模型构建自己的模型,然后尝试在其上构建应用程序。

Joe Spisak:

是的,肯定有一些模型公司或公司正在构建他们的训练、预训练基础模型,而且成本很高。我不能说 Llama 3 的价格是多少,但它非常昂贵,Llama 4 会更贵。考虑到目前的状况,对我来说,如果我是一家初创公司,尝试进行预训练并没有多大意义,我认为 Llama 模型实际上非常适合作为基础。

所以我确实认为,如果我现在是一名创始人,我绝对会采用开源。它迫使我审视我工作的工程性质,对吧?想想看,我需要有人做诸如数据微调以及如何构建 RAG 等,还有API,有很多 API 可以让你做到这一点,但最终你想要的是控制权。就像你的护城河是你的数据,是你与用户的互动。

而且,您可能还希望在某个时候将这些东西部署到设备上,并进行某种混合交互之类的。您可能希望拥有小型团队,在您的设备上运行更简单的查询,并与用户进行非常低延迟的交互。您可能希望拆分,并且采用更基于云的方法,以进行更复杂的查询和更复杂的交互。

我认为开源方法为您提供了这种灵活性,它使您能够直接修改模型。您拥有权重,您可以运行权重,您可以自己提炼它们。将会有提炼服务允许您将权重降低到更小的权重,这非常棒,或者就像现在看到的开始一样。所以我认为,控制权和权重的所有权非常重要。有很多 API 服务,您可以在其中对模型进行微调。

因此,您要带来自己的数据进行微调。不幸的是,您实际上无法访问最终的那些较低权重,无法访问从这些数据生成的实际 IP。现在我必须强制使用他们的推理服务,这不是一个好交易。所以我认为,开源带来了固有的自由,我认为这种方法没有。

Sonya Huang :

你觉得 Mistral Large 怎么样?我想可能是在 Llama 3.1 发布后的第二天。想更广泛地说,对于处于前沿的每个人来说,每个人都在追求相同的配方、相同的技术、相同的计算、扩展数据等。所以,你知道,每个人在前沿都会大致相似,还是你认为你们在做一些非常不同的事情?

Joe Spisak:

这是我在博览会上合作过的老团队之一。他们致力于改进和 AI 数学。这是我合作过的最顽强的团队之一。我认为这个团队从来没有睡过觉。所以基本上他们白天的工作会推动最先进的技术,比如 AI 。

但到了晚上,他们基本上就像在拼命地抓取计算来 Llama 1 。我们几年前在 Fair 构建大型语言模型。他们非常雄心勃勃,他们在晚上工作。这就是 Llama 1 的真正来源。所以这个团队很棒,我认为他们肯定面临着挑战,因为他们试图喜欢开源模型,但也要赚钱。

像 4o mini 这样的模型对他们没有帮助,因为,我认为这就是他们改变许可证的原因。所以现在的生意真的很艰难,就Large 2而言,我认为这是一个非常好的模型。

我们只是在纸​​面上,我们还没有在内部研究过它。这就像一个混合体,他们混合了一堆基准来做出这种区分。但在纸面上,它看起来真的很好。我认为,无论如何,存在的模型越多,做这件事的公司越多,就越好。我们并不是唯一的一家,这很好。你期待一个模型被发布,或者一些突破性的事情发生。

405B 确实推动了规模化

Sonya Huang:

你认为处于前沿的每个人都是可比的,比如你们都在追求可比的策略吗?

Joe Spisak:

这其实是个好问题,是的。如果你读过 Llama 3 的论文,你最终会发现,很多引用,有很多分享,很多贡献者和核心贡献者等等。所以就像是,这是一篇详细的论文。我认为这是最困难的事情之一。与写论文相比,开发模型相对容易。整理这篇论文需要做很多工作。我认为如果你看看这三篇论文,我想说有很多创新,但我们也不喜欢。

我想说,我们也没有承担很多研究风险。所以,我们真正对 Llama 所做的主要事情,尤其是 405B,确实推动了规模化。

我们仍然使用分组查询注意力机制,例如GQA 可以缩短进入时间,并且有助于解决二次注意力计算挑战中的问题。我们训练了超过 15 万亿个 token。在训练后,我们使用合成数据,这大大改进了模型。我们在训练过程中对超过 16000 个 GPU 进行了训练,这是我们以前没有做过的事情。这真的很难做到,因为 GPU 会出现故障。

每个人都说,“哦,我要在100000GPU上进行训练。”祝你好运。你最好有一个非常非常好的基础设施团队,一个非常非常好的MLSys团队。

你最好准备好在那个层面上进行创新,因为这不简单。每个人都说这很容易,或者说你可以做到,这并不容易。

所以我我几乎认为Llama 3与GPT 3论文非常相似。

所以如果你曾经和Tom Brown谈过,他是主要作者,他之所以是那篇论文的第一作者,是因为很多创新都是规模化的。

这就像我如何将某个架构的东西,比如一个架构,尽可能地推动它,这涉及到很多类似MLSys层和基础层的问题,以及如何扩展算法。所以我认为这真的很像我们对Llama 3.3和Llama 3.1的想法。在内部,我们显然拥有出色的研究团队,我们有FAIR,我们的组织中有研究,我们正在研究许多不同的架构、MOE和其他东西。

谁知道Llama 4会是什么。我们有很多候选架构,我们正在研究它,但这是一种权衡。这是在研究过程中承担的风险与潜在的回报或潜在改进的上限之间的权衡。而不是仅仅采取相对已知的东西,推动规模并使其进一步改进。所以最终,这成为一种权衡。

Stephanie Zhan:

我认为这是一个非常有趣的观点。我实际上也认为它使 Llama 和 Meta 在战略上非常独特。模型开发是否变得更像软件开发?我很好奇,你是否这么认为,与其他许多实验室推动更多研究不同,你们只专注于执行你们知道有效的策略。随着 Llama 的扩展,您是否认为这是持续策略的代表?此外,您认为生态系统中的其他研究实验室和一些其他初创公司会如何反应?他们会转变策略并稍微转向你们一直采取的策略吗?

Joe Spisak:

这是一个非常好的问题。我认为,我们还没有确定所有的答案,但目前肯定有一个中间点,我看到事情会落到这个点,我们将继续推动执行,我们将继续推出模型。我们会继续,因为我们希望我们的产品也能不断改进。所以我们希望人工智能不断进步。所以我们肯定有一种软件工程,模拟正在发生的事情,你可以想象一列骆驼火车,新功能登上那列火车,我们有一个模型发布。

当你开始将功能组件化时,实际上会容易得多,就像我们现在在安全方面所做的那样。您可以在发布中看到,我们发布了 Prompt Guard 和新的 Llama Guard,您可以在外部迭代这些组件,这很棒。显然,核心模型要困难得多。

我确实认为,我们会开始包括或开始推动研究方面,因为我认为架构会不断发展。你已经看到,例如,AI 2 对他们的 Jamba 和 Mamba 所做的。每个人都认为 Mamba 就像一个有前途的新架构。但我认为有趣的是,要真正了解架构的功能,你必须推动规模。

我认为这是生态系统中目前缺少的东西,你知道,如果你看看学术界,学术界有很多非常聪明的人,但他们没有太多的计算机会。这就是一个问题,因为他们有这些很棒的想法,但他们没有办法真正地在需要的水平上执行它们,这是否真的可以扩展?

因为 Jamba的论文和模型的工作真的很有趣,基准也很棒,但他们没有将其扩展到 100 亿个参数以下。所以你会想,好吧,当我们在100个参数中训练它时会发生什么?它真的还能看到那些改进吗?至少在这些实验室之外,没有人真正知道答案。所以我认为这就像一个挑战。所以我认为,对我来说,我们将进入这个混合领域,我们肯定会推动架构的发展。我们拥有非常聪明和成就卓著的研究团队,我们将会执行。

我认为那时我们就开始得到一个秘诀。你知道,我们会把它推向极限,我们会开始发布,我们会继续发布更多模型。但与此同时,我们必须推动架构的发展。我认为这是有道理的,因为下一个突破,你知道,在某个时候,你会达到一种理论极限,你需要发展架构。所以我看到了一点中间地带,显然,我们非常擅长执行。我认为我们的执行力相当不错,但我们的研究也很好,我们只需要把这两者结合起来。所以这是有道理的。

因为研究和产品非常不同,比如一个是,产品方面应该是相当确定的,而另一个本质上是非确定性的。这会起作用吗?我不知道。如果失败了,那么研究就有很大的风险,因为研究有完全颠覆我们的能力,我们只需要换个方向。但这就是研究。

未来解锁推理能力的杠杆是数据

Sonya Huang:

我对目前进行大量模型研究的一个分支很好奇,即代理推理。你们都宣布了推理方面的出色成果。我很好奇,也许从最基本的层面上讲,你如何定义推理?然后,你们是否都看到推理在训练前就超出了范围?训练后呢?在推理方面还有很多工作要做吗?

Joe Spisak:

是的,推理是一个有点繁重的领域。我的意思是,你可以说它是多步骤的,我认为不幸的是,我们拥有的最好的例子是,有点像一些花哨的东西,你知道,Bob在开公共汽车,他选择那些东西。所以,这些实际上迫使模型采取多个步骤来响应你,并仔细思考并逻辑地做出回应。

我认为编码实际上就像,当你看预训练时。所以我想直接回答你的问题,比如提高改进既来自训练后,也来自训练前。所以我们学到了,现在每个人都觉得,哦,当然是这样,但肯定就像去年左右一样,每个人都学到了,在你的预训练语料库中有很多代码确实可以提高推理能力。代码本质上是非常合乎逻辑的,而且是循序渐进的。如果你在预训练中加入了很多这样的内容,你的模型就会更好地推理。

然后我们当然会看例子,在训练后,就像超级 SFT 一样得到改进。所以, 我们看一下预训练模型,这在某种程度上取决于你如何平衡事物。比如,你可以平衡你的模型推理能力和它对不同语言的响应能力,比如最终的训练后,一切都是有点权衡的。比如,如果你愿意的话,你可以对编码进行超级优化。我们在 Code Llama 上做到了这一点。这真的很棒。

但当然,模型会在其他方面受到影响。所以就像我们有点像帕累托前沿,就像我们想要发挥的通用模型的能力。最终这是一种权衡。所以任何人都可以选择一个基准,或者一些能力,然后说,我要对它进行超级优化,顺便说一句,我比 GPT-4 更好。任何人都可以做到这一点。比如,但是你的模型是否像 GPT-4 或 Llama 3.1 或类似的模型一样具有通用能力,我认为这是另一回事。

Stephanie Zhan:

你认为未来解锁推理能力的杠杆是什么?

Joe Spisak:

显而易见的答案是数据。我的意思是,数据越多,你就能获得越多的编码和监督数据,我认为这是自然的答案吗?

我认为我们还需要找到应用程序来定义它。这会对我们有所帮助,一旦你开始找到那些杀手级应用程序,你就可以知道在哪里关注你的其他方面,这正是你要解决的问题,这又回到了评估,你的评估是什么?因为我们开始饱和评估。

因此,作为一个社区,我们倾向于定义一个基准和指标,然后对其进行一些优化。但是,当你在实际环境中实际查看该模型时,你会想, 那个模型的 MMOU 分数更高。但是,它实际上如何响应?嗯,它的响应不是很好。所以我认为我们需要更好的评估 和更好的基准,以便我们能够找到实际交互的清晰视线。

当然,就像聊天机器人领域一样,这些更自然,尽管它仍然不完美,但它就像朝着正确的方向前进,就像更人性化的互动,而不是像静态数据集或静态提示集那样没有多大帮助。

所以我认为,一旦我们开始找到其他有意义的推理用例,我们就会开始生成更多数据,然后开始改进那里的模型,并且希望这种做法能够再次成为基准评估,实际上感觉它改善了最终产品。当然,这在很大程度上取决于最终产品,比如我的应用程序是什么?

Stephanie Zhan:

是的,出于好奇,我认为在大型研究实验室中,编码和数学一直是两个试图解锁推理的主要类别。在创业生态系统中,我们看到越来越多的人真的想从数学角度出发。你认为这是否会带来有趣的解锁?

Joe Spisak :

答案是肯定的。我认为,如果你看看我们的数据或至少看看我们的模型,我们会发现编码和数学是主要杠杆。我认为显然拥有更多更好。因为显然数学也非常合乎逻辑,非常有步骤性。所以我显然可以看到这里的模式。你拥有的数据越多,这种模式就越符合你的模型,你的模型就越有道理。你可以从模型的实际相应中看到这一点。

有些模型比其他模型表现更好。所以任何类似的东西,我认为科学论文等,你可以看到不仅是代码和数学,比如纯数学,还有科学论文。此外,我认为我们已经看到了一般的科学信息也有帮助。 所以 People's Code 团队的 Robin Ross 领导的 Galactico 项目。在我看来,这是有史以来最酷的项目之一。他们受到了很多负面报道,但在我看来,他们真是走在了时代的前面。

小模型在设备上运行、安全性和隐私方面具有优势。

Stephanie Zhan:

我想谈谈小型模型,考虑到许多初创公司拥有的资本规模和计算能力,8B 和 70B 模型对生态系统来说是一份不可思议的礼物。有趣的是,你称它们为开胃菜,所以我认为它们对于那组来说非常强大,但它们对于许多需要较小模型的不同应用程序也非常强大。所以我很好奇,考虑到 8B 和 70B 模型是同类模型中最好的,你希望看到开发人员将它们用于什么?

Joe Spisak:

有趣的是,当我们在 4 月发布了 Llama 3 时,我们发布了 8 和 70,我们称之为开胃菜,你知道,8B 实际上比 Llama 2 70B 好很多。所以我不得不看图表,我想,这是对的吗?是的,真的是这样吗?我们想,确实是的,它好多了。

Sonya Huang:

你对这种情况的直觉是什么?

Joe Spisak:

我会使用更多的数据,是原来 7 倍以上的数据,显然,我们也投入了更多的计算。所以,回到计算数据,你知道,我们正在推动这些。所以我认为,就像我们刚刚看到的,就像它一样,每一代都在加速发展。

你开始看到,大型模型的基准基本上被推向了更小的规模。所以,70 变成了 8。而且,就像我们内部的模型有比 8 还要小得多的。实际上,我们开始看到更小的模型的基准也非常好。所以你继续看到,模型在较小的规模上有所改进。

我认为这只是我们在推动架构,我们在推动规模,我们还没有完全饱和。我认为这真的很有趣。所以,我认为小型架构有用的最大原因之一显然是在设备上。每个人都喜欢谈论设备,苹果也在谈论这个,谷歌有 Gemma 模型和运行 Android 设备的 Gemini。所以我认为在设备上是有意义的。

我认为安全性很有趣,因为我们有自己的 Llama Guard 内部版本,我们在公司内部和Meta中为应用程序编排了这些版本。你知道今天它们是建立在 8B 模型上的,如果你考虑安全模型,这种模型的运行成本有点高。

在内部,我们一直在尝试使用更小的模型。它提高了效率,降低了延迟。因为这些模型实际上只是分类器。在一些用例中,小模型实际上会非常引人注目。然后对于超级复杂的查询和事情,显然你在云端有一个大模型,可以随时为它们提供服务。但对于很多事情,我认为在设备上,甚至在边缘和本地,这些小模型实际上可以做得更好。

Sonya Huang:

非常好。您谈到计算、数据,这是提高性能的两个基本向量。我想有很多人谈论我们将如何遇到瓶颈,或者我们可能在数据方面不会遇到瓶颈,也许合成数据就是答案,等等。我很好奇您对此的看法。比如,我们最有可能遇到的瓶颈是廉价的可访问数据。您认为呢?我们如何超越这一点?

Joe Spisak :

我的意思是,我认为我们已经通过这个版本证明了合成数据确实有很大帮助。我们在预训练中使用 15 个训练Tokens进行训练,在后期训练,我们生成了大量带注释的合成数据。其中很多是由 405 生成的。

我们显然也为注释付费。我确实认为合成数据是潜在的前进方向。证据就在模型中,我确实认为数据在某个时候会成为我们的挑战。这就是为什么我认为,现在公司正在授权大量数据以获得访问权限。开放广告授权数据,我们当然也在授权数据。

我认为能够访问生成数据以改进模型的服务很重要。所以我认为这对很多公司来说本质上是一种优势。谷歌有 YouTube,我相信这对他们来说是一种价值。所以这意味着,大公司有优势,这不是什么新鲜事。

就数据墙而言,我不知道,我我认为我们还没有到那一步。我想说,让我们再谈一次,让我们把这件事安排在一年内,看看明年我们会在哪里。

但我们还没有达到目标,我们仍在扩大规模,我们仍在收集大量数据、生成数据,我们的模型仍然继续改进。

Stephanie Zhan:

你认为哪一年能超越Swebench的门槛 50%?

Joe Spisak :

好问题。如果我学到了什么,那将比我给你的任何答案都快。因为我认为任何基准测试都会很快,只要我们集中精力,人们就会去弄清楚。所以我没有答案。

Sonya Huang:

我们一直在问人们的一个问题是,你的开源模式是否超越了其他公司前沿的其他模型?

Joe Spisak:

我们快到了。我的意思是,我认为405B是不可思议的。它绝对属于那个级别。

Stephanie Zhan:

Meta会一直开源Llama吗?

Joe Spisak:

Mark 非常投入。我们已经开源了很多年,从 PyTorch、FAIR 到 Llama模型。这不是昙花一现的事情,因为公司已经致力于开源很长时间了。所以我不会说永远不会,但我的意思是,马克的公司确实致力于开源。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章