在OpenAI“创新已经变得困难”!离职高管深喉爆料

智东西
OpenAI前研究副总裁Jerry Tworek在近期采访中透露,随着公司规模膨胀与行业竞争加剧,OpenAI正陷入“结构性创新困境”,难以再承担真正高风险的前沿探索。他指出,当前所有头部AI公司技术路径高度趋同,压制了研究的多样性。Tworek强调,实现AGI仍需突破架构创新与持续学习等关键瓶颈,而大公司因资源分散与风险规避,往往难以“集中力量办大事”。

智东西1月23日消息,昨天,由知名媒体人和作家Ashlee Vance主办的Core Memory播客,发布了对OpenAI前研究副总裁Jerry Tworek的深度专访。今年1月初决定离开的OpenAI的Tworek分享了一个关键洞察:随着竞争加剧与组织急速膨胀,OpenAI正逐渐陷入一种难以再承担真正高风险研究的结构性困境,一些前沿创新的研究方向,已经难以在OpenAI内部推进。

在正式进入访谈内容前,我们有必要了解下Tworek的传奇履历。Tworek是OpenAI元老级成员,2019年便加入该公司。他是OpenAI推理模型o1、o3背后的关键人物,将强化学习做到了极致,也让强化学习、推理模型真正进入了主流视野。此外,Tworek还在编程和Agent领域颇有建树。

今年1月7日,Tworek在X平台上分享了自己离职的消息,评论区涌入了诸多OpenAI大佬,言语间满是不舍之情。

这场访谈长达70分钟,实录近2万字,智东西梳理出Tworek分享的八大关键洞察:

1、OpenAI的创新困境:成本、增长压力等多重因素影响了OpenAI对风险的“胃口”,同时该公司尚未找到良好的跨团队的研究协作模式。

2、谷歌崛起:与其说是谷歌“回归”,不如说是OpenAI自己犯了错误,没能充分把握住自己的领先优势。OpenAI本应该持续领先。

3、行业弊病:5家头部AI公司路径完全趋同,研究员想在主流机器学习范式之外做点不同的事情,几乎找不到合适的地方,这令人沮丧。

4、人才争夺战:人才争夺战已演变成一场肥皂剧,有些人频繁地更换工作,而真正投入到工作的时间不多。

5、创新引擎:明星AI研究员并不是驱动创新的核心因素,公司本身能否打造个人责任感强、允许探索和做大事的环境,可能更为关键。

6、什么阻碍了创新:阻碍AI Lab研究的因素不是算力短缺,而是缺乏专注。对OpenAI来说,“集中力量办大事”已经变得有些困难。

7、AGI时间表:目前AGI仍然缺失关键拼图,架构创新与持续学习是两大重要方向,但AGI将会在2029年左右实现。

8、强化学习的回归:科学史已经反复证明,好的想法往往会卷土重来,判断一个想法是否重要并不难,难的是判断它什么时候会变得重要。

以下是访谈内容的完整编译:

竞争激烈、组织膨胀 OpenAI的创新困境

主持人:你的离职声明写得很好,充满感情。你在OpenAI经历了非常重要的一段时间,见证了巨大的变化。那种感觉怎么样?

Jerry Tworek:在OpenAI的每一年,都是一家完全不同的公司。公司本身的高速成长,以及整个AI世界的变化。

这种经历我觉得在人类历史上都很少见。我很庆幸自己能亲身经历这一切。正如我之前说的,每一个阶段都完全不同。

主持人:OpenAI在2019年时大概只有30个人?现在已经是几千人了吧?

Jerry Tworek:说实话,很难统计清楚。全球多地办公室,遍布世界各地。现在几乎找不到没听说过OpenAI的人了。而我刚加入的时候,只是几个小团队,各自做着自己的研究项目。

但有一件事始终没变——OpenAI的野心。从一开始就瞄准AGI,想真正改变世界,并且带来正面的影响。而通过ChatGPT,把智能和实用性真正分发给了全球用户,我觉得这是一件非常了不起的事情。

主持人:所以你发了那条推文之后,是不是全球所有基础模型实验室都来找你了?

Jerry Tworek:确实有很多。我现在也在思考下一步该做什么。在这个行业这么多年,我已经认识了很多人。我并不急着做决定。

我已经连续高强度工作很多年了,甚至没太多时间好好和人聊天。现在正好可以慢下来,想一想:接下来的七年,我想怎么度过。但确实,我正在和很多人交流。

主持人:你在推文里提到,你想做一些在OpenAI没法做的研究。能具体说说吗?

Jerry Tworek:当前,在全球范围内争夺“最佳AI模型”的竞争异常激烈且严苛。想要保持竞争力,公司在运营的多个层面都面临着极大的挑战。

其中一个核心问题在于风险承担的意愿:从避免落后的角度出发,公司自然会被迫思考,究竟愿意承担多大的风险。无论是用户增长指标,还是持续支付高昂的GPU成本,现实都极其残酷。

也正因如此,持续展示实力、不断推出最强模型,对所有人而言都变得至关重要。这是当下几乎所有主要AI公司共同面临的处境,而这种压力无疑会影响一家机构对风险的“胃口”。

另一组同样难以权衡的因素来自组织结构。公司有其组织架构图,而组织架构往往在很大程度上决定了你能够开展什么样的研究:每个团队都需要明确的身份认同、研究边界以及其专注解决的问题集合。

跨组织的研究往往异常困难,而如何在大规模条件下高效地组织研究,这个问题可能还没有被真正解决。

研究本身偏好活力,甚至可以说偏好某种程度的混乱;而大型组织却需要秩序、结构与清晰的分工。这正是为什么“你最终交付的是你的组织架构图”这一说法如此流行:研究工作往往会演变成那些最适合现有人员配置的项目。

我也正是在这种背景下意识到,有一些我真正想做的研究方向,并不是OpenAI当前的组织架构所能支持的。

Transformer肯定不是最终形态 有很多路径尚未得到系统性实践

主持人:我曾在播客里和Mark Chen(OpenAI首席研究官)聊过这个问题——几乎所有人都在向他(以及Jakub,OpenAI首席科学家)提出自己的想法。OpenAI的确有一个优良传统:愿意承担风险,愿意去做一些其他实验室不敢做的事情。

但现实是,无论聚集了多少聪明人,资源已相当可观,这终究是一家资源有限的公司。它必须做出重大的取舍:哪些方向值得投入,哪些现在还无法承担成本。

而真正足够新颖的路径,往往恰恰是那种让人犹豫的方向——我们不知道现在该不该走,也不知道钱包是否负担得起。

Jerry Tworek:关于Ilya提出的“研究时代”这一概念,我不确定它是否像他所描述的那样非此即彼,但我确信,在AI和机器学习领域,仍然存在大量尚未被充分探索的可能性。

六年前,我们选定了Transformer架构,此后人们不断对其进行Scaling,并且效果显著。路径非常清晰:每个季度训练更大的模型,使用更多计算资源和数据,而进步似乎从未真正停滞。

但问题在于:这就是全部了吗?这是最终形态吗?我相当确定不是。模型仍然可以通过多种方式改进,而其中许多路径至今尚未被系统性地实践。

正如你提到的,我曾在推理和强化学习扩展方面投入大量工作。在那之前,整个领域几乎把所有赌注都押在了Transformer预训练的Scaling上。

这种方式确实有效:每一次预训练都可以打造出更强的模型,其能力都会全面提升,各项评测指标也随之改善。因此,人们很容易得出结论:只要不断扩展预训练,模型就会持续变好。

但后来,一些研究者开始相信,我们能做的不止于此。他们尝试证明:如果在语言模型之上,以与预训练相当的计算规模去扩展强化学习,就能教会模型一些仅靠预训练永远无法获得的能力。

正是由于这种探索,我们今天才拥有了这些能够自动化复杂任务、显著降低计算与数据需求的智能体系统。一旦发现新的扩展路径,就能解锁全新的能力,而如果只沿着预训练的扩展定律前进,这些能力可能需要极其漫长的时间才能出现。

在我看来,自GPT-4发布以来,推理模型代表了一次真正重大的能力跃迁。而我也坚信,类似这样的突破并非孤例。研究者不应只满足于渐进式改进,更应持续思考如何从根本上改变游戏规则。

头部AI玩家路径趋同 这是件令人遗憾的事儿

主持人:去年在NeurIPS上,Ilya提到“我们正在耗尽数据”,暗示预训练终将触及瓶颈。

Jerry Tworek:我并不认为这意味着预训练即将终结,它仍然在持续改进,也依然有许多优化空间。但预训练并不是提升模型能力的唯一方式,而且在很多情况下,它提升得非常缓慢。其他方法,或许能更快地推动能力跃迁。

主持人:硅谷长期存在一种有趣的现象:科技公司往往会提出一些在外界看来怪异、甚至离经叛道的想法,而正是这些想法催生了真正颠覆性的创新。

但一旦某条路径被证明是成功的,局面就会迅速反转,形成强烈的共识,所有人开始沿着同一方向竞赛。

这正是我们当前所处的阶段。模型竞赛已经持续了两三年,几乎所有主要实验室都在做同一件事。你认为这是个问题吗?

Jerry Tworek:我对此感到相当、相当遗憾,几乎所有公司都在做和OpenAI一样的事儿。OpenAI无疑取得了巨大成功,做对了更多事儿,引领了扩展Transformer的范式,也证明了大规模模型能够为世界创造真实而广泛的价值。

但如今,有多少公司在做着几乎一模一样的事情?竞争当然有其价值,但我们现在大概有五家严肃的AI公司,使用几乎相同的技术配方,在同一技术基础上构建略有差异的产品。

也许这是正确的路径,但我仍然希望看到更多多样性,模型之间真正的差异,而不仅是微小的调优。

如果你观察当下最顶级的模型,很少有人能真正分辨它们之间的不同。或许我们应该进行更多盲测:让用户与不同模型对话,看看他们是否能分辨出差异。

我怀疑99.9%的用户做不到。这些模型在体验上极其相似,即便它们来自不同团队、采用了略有不同的技术选择。在这样的环境中,真正的探索在哪里?真正的创新,以及与他人区分开来的能力,又在哪里?

与OpenAI已出现实质性分歧 分开比勉强合作更健康

主持人:我问一个有些尖锐的问题:你在OpenAI内外都被视为传奇人物,参与的项目成功率极高。如果连你这样的人,都觉得自己真正想做的事情在公司内部难以推进——无论公司是否明确反对,这种阻力本身就已经存在。

对于一家最初以研究实验室起家的公司而言,这是否是一个值得警惕的信号?

Jerry Tworek:我的看法是,有时候人们会成长到某个阶段,需要与过去分道扬镳。对一家公司及其成员来说,就目标和前进方向达成一致极其重要。

而在某个时刻,我意识到自己对未来研究路线的看法,与OpenAI所选择的方向在某种实质性层面上出现了分歧。在这种情况下,分开也许比勉强合作要更健康。

正因如此,我也认为,如果不同公司能够真正专注于不同的事情,行业会因此变得更好。专注对一家公司而言至关重要,而OpenAI很可能正在做所有正确的事情。

也许只是我怀抱了一些不切实际的梦想。我是一个相对乐观的人,我相信世界上始终还有很多不同的事情可以去做,这在原则上完全是可能的。

关键在于专注,把真正核心的事情做到极致。事实上,很多事情、很多公司,只有做到这一点,才能生存下来并进入下一个阶段。

在一个理想的世界里,应该存在大量做着不同事情的公司。尤其是对研究人员而言,他们很难在一个自己并不真正相信的研究方向上长期投入。他们理应能够找到一个地方,在那里从事自己最笃信的研究,并让时间来检验其价值。

也正因为如此,我对如今几乎所有公司都在做同样的事情感到有些难过。现实是,如果你想在主流机器学习范式之外做点不同的事情,几乎找不到合适的地方。这可能是目前让我最沮丧的一点。

主持人:当你开始认真思考“下一步要做什么”时,这种同质化的问题会变得尤为明显。如果所有实验室都在做同样的事,你自然也不会觉得自己只是换一家大实验室就能获得真正不同的空间。

Jerry Tworek:我确实在思考人生的下一个阶段,但如果世界上能有更多选择,让人可以稍微偏离主流,去做一些不那么热门、但可能同样重要的事情,那会让我更开心,也更容易做出决定。

主持人:这就引出了一个问题:我们到底需要什么,才能真正偏离主流?

一个投入了如此多资金和资源、又处在聚光灯下的公司,会本能地害怕承担风险。但问题在于,这些风险也许恰恰是必要的。那么,究竟需要改变什么?这种状况未来会不会发生改变?

Jerry Tworek:有趣的是,我个人其实非常喜欢冒险,别人也常这样形容我。冒险本身是一件好事。

但当风险和巨额资金绑定在一起时,愿意、也有能力承担这种风险的人就会变得极其稀少。风险承受能力是一种高度个人化、极其独特的特质。我与很多人共事过,深切体会到这一点。

我真心认为,人们本该更愿意承担风险,去尝试更多不同的事情。尤其是研究人员这一群体——如今AI领域的薪酬水平已经相当夸张了,而这反而可能带来一种副作用:人们变得不愿意失去工作,不愿意经历糟糕的绩效周期。于是,他们更倾向于追逐短期回报。

很多研究人员本身非常聪明、也很有想法,只是整个系统的激励机制过于短视。可恰恰是研究人员,才最应该被鼓励去冒险、去做大胆的尝试——因为真正的进步,正是这样产生的。

算力门槛正阻碍创新 “探索与利用”的权衡是关键问题

主持人:当然,我们也看到了一些例子。比如游戏教父John Carmack,他去了达拉斯的“洞穴”,一度几乎是独自工作,现在可能也只有极少数员工。Carmack说过:“也许我未必能做出真正不同的东西,但至少应该有人在认真尝试一条完全不同的路径。”

我也和Ilya聊过,不过我并不清楚他具体在研究什么。所以我无法判断,他的工作是在延续过去的方向,还是某种更加激进的尝试。但可以肯定的是,如果他不认为那是一条不同的道路,就不会去筹集那么多资金来做这件事。杨立昆显然也有与主流不同的理念。

这正是让我觉得这个领域非常有趣的地方。AI在某种意义上是一个非常古老的领域,可以追溯到几十年前;但当下这套主流范式,其实是相对较新的。当我和研究人员交流时,他们仍然会说:“只要把主要论文都读一遍,很快就能跟上进度。”

可我时常会想,会不会有某个人,突然带着一个极其激进、全新的想法出现,彻底推动整个领域向前?如今这件事似乎变得更难了,因为你可能需要一个州那么大的数据中心来支撑实验。

Jerry Tworek:这是一个巨大的资源门槛,也确实让问题变得更加棘手。但这同样是一个值得认真思考、试图解决的问题。

世界上有大量学术研究在进行,许多学生在做各种各样的探索,但其中绝大多数都严重缺乏资源。结果是,许多原本可能很有潜力的研究,最终不了了之,因为真正关键的研究往往需要大规模实验。

也正因如此,我对当下的一个趋势感到非常欣慰:确实有相当多的资金开始流向那些支持新颖、激进想法的尝试。像Carmack、Ilya、杨立昆这样的人,正是当下应该存在、也应该被资助的对象。

显然,并不是所有尝试都会成功,但其中一些一定会——世界上的创新正是以这种方式发生的。

在强化学习领域,“探索与利用”的权衡早已是一个经典概念。即便是我们在优化智能体时,也始终面临这个问题:是选择那些已被验证有效、成功路径明确的策略,还是尝试全新的方法,用不同的方式解决旧问题?

这是一个艰难但无法回避的权衡。当我们思考智能体该如何行动时,也许同样应该反思我们自己是如何做选择的。

主持人:至于那个由顶尖AI研究者组成的小圈子,人们是否真的清楚Carmack在做什么?

Jerry Tworek:说实话,我并不完全清楚。我的印象是,他正在大力押注于通过鼠标和键盘,在电子游戏中进行端到端的强化学习。如果我没记错的话,大致是这样。

而这恰恰让我觉得非常有意思。长期以来,我一直认为电子游戏是训练智能的绝佳环境之一。游戏是为人类大脑设计的,要让人类觉得有趣,它们融合了故事、权力幻想、解谜和问题解决,必须持续保持新鲜感,不能变得重复。

从某种意义上说,电子游戏是为人类认知量身定制的学习环境,而问题解决这样的能力,正是我们希望智能体具备的能力。

但我们至今还没有真正聪明的模型,能够在这种高频、多模态的环境中稳定运行。这也许暴露了某些架构层面的限制。但我依然认为,在电子游戏上训练AI,是一件非常有前景的事情。

强化学习之父Richard Sutton过去做过大量相关工作,不仅是电子游戏,还有扑克等复杂博弈。我曾去过他的实验室。当然,他当年的游戏环境,比我们后来在OpenAI让模型玩Dota时要简单得多。DeepMind CEO Demis Hassabis也一直在坚持类似的想法。

好的想法往往会卷土重来

主持人:有趣的是,这些思路曾一度被认为“过时”。在ChatGPT时代,它们看起来不像是主流方向。

Jerry Tworek:科学史反复告诉我们:好的想法往往会卷土重来。判断一个想法是否重要并不难,难的是判断它什么时候会变得重要。

七年前我刚加入OpenAI时,基于游戏的强化学习是绝对的热点。我们解决了Dota、《星际争霸》。当时DeepMind的AlphaGo更是一个里程碑。

但这些模型有一个非常明显的问题:它们几乎没有世界知识。它们只是在从零开始学习如何玩某一个游戏,而并不真正理解我们的世界。

显然,这不是正确的路径。模型首先需要对现实世界形成高层次的理解,而不仅仅是对像素作出反应。从零开始的强化学习,更像是一种“蜥蜴脑”或“猴脑”的学习方式。我们真正希望的是让模型具备更抽象的概念结构。

而经过多年大规模预训练,我们终于获得了对世界极其丰富、稳固的表征。现在,是时候在此基础上重新引入强化学习了。推理模型的真正魔力,正是在于:它们在一个强大的世界表征之上,通过强化学习构建能力层级。这才是未来的方向。

主持人:至于世界模型,谷歌做过相关探索,杨立昆和李飞飞的研究在某种程度上也指向这一方向。我们作为婴儿并不是生活在黑箱中,而是通过不断试探来理解世界。所以,将世界模型与强化学习结合,在我看来是非常合理的。

Jerry Tworek:这个想法显然是正确的。真正有趣的地方在于,我们如何将世界模型的表征构建与强化学习结合起来。强化学习用于教会模型各种技能,而这些技能正是模型在现实世界中运作所必需的——它赋予模型实现自身目标的能力。

然而,要想实现目标,模型首先必须理解自己所处的世界;只有在具备这种理解之后,它才能形成有效的计划与策略。这正是为什么世界模型与强化学习必须协同发展的原因。一旦有人能够在一个训练良好的世界模型之上成功地进行强化学习,那将会是一个极其令人振奋、具有里程碑意义的时刻。

架构创新与持续学习是两大方向 AGI仍然缺失关键拼图

主持人:你现在对什么最感兴趣?

Jerry Tworek:总体上,我认为简单地去重复实验室里已经在做的事情,其实意义不大。在现有的范式和设置中,仍然有很多可以调整、可以改进的地方,但有两个方向,我觉得要么被明显低估了,要么至少没有得到足够的资源去真正推进。

第一个方向是架构层面的创新。我们在Transformer架构上多少有些过于固步自封了。它无疑是一个伟大的架构,也已经被极其深入地探索过。

人们在对Transformer进行局部改进、试图通过一些小的结构调整来进一步提升它时,确实遇到了不少困难,当然,也有一些相当成功的尝试——比如稀疏性显然就非常成功,各种降低注意力机制计算成本的方法也取得了不错的效果。

但问题是:Transformer会是机器学习的终极架构吗?显然不会。尽管Transformer的提出者们做了极其出色的工作,几乎定义了接下来十年机器学习的发展格局,但事情远不止于此。

一定还存在其他训练大模型的方法——它们可能看起来有点像Transformer,也可能完全不像。这是一个非常值得投入精力去探索的问题。如果没有人去做这件事,那我会很乐意自己试一试。

第二个方向是一个更热门的话题,但我并不认为目前有人真正把它做好了,那就是持续学习,以及如何真正地、彻底地将test time与train time融合在一起。

对人类而言,这种方式再自然不过了:我们并不存在一个明确分离的“学习模式”和“回答模式”,一切都是在持续不断地同时发生的。我们的模型也应该更接近这种运作方式。

这很可能是我们在实现AGI之前,仍然缺失的几个关键能力要素之一。如果模型无法从它们所接触到的数据中持续学习,那么无论它们在其他方面多么强大,依然会给人一种受限、甚至有些“愚钝”的感觉。

主持人:说到AGI,我们上次聊天时我提到过,相比一两年前,现在我已经不太常听到关于时间线的讨论了。甚至连关于AGI本身的讨论似乎也减少了。所以我其实挺好奇的。

你称自己对AI持谨慎乐观的态度。那么在你看来,我们现在处在AGI时间线的哪个位置?

Jerry Tworek:是的,我个人的看法其实也略有更新。我一直认为,扩大强化学习的规模是实现AGI的必要组成部分。大约在一年前或一年半前,我几乎坚信,只要我们把模型的强化学习规模做大,它就会成为AGI。

而现在,我不得不稍微修正这一观点。不过有些东西,只有在真正进入下一个阶段之后你才能看清。我们也必须承认,今天的模型在非常非常多的方面已经做得相当出色了。

它们在编程方面所能做到的事情,对我来说尤其震撼——因为写代码本身就是我最喜欢的事情之一。你现在可以非常、非常快地完成大量工作。

对十年前的一些人来说,如果你向他们展示我们今天所拥有的能力,他们可能已经会把这称作AGI了。所以,谈论AGI已经不再像过去那样离谱或疯狂。

但至少按照我自己的定义,当前的模型仍然不能算是AGI,因为持续学习还没有以任何实质性的方式与我们的模型真正整合在一起。同时,从模型目前的状态来看,甚至在多模态感知这样的能力上也仍有明显缺失。

如果模型看不到外部世界,或者无法观看视频并对其进行良好的理解,那么即便它们在文本理解和编程方面非常出色,我们真的能称它们为AGI吗?

因此,要真正实现构建AGI这一文明级别的里程碑,还有许多我称之为“必要步骤”的问题需要解决。

一段时间我曾想过,如果我们真的非常努力,如果所有事情都做得非常好,也许2026年至少会成为我们在真正优秀的持续学习和真正通用的强化学习方面取得突破的一年。

我的时间线判断依然是有些浮动的。但与此同时,AI领域的发展速度确实非常快。投资每年都在不断增长,越来越多的人进入AI领域,这扩大了人才储备,也增加了我们能够探索的想法数量。

所以我并不认为这个想法完全荒诞或不切实际。也许会更早一些,也许会稍晚一些——可能是26年,也可能是27年、28年,甚至29年。我不认为会比这再晚太多。

当然,还有大量工作要做,但确实有很多人正在为实现AGI而努力。

我们正处在变革时代 保持担忧和谨慎有必要

主持人:如果我的记忆没错的话,在“Strawberry”项目出现之前,你是不是在研究Q*项目?那时候有很多风声,大家都在谈论Ilya看到了Q*,知道AGI已经来了,这把所有人都吓坏了。

我的意思是,听你刚才这么说,反而让人觉得有点好笑。因为这确实是一件非常棘手的事情:这些系统能做到一些极其令人印象深刻的事,于是我们就会变得异常兴奋。然后时间过去,

你知道,就像现在的“Strawberry”项目一样——它确实令人难以置信,几乎改变了整个领域,但我并不觉得我第一次使用它的时候被“吓到了”。

Jerry Tworek:我明白你的意思。这是人类心理中非常有趣的一部分,在某种程度上也反映了我们与技术互动的方式。

对我来说,强化学习Scale up的效果仍然非常显著,而且随着时间推移,我们会看到更多这样的成果。尤其是在编程领域,这将以许多不同的方式影响我们的生活。

今天,进行任何大规模编程项目的体验,与一年前相比几乎是天壤之别。我们会在各种各样的事情中看到这些变化。当我和我的团队,以及OpenAI的许多人,在两年前第一次看到Q*开始显现出有效迹象时,

你坐在一个房间里,目睹一项具有实质性意义的新技术。如果你在那一刻没有感到哪怕一点点害怕、一点点担忧,没有对“我们正在做这件事会带来什么后果”产生一丝疑虑,那么我会认为你对自己的工作不够负责。

我觉得每一位AI研究人员都应该问自己:如果我正在做的事情是全新的,具备前所未有的能力,那么它会给世界带来什么影响?事实上,很多研究人员确实在这样思考。有时候,人们也确实会不小心走得快了一两步。

到目前为止,AI还没有对世界造成任何真正的伤害。尽管像“阿谀奉承”这样的问题或许可以争论一下,其他问题至少据我们所知还没有。

但即便如此,我仍然认为,在向世界发布任何新技术时,保持担忧和谨慎是一种非常好的、也非常健康的反应。

我们正处在一个变革的时代,一个许多新事物不断向世界扩散的时代。它们会产生许多影响,影响人们如何度过一生,影响人们如何看待自己、看待他人,影响人际关系,也影响国际关系,还会影响GDP和生产力。

有时候,有人写下一行代码,所引发的连锁反应却会像瀑布一样,贯穿这一切。而其中所承载的责任,是相当沉重的。

主持人:这些想法确实都很有道理,其实我之前也一直在反复思考这些问题。我们此前大概也零星讨论过一些。只是那段时间里,随着所谓的“OpenAI政变”事件逐渐浮出水面,我总会下意识地试着设身处地为你着想。

但在这样一个关键的时刻,一个本应被认真理解的创造物,却率先成为人们迷恋、投射与争夺的对象,这本身难道不会让人感到一种微妙的怪异吗?

而与此同时,我看到你所创造的东西被推到聚光灯下,在尚未真正被理解之前,就被媒体反复谈论,又被卷入一场近乎肥皂剧式的纷争之中。我一时间甚至不知道该用什么词来形容这种感觉——说“好笑”似乎并不完全贴切。

Jerry Tworek:很难将科技世界、概念世界、人类情感、人类生活、人类之间的共同点以及分歧彼此分离开来。我们生活在这样一个世界:AI领域的重要参与者之间,存在着极其复杂、跨越多个层面的关系网络。

要真正理清这一切,历史学家恐怕需要花费很多年,甚至几十年,才能弄清这里究竟发生了什么,真实情况到底是什么。

说实话,即便是我自己,现在对“OpenAI政变”期间发生的一切,也只保留着非常零碎的记忆。每当有新的证词出现,每当新的文件被披露,我们都会了解到一些此前未知的事实。将来肯定会有人把所有真相拼凑出来,但世界本身就是复杂的。

或许我们确实需要一种更健康的方式来讨论技术,找到一个合适的讨论平台,让这些分歧在某种程度上得到解决。但我们生活在一个没有完美解决方案的世界,也没有完美的讨论方式。

分歧不可避免 只能依靠想法、信念与梦想

主持人:你也不认为X平台是一个理想的媒介?

Jerry Tworek:我个人其实很喜欢在X上发帖,喜欢和研究社区、和身边所有人分享想法,但X平台也并不是一个完全严肃的地方。所以很多时候,讨论总是介于玩笑和认真之间。

那么,什么才是正确的解决方案呢?当一个人担心某项技术过于危险,主张应当停止研究,而另一个人却认为它或许应当继续推进,因为它能够扩展人类的能力。第一个人又进一步认为,这甚至不是一条正确的研究路径,我们理应转向完全不同的方向。

在技术进步与科研探索的领域中,这样的分歧几乎不可避免,而一切又都笼罩在未知之中。没有人真正知道未来会走向何方。我们所能依靠的,只有想法、信念与梦想。在这种根本性的不可确定性里,我们仍然必须继续生活、继续选择,并且往往不得不在许多关键问题上,以某种方式学会求同存异。

主持人:是的,考虑到当时媒体对Q*的高度关注,诸如“伊利亚看到了什么”之类的叙事,相关的炒作确实过于密集了,而且几乎是一月接着一月不断升级。我对此并非没有意识到,只是仍然感到有些困惑。

我之所以好奇,是因为我们中的许多人在推特上都非常活跃,也都在不同程度上参与、放大,甚至推动了这种讨论和想象。那么,从你的角度来看,你如何看待这种持续升温的炒作?你是否也觉得,它或许需要稍微降温一些了?我个人认为,我们确实应该大幅降温。

Jerry Tworek:但与此同时,如果有人在七年前告诉你,OpenAI会成为一家万亿美元级别的公司,会建设史上最大规模的数据中心,拥有全球最大的网络产品之一,所有人都会时刻谈论AI。你当时一定会觉得那些人疯了。这听起来本身就像是炒作。

我其实认为,在很多方面,炒作背后是有实质内容的。有时它会过头,有时又不够,但AI确实很重要,也确实需要被讨论。我想现在已经没有人会认为AI是一个不重要的话题了。

几年前的情况肯定不同,当时确实有很多人认为AI不重要。但现在已经很清楚了,AI可能是这个世界上最重要的话题之一,值得我们持续讨论和深入思考。

进展会有多快?哪些路径是正确的?它到底有多安全,或者多危险?这些问题当然可以存在分歧和争论,但AI已经深度地融入了这个世界,而且只会变得越来越强。

有些人频繁跳槽 做的实事并不多

主持人:完全同意。但如果暂时把技术本身放在一边,我的意思是,我报道过Meta的挖角狂潮。这件事已经变成了一场肥皂剧、一档真人秀,而不再只是关于硬核科学的问题。你已经在这个领域工作了这么久。我只是好奇,我们是不是已经越界,进入了真人秀的范畴?

Jerry Tworek:但问题是,究竟是谁在制造这场肥皂剧呢?肯定不是我。

主持人:我的年龄足以让我亲历互联网泡沫,以及更早几个技术周期。而这一次的感觉,确实更像一场肥皂剧。即便回想当年的生产力软件大战,事情也并非如此。

很大一部分原因在于,今天的利害关系实在过于巨大。牵涉的资金规模、研究人员在各个实验室之间的流动,再加上一连串高度戏剧化的事件,这些因素叠加在一起,让整个局势长期处于紧绷状态。

从一开始我就有一种强烈的感觉:旧金山仿佛为自己创造了一个独立的世界。与其说这是泡沫,不如说是我们彼此不断说服自己,这就是终局,赌注巨大,这是一场竞赛,既可能极其精彩,也可能极其糟糕。一切都高度紧张,也因此带来了额外的心理负担。

所以我确实觉得,这一次很不一样。互联网泡沫时期,一切源于一个简单而天真的念头:这太酷了,世界上所有的信息都触手可及,人可以彼此连接。公司是后来才出现的,金钱竞争更是逐渐浮现的结果。而现在却仿佛从一开始,整个世界的重量就压在了这件事情上。

老实说,我不知道你们是怎么撑过来的。我看到无论是OpenAI、Anthropic还是其他实验室,都在拼命工作、彼此竞争,而赌注又如此之高。连续七八年处在这样的状态里,任何人都会被消耗。我完全理解,为什么你会想停下来休息一段时间。

这不仅是体力上的消耗,更是心理上的磨损。因为一旦你真正接受了这种设定,它本身就会不断侵蚀你。

Jerry Tworek:确实,这一切都会带来心理上的损耗。不过我可以告诉你,曾经有一位在应对压力方面比我经验丰富得多的人对我说过一句话:每经历一次高压时刻,就像是做了一次俯卧撑,你对压力的承受能力都会稍微增强一点。

坦率地说这七年的工作确实锻炼了我极强的心理与情感韧性。至少我真切地感觉到,自己能够屏蔽掉大量噪音和无谓的干扰,在无论发生什么情况时,都尽量保持稳定和坚定,不管是公司濒临崩溃、研究人员频繁流动,还是项目被不断重新分配。

总会有一些事情发生。我也听到有人把人才挖角比作体育队的转会。体育联盟之所以能相对有序地运作,在于它们有清晰的角色分工,以及明确的转会规则,何时可以流动,何时不能流动。遗憾的是,加州法律在这方面几乎没有真正的限制。

我确实认为,如果能在这方面建立一些规则,或许会是一件好事。因为在这个行业里,确实存在这样一种现象:有些人频繁地更换工作,而真正投入到工作的时间,反而显得更少。这种情况正在发生,而且并不罕见。

主持人:那么,给AI领域加上工资帽怎么样?

Jerry Tworek:确实有些人在频繁跳槽,也有些人仍然在坚持工作,努力把前沿继续向前推进。不过,AI 毫无疑问已经是一门大生意了。

主持人:前两天我还在和同事聊,我们需要列一份名单,上面包括所有在前沿AI机构工作过的人,还要标注他们在每一个地方待了多久。肯定至少有不少人完成了“湾区大满贯”,每家都呆过。

揭秘OpenAI内部“波兰黑手党”:勤奋是项重要品质

主持人:我们能聊聊“波兰黑手党”吗?当我刚开始写这本关于OpenAI的书的时候,大概是2018年左右,那时整个公司里大约只有三十个人。这个最初的群体中,有相当一部分来自波兰,数量多得出人意料。他们几乎都是数学天才,有些人从小就彼此认识,有些则并非如此。

不过,这确实在某种程度上反映了苏联教育体系在数学人才培养方面的卓越之处,或者也可能只是因为,只要有一个人先去了OpenAI,大家彼此认识,就陆续跟着去了。

Jerry Tworek:就我个人而言,在最终加入OpenAI之前,我完全不认识那里任何一个人,来到OpenAI纯属机缘巧合。

但在OpenAI的早期阶段,波兰人的比例确实非常高。我并不认为这种趋势能够长期持续。现在,波兰裔员工的绝对人数比早期更多了,但考虑到公司规模扩大了上百倍,这个比例其实已经不算高了。

不过,我们的教育系统确实有点东西。不过我没有亲身经历过其他教育体系,所以也无法真正判断波兰教育体系是否真的如此出色。

波兰确实拥有很多杰出的人才。而我非常欣赏波兰的一点,就是波兰人非常勤奋。其实随着时间推移,尤其是在许多发达国家,勤奋工作似乎越来越不被重视。生活变得更安逸了,人们有更多其他事情可以关注和优先考虑,这本身也很正常。但波兰人确实非常看重勤奋。

在我出生之前,波兰还是一个共产主义国家。就在我出生的那一年,国家转型为自由市场经济。这个过程相当残酷,但社会拥抱了这种变化,努力摸索如何变得更具创业精神,如何为自己的未来奋斗,如何实现经济繁荣。而事实证明,这是成功的。

我是一个移居海外的人,如今并不住在波兰。但每次回去,大概一年一两次吧,我都能清楚地看到国家在持续建设和发展。我看到它变得更好、更美丽、更繁荣。这真的是一个了不起的故事。

主持人:你在当地算是个名人吗?我总觉得,波兰政府可能在想:该死,我们本来可以把这件事做成的。我们当初应该把这些人都留下来。我去年去了波兰,我知道他们已经意识到这一点了。几乎每个人都会问:你认识Wojciech(OpenAI联合创始人之一,也是少数仍在OpenAI工作的早期OpenAI成员)吗?

Jerry Tworek:Wojciech真的是一个了不起的人,非常友善。不过硅谷也是完全独一无二的,雄心、规模以及活力,这并不是在世界任何地方都能轻易实现的。但我可以向你保证,波兰人非常勤奋,而且能够识破“忽悠”。这一点,在生活中真的能让你走得很远。

谷歌的回归背后是OpenAI在犯错

主持人:你对谷歌的回归,或者说重新崛起感到惊讶吗?看起来他们做对了很多事情,你们一直都认为他们最终能理清思路,然后迎头赶上吗?还是说,这其实是个意外?

Jerry Tworek:我个人认为,与其说是谷歌的“回归”,不如说是OpenAI自己犯了一些错误。尽管OpenAI做对了很多事情,但即便在理想环境下,它也犯过几次错,执行速度比本可以做到的要慢。

如果你是一家领先的公司,并且拥有OpenAI所具备的全部优势,那么你理应始终保持领先。但如果你在这个过程中做出了错误决策,而别人做出了正确决策,那么别人就会赶上来。

谷歌确实做对了很多事情,他们在硬件、人才等方面拥有巨大的结构性优势。当OpenAI刚起步时,谷歌在几乎所有机器学习与研究方向上都是明显的第一名。

OpenAI能够脱颖而出,主要源于对某一特定方向、特定路径的坚定研究信念。而世界花了极其漫长的时间,才意识到这是一个很好的信念、一个很好的方向。

即便在GPT-2、GPT-3、GPT-3.5被训练出来的时候,也并没有太多人真正放在心上。你去NeurIPS和研究人员交流,大家会觉得OpenAI挺酷,但其他实验室往往会说:嗯,我们迟早也能复现。那些大语言模型挺有意思,但也就那样。

只有当OpenAI开始通过ChatGPT真正赚钱时,其他公司才突然意识到:哦,这东西现在能盈利了,我们真的需要做这件事了。

这给了OpenAI一个极其漫长的时间窗口,从构建技术到实现商业化,而其他人直到后来才意识到“我们真的、真的需要做了”。谷歌也是从那时起才开始认真对待大语言模型的训练。

而由于OpenAI没能充分把握住自己的领先优势,谷歌如今在模型能力和训练方面已经非常、非常接近了。对谷歌来说,这是件好事,我会给他们送上祝贺,因为他们扭转了局面、并且执行得非常出色。

主持人:有哪些失误?我记得当时我报道你们推出搜索功能时,外界的说法是:OpenAI推出搜索,谷歌要完了。我当时就想,我并不确定会是这样。那么,具体的失误是什么呢?

Jerry Tworek:我不太想深入讨论内部决策的细节,哪些是对的,哪些是错的。但我再强调一次:在理想的执行情况下,如果你一开始就领先,你本应保持领先。

OpenAI需要加快进度 Anthropic令人钦佩

主持人:看起来你认为OpenAI存在一些技术层面的失误,同时公司内部的一些戏剧性事件在某些阶段拖慢了进度。我和足够多的OpenAI内部人士聊过,他们一直在思考公司该如何继续向前。然后在某个阶段,一批关键人物离开了。但听起来,你刚才更多是在谈技术层面的问题。

Jerry Tworek:这些事情有时是相关的。从技术上讲,我并不认为人员流动本身是一个严重问题。在任何公司,人来人往都应该是正常的现象。但有时,人员离开确实是问题的征兆。

但如果公司有人说:“有人在做错误的事情,我们不再相信这家公司了,我们应该离开”,那可能确实说明存在更深层次的问题。不过,正如我之前所说,有些事情的进展速度显然是可以更快的。

主持人:正如你所说,各大实验室在总体方向上做的是类似的事情。那么Meta在某种程度上算是后来者。虽然他们早就涉足AI,但现在看起来,他们是想用不同方式来做这件事,同时从其他公司挖人。

我不太清楚Meta具体在做什么,但给我的感觉是,他们并不是要走出一条真正不同的道路,而是想走同一条路。这在我看来是一个根本性的问题。你来得晚了一点,却在做和别人一样的事情,结果可能不会太好。你觉得他们真的有不同的方法吗?

Jerry Tworek:我对他们的策略并不是特别熟悉,所以无法确定。但从外部来看,我觉得他们意识到了一点:在当前的AI世界里,你可以用两种方式来思考你想做什么。

一种是,我们想打造一个在某些方面明显优于他人的模型;另一种是,我想打造一个和别人同样优秀的模型,但以不同的方式去使用它,或者围绕它构建不同的产品。

就我对Meta的理解而言,这家公司关注的是连接人、建立关系、打造体验,无论是元宇宙、社交网络,还是其他形式的体验。我再强调一次,这只是我的推测,但我认为他们的思路是,利用行业已经理解并掌握的AI技术和Transformer,来尝试构建这些体验。

从一家极其盈利、拥有全球最大社交网络的公司角度来看,这可能是一种相当不错的策略。

主持人:我们刚刚谈到了谷歌的回归。在OpenAI与其他公司的持续竞争中,有没有某个AI Lab给留下了特别深刻的印象?

Jerry Tworek:我得说,这是最近才发生的变化,但在过去一年里,我对Anthropic的钦佩程度确实大幅上升。我从来都不是特别关注模型“个性”的那种人。虽然我听说Claude的个性不错,也许吧。

但他们在编程模型和编程智能体方面所做的事情,他们围绕这些成果建立的品牌以及他们所拥有的大量开发者,这些绝对是令人震惊的成就。

Anthropic起步更晚,计算资源受限,团队规模也更小,在获取优质算力和硬件方面遇到了许多困难,但他们依然成功构建了卓越的产品。这些产品正在改变人们开发软件的方式,并且据我所知,显著提升了企业生产力。祝贺他们。

主持人:他们似乎正处在一个高光时刻。我认识的每一个人都在谈论Claude Code,但我确实不知道,他们是如何做出一个如此出色、像ChatGPT一样被广泛喜爱的Claude Code的。似乎很多实验室确实在借鉴这个工具,还有些实验室被断供了。

Jerry Tworek:是的。在OpenAI,我们也在开发Codex,这是我们自己的编程工具,它也挺不错的。有意思的是,我自己其实并没有怎么用过Claude Code。毕竟我当时受雇于OpenAI,所以没怎么用过。

所以我真的说不太准。但我觉得Codex不是一个坏产品。只不过,从Twitter上的情绪来看,Claude确实深受全球开发者的喜爱。

AI圈缺乏专注度已成普遍问题 OpenAI很难“集中力量办大事”

主持人:根据我们之前的对话,你似乎在智识层面上对科学怀有浓厚兴趣。你关于推理的研究,源自你想创造“AI科学家”的长期愿景。当我看到你宣布离开的那条推文时,我就在想,你究竟是会继续留在这场以基础模型为中心的竞赛中,还是会走一条不同的道路。我感觉你可能会进入生物技术领域,或类似的方向,以一种相当不同的方式去追求这个目标。

Jerry Tworek:如果我能克隆自己,去做多种不同的事情,我真的很想那样做。但长话短说,在某些时刻我醒来,会意识到自己对一生中所取得的成就感到相当满足,也感到自豪。

但我现在真正想做的,是押注一两个重大的研究方向,并竭尽全力让它们成功。我认为人们应该愿意承担风险。我是那种愿意尝试疯狂想法、拥有极高风险承受能力的人之一。我觉得我应该把这种能力用在一些有益的事情上。

主持人:把你脑海中的想法真正落地,需要多长时间?这是一个一年的项目吗?还是你所说的“高风险”,需要投入四五年的人生,去追逐一个可能并不比现有技术更好的东西?

Jerry Tworek:我绝对愿意投入大量时间。同时,我也认为人们应该快速执行,做事慢并不是值得骄傲的理由。为了在研究项目上执行得好,我希望能尽快做好。

但真正重要的部分,还是我之前提到的:专注和信念。如果你同时做很多不同的事情,就会分散你的注意力,分散你的资源。尽管AI Lab经常说他们受限于计算资源,因此研究变慢了,这也确实是重要的影响因素之一。但很多时候,更常见、更普遍的问题,其实是缺乏专注力。毕竟,你每天能分配的注意力是有限的。

我经常告诉我合作的研究人员:减少实验次数,但要对每一次实验思考得更深入。因为有时候,即便只是花时间,比如几个小时,不运行任何程序,仅仅更仔细地分析实验数据,相比于运行更多实验,反而更容易带来突破。

主持人:像OpenAI这样拥有大量计算资源的机构,其实只是把资源分散在了太多项目上。实际上,如果把这些资源集中到更少的项目中,算力本身是完全足够的。

Jerry Tworek:这又回到了风险承担和信念的问题。如果你同时做三个项目,其中一个成功了,另外两个可能被放弃。如果三个都成功了,那当然非常棒,但如果你只做一个项目,会推进得快得多,因为你可以更加专注,信念也更加坚定。

当然,如果项目最后失败了,麻烦就大了,但如果成功了,就可能拥有世界上最好的模型。

对OpenAI来说,目前要让整个公司集中力量去做一些全新的、完全不同的事情,是有点困难的。要让我们完全不在乎Gemini下个季度会不会有更好的模型,也非常难做到。

这样的事情绝对需要一种特定类型的人,只有这种人才愿意去承担风险。这正是关键所在。

主持人:我知道你不能谈论那些所谓的“秘密配方”。但我还是很好奇,OpenAI正在朝哪个方向发展?或者至少,从宏观上看,他们把资源投向了哪里?最近OpenAI给ChatGPT加广告的消息刷爆了全网。

Jerry Tworek:我不应该、也不能谈论OpenAI的任何计划。

主持人:你觉得,在这些模型公司中,会不会有哪一家有勇气像OpenAI一样加入广告?也许“勇气”这个词并不准确,因为不放广告可能本身就是一个糟糕的决定。广告变现是不是不可避免的?

Jerry Tworek:这是一个商业策略问题,而我的工作是训练模型。

OpenAI真正擅长的是“1到100” 驱动创新的是“运作方式”

主持人:我并不是想为难你,只是在进行了这次完整的对话之后,我仍然在试图理清一些想法。当你谈到你想要追求的新方向时,你确实需要一定的“马力”。你会自己进行尝试,还是必须身处一个拥有足够“能量”的地方,才能进行你想做的研究?

Jerry Tworek:这是我目前正在努力理解的首要问题。每一项AI研究仍然需要GPU,需要算力,我需要考虑什么才是最好的方式。

主持人:这是波兰的机会。他们需要给你一个国家级数据中心。

Jerry Tworek:这个主意或许不错。我还在逐渐理清自己的速录,我知道自己想做哪些类型的研究,也在不断尝试弄清楚,什么才是实现它们的最佳路径。

我不止一次听别人说,你离职后比以前快乐多了。我从一个现在自己创业的人那里听说,在OpenAI工作比创业压力还要更大,这让我非常震惊。OpenAI确实是一个相当有压力的地方。

主持人:最后一个问题,除了大家追逐的东西过于相似之外,你有没有观察到AI领域内其他的重大错误?

Jerry Tworek:我不认为存在什么巨大的错误。因为要让所有人都犯下同一个巨大错误,其实很难。我觉得这里只有一个真正的问题:如何在探索和延续原有技术路线之间取得平衡?

主持人:我刚才那个问题可能问得不太好,我更想问的是,在研究界中,是否存在一些你认为被低估了、没有得到世界足够关注的想法?

Jerry Tworek:说实话,这样的想法有很多,但它们最需要的,其实只是多一点关注、多一点计算资源,以及多一点为之奋斗的精神。

我觉得有一点比较独特:很多研究人员喜欢做从0到1的工作。很多学术研究正是如此,创造出一些全新的想法,证明它在某种程度上是可行的,然后就把它发表出来。

而我认为,我和我在OpenAI的团队真正擅长的,以及我觉得我们做得非常出色的一点,是把研究从1推进到100,也就是采纳那些不同的、我们以前没有做过、但已经初步被验证的想法,并找出如何让它们在大规模训练前沿模型时,可靠地工作,同时还要整合许多其他相关因素。

这正是大量学术研究所欠缺的东西。概念验证当然很酷,但要用某种特定技术训练出世界上最有能力的模型之一,需要做大量非常具体、细致的工作。如果方法不对,可能需要数年时间,但如果你有合适的算法,知道如何引入这些东西,可能只需要几个月。这正是我未来想多多尝试的事情。

主持人:当我们谈到OpenAI的一些人员离职时,你曾说,公司应该能够承受这些损失。但AI领域在某种程度上似乎一直是由“明星”驱动的,比如Alec Radford这样的明星人物。挖人的行为也是持续不断。

从这些实验室的行为来看,显然这些公司认为AI一个由研究明星驱动的领域。我很好奇你的看法。你刚才似乎对这个问题有些犹豫。行业中既有整个学界、整个领域长期积累的工作,也有一些关键时刻和重大的突破来自极少数个人。

Jerry Tworek:这是一个相当复杂的话题,但我觉得两件事可以同时成立。很多时候,就像你在OpenAI看到的那样,确实是极少数个人产生了超乎寻常的影响,推动了一系列完全开创性的成果,并将其扩散到整个行业。我一次又一次地看到这种情况发生。

但与此同时,每当我看到人们换公司时,我很少看到这对原公司造成真正重大的影响。公司本身的特质,或者说一种近乎“运作方式”的东西,才是真正的研究引擎,而不是某一个特定研究员是否还在这里。

我也观察到,那些在公司之间跳槽的研究员,往往在新环境中并没有那么高效。即使他们过去常常做出伟大的工作,来到新地方后,也可能变得有些分心,需要时间适应环境,或者暂时没有特别新鲜的想法。

当然,在这个领域的经验肯定能带来一些优势,但更重要的是,创造一种个人责任感强、允许探索、能够赋能人们去做大事的氛围。

而且,无论是这批人,还是另一批人,都完全有可能组建出许多能够做出伟大成果的团队。我并不认为某个特定的人是不可替代的。在我看来,良好的研究结构、良好的研究文化、良好的协作方式,远比某个具体的人是否在你的团队中重要得多。

本文来源:智东西

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章