微软CEO深度访谈:Azure利润很大程度来自配套服务,模型开发商会陷入"赢家诅咒"、平台价值不会消失

纳德拉称,Azure/AI工作负载不仅需要AI加速器,还需要大量配套支持。事实上,我们的利润空间很大程度上就来源于这些配套服务,要将Azure打造成为长尾工作负载的终极平台,这才是超大规模云业务的本质。纳德拉强调微软将通过自有模型与定制芯片的闭环优化来降低总拥有成本。纳德拉认为,总会有一个相当强大的开源模型可供使用,只要你拥有配套的数据资源和基础设施支撑。

★倒计时最后1天|见闻11.11活动,全场会员产品全年最低价!26年Alpha新产品全面上线!>>

11月13日,Dwarkesh Patel播客发布Dwarkesh Patel、SemiAnalysis创始人Dylan Patel与微软CEO纳德拉(Satya Nadella)的最新深度访谈。在访谈中,他们探讨了微软AI战略、自研芯片、Azure/云业务、通用人工智能(AGI)的商业模式、行业利润等。

(访谈截图)

关于Azure/云策略上,纳德拉称,Azure/AI工作负载不仅需要AI加速器,还需要大量配套支持。事实上,我们的利润空间很大程度上就来源于这些配套服务,要将Azure打造成为长尾工作负载的终极平台,这才是超大规模云业务的本质。在自研芯片方面上,纳德拉强调微软将通过自有模型与定制芯片的闭环优化来降低总拥有成本,这种垂直整合策略旨在为大规模AI工作负载提供成本优势。

关于模型商业化,纳德拉认为,总会有一个相当强大的开源模型可供使用,只要你拥有配套的数据资源和基础设施支撑。作为模型开发商可能会陷入"赢家的诅咒"一一虽然完成了艰巨的创新工作,但成果很容易被复制而商品化。而那些掌握数据根基、情境工程能力以及数据流动性的企业,完全可以获取这些检查点进行再训练。

纳德拉透露,根据新协议,微软拥有OpenAI所有系统级创新(包括芯片和系统设计)的完整IP授权,除了消费级硬件。这意味着微软实际上同时拥有两套顶级的Al系统设计能力:自家的MAI(微软AI)+Maia团队,以及OpenAI的团队。微软可以从两边汲取最好的技术,甚至直接用OpenAI的设计。

作为此次采访的一部分,纳德拉让Dwarkesh Patel和 Dylan Patel独家抢先参观了微软全新的 Fairwater 2 数据中心。在参观中,微软云与AI执行副总裁Scott Guthrie披露,公司目标是每18至24个月将训练能力提升10倍,新一代Fairwater 2架构将使训练能力较GPT-5提升整整10倍。

华尔街见闻总结亮点如下:

关于与OpenAI的知识产权共享:

在我们的案例中,好消息是OpenAI有一个项目,我们可以访问。"(Dylan问:你们对那个项目有多大程度的访问权限?) 全部。 (Dylan确认:你们直接获得了所有的知识产权?) 就是这样...顺便说一下,我们也给了他们一堆知识产权来帮助他们起步...我们一起建造了所有这些超级计算机。

关于自研芯片策略:

任何新加速器的最大竞争对手,甚至可以说是英伟达的上一代产品。在一个集群中,我要看的是整体的总拥有成本(TCO)。我们要做的方式是在我们自己的MAI模型和我们的芯片之间建立一个闭环,因为我觉得这给了你做自己芯片的'天赋人权',你真的根据你正在做的事情设计了微架构。

关于Azure/云策略:

我们还深刻认识到,每个AI工作负载不仅需要AI加速器,还需要大量配套支持。事实上,我们的利润空间很大程度上就来源于这些配套服务。因此我们要将Azure打造成为长尾工作负载的终极平台一一这才是超大规模云业务的本质,同时我们必须从最基础的高端训练硬件层就开始保持绝对竞争力。

但这不能挤占其他业务,因为我们并非仅仅与五家客户签订五份裸金属服务合同。那不是微软的业务模式。那可能是其他企业的业务方向,这很正常。我们明确表示自己从事超大规模云计算业务,归根结底是为AI工作负载提供长尾服务。为此,我们将为包括自研模型在内的一系列模型保持领先的裸金属即服务能力。在我看来,这正是你们看到的平衡之道。

关于MAI(微软AI):

因此当我规划微软人工智能路线图时,我们将组建一流的超级智能团队。我们将陆续公开发布部分模型一一这些模型或因延迟优化、成本优势等特性应用于产品,或因具备特殊能力而发挥作用。同时我们将开展切实研究,为未来五到八年实现超级智能所需的突破做好准备,同时充分利用我们现有的GPT模型家族作为研发基础。

关于Agent HQ战略:

在GitHub Universe上...我们说Agent HQ(智能体总部)是我们说要构建的概念性东西。有时我把它描述为所有这些AI代理的有线电视,因为我会把Codex、Claude、Cognition的东西、任何人的智能体、Grok,所有这些都打包到一个订阅中。

如果需要构建某种平视显示器,然后让我快速引导和分类编码代理生成的内容,对我来说,在VS Code、GitHub之间,以及所有这些我们将构建的新基础组件作为带有控制平面的Mission Control。

关于行业利润:

从行业结构看,我认为总会有一个相当强大的开源模型可供使用,只要你拥有配套的数据资源和基础设施支撑。作为模型开发商可能会陷入"赢家的诅咒"一一虽然完成了艰巨的创新工作,但成果很容易被复制而商品化。而那些掌握数据根基、情境工程能力以及数据流动性的企业,完全可以获取这些检查点进行再训练。

公司的未来将是工具业务,其中我有一台计算机,我使用Excel...第二个世界是公司只是字面上为AI智能体提供计算资源,那是完全自主工作的。我们的业务,今天是最终用户工具业务,将基本上成为支持代理工作的基础设施业务。你需要某个地方来存储它,某个地方来做归档,某个地方来做发现,某个地方来管理所有这些活动,即使你是AI代理。

关于光器件:

微软云与AI执行副总裁Scott Guthrie:我们力争每18-24个月将训练能力提升10倍。这个[Fairwater2]架构将使训练能力相比GPT-5提升整整10倍.这座大楼里的光器件数量,几乎相当于两年前我们全球所有Azure数据中心的总和..我们将跨站点聚合算力资源来执行大型训练任务。这些资源会依次用于训练、数据生成和推理一一而不是永远只处理单一工作负载...Fairwater4也将接入那个千万亿比特网络,实现超高速互联;AI广域网直通密尔沃基,那里正在建设多个Fairwater设施。从园区设计就能清晰看出其针对模型并行与数据并行的优化。

以下为纳德拉深度访谈文字实录全文,由AI辅助翻译:

访谈嘉宾:微软CEO Satya Nadella;

播客主持人:Dwarkesh Patel;

联合访谈人:SemiAnalysis创始人Dylan Patel;

嘉宾:微软云与AI执行副总裁Scott Guthrie

Dwarkesh Patel:

今天我们采访的是萨提亚·纳德拉。"我们"指的是我和迪伦·帕特尔(Dylan Patel),他是SemiAnalysis的创始人。萨提亚,欢迎。

Satya Nadella:

谢谢。很高兴。感谢你来亚特兰大。

Dwarkesh Patel:

感谢你带我们参观新设施。能看到这些真的太酷了。

Satya Nadella:

当然。

Dwarkesh Patel:

萨提亚和斯科特·格思里(Scott Guthrie)——微软云与AI执行副总裁——带我们参观了他们全新的Fairwater 2数据中心,这是目前世界上最强大的数据中心。

Scott Guthrie:

我们一直努力在每18到24个月将训练容量提升10倍。所以这实际上是相比GPT-5训练时提升了10倍。从光纤数量来看,这栋建筑里的网络光纤几乎相当于两年半前我们所有Azure数据中心的总和。

Satya Nadella:

这里有大约500万个网络连接。

Dwarkesh Patel:

你在一个区域内的不同站点之间,以及两个区域之间都有这么大的带宽。那么这是对未来扩展性的一次大赌注吗?你们预期未来会有某个巨大的模型需要两个完整的区域来训练?

Satya Nadella:

我们的目标是能够将这些算力聚合起来用于大型训练任务,然后将这些资源跨站点整合在一起。

现实是你会用它来训练,然后用它来生成数据,用它来做各种推理。它不会永远只用于一种工作负载。

Scott Guthrie:

附近正在建设的Fairwater 4,你们会看到,也将接入那个1 Petabit(千万亿比特)级的网络,这样我们就能以非常高的速率将两者连接起来。

然后我们还有AI广域网连接到密尔沃基,那里我们正在建设多个其他Fairwater数据中心。

Satya Nadella:

你可以真切地看到模型并行和数据并行。

它本质上是为这个园区的训练任务、超级集群而建的。然后通过广域网,你可以连接到威斯康星州的数据中心。

你真的可以运行一个训练任务,将所有这些资源聚合在一起。

Scott Guthrie:

我们现在看到的是一个单元,里面还没有服务器,没有机架。

Dylan Patel:

一个单元里有多少个机架?

Scott Guthrie:

我们不一定会透露这个,但是……

Dylan Patel:

这就是我问的原因。

Scott Guthrie:

你上楼就会看到。

Dylan Patel:

我要开始数了。

Scott Guthrie:

你可以开始数。我们让你开始数。

Dylan Patel:

这栋楼里有多少个单元?

Scott Guthrie:

这部分我也不能告诉你。

Dwarkesh Patel:

好吧,除法很简单,对吧?

Satya Nadella:

天哪,这里有点吵。

Dwarkesh Patel:

你看着这些是不是想:"现在我知道我的钱花哪儿了。"

Satya Nadella:

就像,"我经营的是一家软件公司。欢迎来到软件公司。"

Dwarkesh Patel:

一旦你决定使用GB200和NVLink,设计空间有多大?还有多少其他决策需要做?

Satya Nadella:

从模型架构到优化的物理方案,两者之间是耦合的。

从这个意义上说,这也很可怕,因为会有新芯片推出。比如Vera Rubin Ultra。它的功率密度会非常不同,冷却要求也会非常不同。

所以你不想只按一个规格来建设所有东西。

这又回到了我们稍后要讨论的话题,那就是你希望随时间扩展,而不是一次性扩展然后就被困住了。

AGI的商业模式

Dylan Patel:

当你审视所有过去的技术转型——无论是铁路还是互联网,或是可替换零件、工业化、云计算,所有这些——每一次革命从技术被发现到在经济中普及和渗透所需的时间都变得更快了。

许多在Dwarkesh播客上出现过的人相信这是最后一次技术革命或转型,而且这一次非常、非常不同。

至少到目前为止在市场上,三年内我们已经飙升到超大规模企业明年将进行5000亿美元的资本支出,这种速度在以往的革命中是无与伦比的。

最终状态似乎相当不同。

你对此的理解框架似乎与我所说的那种"AI兄弟"很不同,他们说"AGI(通用人工智能)要来了"。我想更深入地理解这一点。

Satya Nadella:

我首先感到兴奋,我也觉得也许在工业革命之后这是最重大的事情。我从这个前提出发,但与此同时,我有点脚踏实地,认为这仍然是早期阶段。

我们已经构建了一些非常有用的东西,我们看到了一些很好的特性,这些扩展定律似乎在起作用。

我乐观地认为它们会继续起作用。

其中一些确实需要真正的科学突破,但也有很多工程工作等等。

话虽如此,我也有点持这样的观点:即使是过去70年计算机领域发生的事情也一直在推动我们前进。

我喜欢Raj Reddy对AI的一个比喻。

他是卡内基梅隆大学的图灵奖得主。即使在AGI之前,他就有这个关于AI的比喻。

他说AI应该是守护天使或认知放大器。我喜欢这个比喻。

这是思考这个问题的简单方式。

最终,它的人类效用是什么?

它将成为认知放大器和守护天使。

如果我这样看待它,我就把它看作一个工具。

但你也可以对此非常神秘地说,这不仅仅是一个工具。

它做所有这些事情,到目前为止只有人类做过。

但过去许多技术都是这样。

只有人类做很多事情,然后我们有了能做这些事的工具。

Dwarkesh Patel:

我们不必纠结于定义,但一种思考方式是,也许需要五年、十年、二十年。

在某个时刻,最终机器会生产“萨提亚token”,而微软董事会认为“萨提亚token”非常有价值。

Dylan Patel:

通过采访萨提亚,你浪费了多少经济价值?

Dwarkesh Patel:

我负担不起“萨提亚token”的API成本。

无论你想怎么称呼它,“萨提亚token”是工具还是智能体(agent),随便什么。

现在,如果你的模型每百万token成本在美元或美分的量级,那里就有巨大的利润扩张空间,因为一百万个“萨提亚token”价值很高。

我的问题是,那些利润去哪里了,微软在其中能分到多大比例?

Satya Nadella:

从某种意义上说,这又回到了本质上经济增长图景到底会是什么样子?

公司会是什么样子?

生产力会是什么样子?

对我来说,这就是问题所在,再说一遍,如果工业革命创造了……在70年的扩散之后你才开始看到经济增长。

这是另一件要记住的事。

即使这次技术扩散得很快,要真正出现经济增长,它必须扩散到工作、工作成果和工作流程必须改变的程度。

所以这是我认为我们不应该低估一个公司真正改变所需的变革管理的一个地方。

展望未来,人类和他们生产的token是否会获得更高的杠杆,无论是未来的“Dwarkesh token”还是“Dylan token”?

想想你现在使用的技术量。

你能在没有技术的情况下运营SemiAnalysis或这个播客吗?

不可能,以你能够达到的规模,绝对不可能。

所以问题是,那个规模是多少?

它会因为某些东西而增长10倍吗?绝对会。

因此,无论你是达到某个收入数字还是某个受众数字或其他什么,我认为这就是将要发生的。

关键是,工业革命花了70年、也许150年的事情,可能会在20年、25年内发生。

如果我们幸运的话,我很想把工业革命200年发生的事情压缩到20年内。

Dylan Patel:

微软历史上可以说是最伟大的软件公司,最大的软件即服务公司(SaaS)。

你过去经历过一次转型,你曾经销售Windows许可证和Windows磁盘或微软产品,现在你销售Office 365的订阅服务。

当我们从那次转型到你今天的业务时,之后还有另一次转型正在进行。

软件即服务的每用户增量成本非常低。

有很多研发,有很多客户获取成本。

这在某种程度上就是为什么,不是微软,而是SaaS公司在市场上表现严重不佳,因为AI的COGS(销货成本)实在太高了,这完全打破了这些商业模式的运作方式。

作为可以说是最伟大的软件即服务公司,你如何将微软过渡到这个COGS很重要、每用户增量成本不同的新时代?

因为现在你的定价是这样的,"嘿,Copilot要20美元。"

Satya Nadella :

这是一个很好的问题,因为从某种意义上说,对于商业模式本身,杠杆将保持相似。

如果你看从消费者一直到企业的模式菜单,会有一些广告单元,会有一些交易,会有一些为构建AI设备的人提供的设备毛利润。

会有订阅,消费者和企业的,然后会有消费量计费。

所以我仍然认为这些都是所有的计量方式。

你说得对,什么是订阅?

到目前为止,人们喜欢订阅是因为他们可以为它们做预算。

它们本质上是对一些消费权利的授权,这些权利封装在订阅中。

所以我认为从某种意义上说这成为一个定价决策。

你有权获得多少消费量,如果你看所有的编码订阅,基本就是这样,对吧?

然后你有专业版、标准版等等。

所以我认为这就是定价和利润结构将如何分层。

有趣的是,在微软,对我们来说好消息是我们在所有这些计量方式的业务中都有涉足。

在投资组合层面,我们几乎拥有消费量计费、订阅以及所有其他消费者杠杆。

我认为时间会告诉我们这些模式中哪些在什么类别中有意义。

关于SaaS方面的一件事,既然你提到了,我想了很多。

以Office 365或Microsoft 365为例。

低ARPU(每用户平均收入)很好,因为有一件有趣的事。

在从服务器到云的转型期间,我们过去常问自己的一个问题是,"天哪,如果我们所做的只是将使用我们Office许可证和当时Office服务器的相同用户迁移到云端,而我们有COGS,这不仅会缩小我们的利润率,而且我们基本上会成为一家利润较低的公司。"

除了发生的情况是向云端的迁移疯狂地扩大了市场。

我们在印度卖了几台服务器,我们卖得不多。

而在云端,突然印度的每个人也能够按比例购买服务器,IT成本。

事实上,我没有意识到的最大的事情,例如,是人们花在SharePoint下购买存储的金额。

事实上,EMC最大的部门可能是SharePoint的存储服务器。

所有这些在云端都下降了,因为没有人必须去购买。

事实上,这是营运资金,意味着基本上是现金流出。

所以它大规模扩展了市场。

所以这个AI的事情也会是这样。

如果你看编码,我们用GitHub和VS Code花了几十年构建的东西,突然编码助手在一年内就达到了那么大的规模。

我认为这也是将要发生的事情,即市场大规模扩张。

Copilot

Dwarkesh Patel:

有一个问题是,市场会扩张,但涉及微软的那部分收入会扩张吗?Copilot就是一个例子。

如果你看今年早些时候,根据Dylan的数据,GitHub Copilot的收入大约是5亿美元左右,而且没有接近的竞争对手。

而现在你有了Claude Code、Cursor和Copilot,它们的收入都差不多,大约10亿美元。Codex正在赶上,大约7-8亿美元。

所以问题是,在微软能够触及的所有领域中,微软的Copilot同类产品有什么优势?

Satya Nadella:

顺便说一下,我喜欢这张图表。

我喜欢这张图表有很多原因。一个是我们仍然在顶部。

第二个是这里列出的所有这些公司都是在过去四五年里诞生的公司。

对我来说这是最好的迹象。你有新的竞争对手,新的生存问题。

当你说,现在是谁?Claude要干掉你,Cursor要干掉你,这不是Borland(一家老牌软件公司)。谢天谢地。这意味着我们的方向是对的。

就是这样。我们从无到有达到这个规模的事实就是市场扩张。

这就像云计算那样的东西。从根本上说,编码和AI这个类别可能会成为最大的类别之一。

这是软件工厂类别。事实上,它可能比知识工作还要大。我想对此保持开放的心态。我们将面临激烈的竞争。

这就是你的观点,这是一个很好的观点。但我很高兴我们把我们所拥有的转化成了这个,现在我们必须竞争。

在竞争方面,即使在我们刚刚结束的上个季度,我们做了季度公告,我认为我们从2000万增长到2600万订阅用户。

我对我们的订阅增长和发展方向感觉良好。但更有趣的事情是,猜猜所有这些其他人生成大量代码的所有代码库都去哪里了?

它们都去了GitHub。GitHub在代码库创建、PRs(拉取请求)等所有方面都处于历史最高水平。

从某种意义上说,我们想保持这种开放,顺便说一下。这意味着我们想要拥有那个。我们不想将其与我们自己的增长混为一谈。

有趣的是,我们每秒有一个开发者加入GitHub,我想这就是统计数据。

其中80%的人只是因为在那里就进入了某个GitHub Copilot工作流程。顺便说一下,这些东西中的许多甚至会使用我们的一些代码审查代理,它们默认是开启的,只是因为你可以使用它。

我们将有很多很多结构性的机会。我们还将做的事情,就像我们对Git所做的那样。

GitHub的核心元素,从Git开始,到Issues(问题追踪),到Actions(自动化工作流),这些都是强大而美好的东西,因为它们都是围绕你的代码库构建的。

我们想要扩展那个。上周在GitHub Universe上,这就是我们所做的。

我们说Agent HQ(智能体总部)是我们说要构建的概念性东西。

例如,在这里你有一个叫做Mission Control(任务控制中心)的东西。你去Mission Control,现在我可以启动。

有时我把它描述为所有这些AI代理的有线电视,因为我会把Codex、Claude、Cognition的东西、任何人的智能体、Grok,所有这些都打包到一个订阅中,它们都会在那里。

所以我得到一个套餐,然后我可以真正地发出一个任务并引导它们,所以它们都会在各自独立的分支中工作。我可以监控它们。我认为这将是创新最大的地方之一,因为现在我想能够使用多个智能体。

我想能够消化多个智能体的输出。

我想能够控制我的代码库。如果需要构建某种平视显示器,然后让我快速引导和分类编码代理生成的内容,对我来说,在VS Code、GitHub之间,以及所有这些我们将构建的新基础组件作为带有控制平面的Mission Control。

可观测性……想想每个要部署这一切的人。它将需要一整套关于哪个代理在什么时间对什么代码库做了什么的可观测性。我觉得这就是机会。

归根结底,你的观点是很有道理的,那就是我们最好有竞争力并进行创新。如果我们不这样做,我们就会被推翻。

但我喜欢这张图表,至少只要我们在顶部,即使有竞争。

Dylan Patel:

这里的关键点是,无论谁的编码代理获胜,GitHub都会持续增长。

但该市场的增长率只有10%、15%、20%,远高于GDP。这是一个很好的复合增长。但这些AI编码代理已经从去年年底大约5亿美元的年度运营收入——那时只有GitHub Copilot——

增长到现在,今年第四季度GitHub Copilot、Claude Code、Cursor、Cognition、Windsurf、Replit、OpenAI Codex的当前运营收入……现在的年度运营收入为50-60亿美元。

那是10倍。当你看软件代理的总可寻址市场(TAM)时,它是你付给人们的2万亿美元工资,还是超出了这个范围?

因为世界上的每家公司现在都能够开发更多软件?

毫无疑问,微软从中分得一杯羹。

但你已经从接近100%,或者肯定远高于50%,在短短一年内降到了低于25%的市场份额。

人们怎么能有信心微软会继续获胜?

Satya Nadella:

Dylan,这又回到了一点,就是这里没有天赋权利,我们应该有任何信心,除了说我们应该去创新。从某种意义上说,我们很幸运的是,这个类别将比我们拥有高份额的任何东西都要大得多。

让我这么说吧。你可以说我们在VS Code中有很高的份额,我们在GitHub的代码库中有很高的份额,那是一个好市场。

但关键是,即使在一个更加广阔的市场中拥有体面的份额……

你可以说我们在客户端-服务器计算中有很高的份额。我们在超大规模计算中的份额比那要低得多。

但它是一个大得多的业务吗?数量级上更大。所以至少这是存在证明,即使我们的份额地位不如以前那么强,微软也一直还不错,只要

我们竞争的市场正在创造更多价值。而且有多个赢家。这就是关键。但我接受你的观点,最终

这一切都意味着你必须具有竞争力。我每个季度都在关注这个。这就是为什么我对我们将用Agent HQ做什么非常乐观,将GitHub变成所有这些智能体聚集的地方。

正如我所说,我们在那里会有多次射门得分机会。它不需要是……这些人中的一些可以和我们一起成功,所以不一定非得只有一个赢家和一个订阅服务。

谁的利润率会增长最多?

Dwarkesh Patel:

我想关注这个问题的原因是,这不仅仅关于GitHub,而是从根本上关于Office以及微软提供的所有其他软件。

关于AI如何发展,你可以有一种愿景,就是模型将继续受到限制,你将一直需要这种直接可见的可观察性。

另一种愿景是,随着时间推移,这些现在执行需要两分钟任务的模型,在未来,它们将执行需要10分钟、30分钟的任务。

在未来,也许它们能自主完成相当于几天的工作量。然后模型公司可能会收取数千美元的费用来访问,实际上就是一个同事,它可以使用任何用户界面与人类交流并在平台之间迁移。

如果我们越来越接近那种情况,为什么不是那些变得越来越盈利的模型公司获得所有利润?

为什么随着AI变得更强大而变得越来越不相关的脚手架发生的地方,会如此重要?

这涉及到现在的Office与只是做知识工作的同事之间的关系。

Satya Nadella:

这是个很好的观点。所有价值是否都会迁移到模型那里?

还是会在脚手架和模型之间分配?

我认为时间会证明。

但我的基本观点也是,激励结构变得清晰了。

让我们以信息工作为例,或者甚至以编码为例。

实际上,我在GitHub Copilot中最喜欢的设置之一叫做auto,它会自动进行优化。

实际上我购买了订阅,auto(自动)模式会开始选择并优化我要求它做的事情。

它甚至可以完全自主。它可以在多个模型之间套利可用的token来完成任务。

如果你接受这个论点,那里的商品将是模型。

特别是有了开源模型,你可以选择一个检查点,你可以获取一批你的数据,然后你就能看到它。

我认为我们所有人都会开始看到一些内部模型,无论是来自Cursor还是微软。

然后你会把大部分任务卸载给它。

所以一个论点是,如果你赢得了脚手架——今天它正在处理所有的限制问题或这些智能问题的参差不齐,你必须这样做——如果你赢得了它,

那么你就会将自己垂直整合到模型中,仅仅因为你将拥有数据的流动性等等。

有足够多的检查点将会可用。这是另一件事。

从结构上讲,我认为世界上总会有一个相当强大的开源模型,然后你可以使用它,

只要你有可以与之一起使用的东西,即数据和脚手架。

我可以提出这样的论点:如果你是一家模型公司,你可能会有赢家的诅咒。

你可能做了所有艰苦的工作,做了令人难以置信的创新,除了它只需要复制一次就会被商品化。

然后拥有用于基础和上下文工程的数据以及数据流动性的人就可以获取那个检查点并训练它。

所以我认为这个论点可以从两方面来看。

Dylan Patel:

解读一下您说的话,这里有两种世界观。

一种是有这么多不同的模型存在。开源存在。模型之间会有差异,这将在一定程度上驱动谁赢谁输。

但“脚手架”才是使你获胜的关键。

另一种观点是,实际上,模型才是关键知识产权。

每个人都在激烈竞争,有点像"嘿,我可以使用Anthropic或OpenAI"。

你可以在收入图表中看到这一点。一旦OpenAI最终拥有了与Anthropic能力相似的代码模型,尽管方式不同,他们的收入就开始飙升。

有一种观点认为,模型公司是获得所有利润的公司。

因为如果你看今年,至少在Anthropic,他们推理的毛利率从远低于40%增长到年底的超过60%。

尽管有比以往更多的中国开源模型,那里的利润率还在扩大。

OpenAI有竞争力,Google有竞争力,X/Grok现在也有竞争力。

所有这些公司现在都有竞争力,然而尽管如此,模型层的利润率显著扩大了。

你如何看待这个问题?

Satya Nadella:

这是个很好的问题。也许几年前人们说,"哦,我可以只是包装一个模型并建立一家成功的公司。"

这可能已经被推翻了,仅仅因为模型能力和特别是使用的工具。

但有趣的是,当我看Office 365时,让我们以我们构建的这个小东西Excel Agent为例。

很有趣。Excel Agent不是一个UI层面的包装。

它实际上是一个位于中间层的模型。

在这种情况下,因为我们拥有GPT系列的所有知识产权,我们正在利用它并将其放入Office系统的核心中间层,教它理解Excel的含义,其中的一切。

这不仅仅是“嘿,我只有一个像素层面的理解。”

我对Excel的所有原生构件有完全的理解。

因为如果你想想,如果我要给它一些推理任务,我需要甚至修复我犯的推理错误。

这意味着我需要不仅仅看到像素,我需要能够看到"哦,我那个公式错了",我需要理解这一点。

在某种程度上,这一切都不是在UI包装层用某个提示词完成的,

而是在中间层通过教它Excel的所有工具来完成的。

我基本上是给它一个Markdown文档来教它成为一个高级Excel用户所需的技能。

这有点奇怪,它回到了AI大脑的概念。

你不仅仅在构建Excel,传统意义上的业务逻辑。

你正在采用传统意义上的Excel业务逻辑,并本质上为其包装一个认知层,

使用这个知道如何使用工具的模型。

从某种意义上说,Excel将带有一个捆绑的分析师和所有使用的工具。

这就是每个人都会构建的东西类型。

所以即使对于模型公司,他们也必须竞争。

如果他们定价高,猜猜会怎样,如果我是这样一个工具的构建者,我会替代你。

我可能会使用你一段时间。

所以只要有竞争……总有赢家通吃的情况。

如果有一个模型比其他所有模型都好得多,距离巨大,是的,那就是赢家通吃。

但只要有竞争,有多个模型,就像超大规模竞争,还有开源检查,就有足够的空间在模型之上构建价值。

在微软,我的看法是我们将从事超大规模业务,这将支持多个模型。

我们将在未来七年内访问OpenAI模型,我们将在此基础上创新。

本质上,我认为我们拥有一个前沿级别的模型,我们可以使用并在其上完全灵活地创新。

我们将用MAI(Microsoft AI)构建自己的模型。

所以我们将始终拥有模型层。

然后我们将构建——无论是在安全、知识工作、编码还是科学方面——我们自己的应用脚手架,这将是以模型为导向的。

它不会是模型上的包装器,而是模型将被包装到应用程序中。

Dwarkesh Patel:

关于您提到的其他事情,我有很多问题。

但在我们转到这些主题之前,我仍然想知道这是否不是对AI能力的前瞻性看法,你想象的模型就像今天存在的那样。

它截取你屏幕的屏幕截图,但它无法查看每个单元格内部以及公式是什么。

我认为这里更好的心理模型只是想象这些模型将能够像人类一样使用计算机。

一个使用Excel的人类知识工作者可以查看公式,可以使用替代软件,如果迁移是必要的,可以在Office 365和另一个软件之间迁移数据,等等。

Satya Nadella:

这就是我所说的意思。

Dwarkesh Patel:

但如果是这样,那么与Excel的集成就不那么重要了。

Satya Nadella:

不,不,别担心Excel集成。毕竟,Excel是作为分析师的工具而构建的。

很好。所以无论这个AI是谁,作为分析师都应该有他们可以使用的工具。

Dwarkesh Patel:

他们有计算机。

就像人类可以使用计算机一样。

这是他们的工具。

Satya Nadella:

工具就是计算机。

所以我所说的只是,我正在构建一个基本上作为AI代理的分析师,

它恰好带有如何使用所有这些分析工具的先验知识。

Dwarkesh Patel:

为了确保我们在谈论同一件事,这是像我这样使用Excel的人类的东西吗...

Satya Nadella:

不,它是完全自主的。

所以我们现在应该也许阐述我认为公司的未来是什么。

公司的未来将是工具业务,其中我有一台计算机,我使用Excel。

事实上,在未来我甚至会有一个Copilot,那个Copilot也会有智能体。

但仍然是我在引导一切,一切都反馈给我。

这是一种世界。

第二个世界是公司只是字面上为AI智能体提供计算资源,

那是完全自主工作的。

那个完全自主的智能体将基本上拥有一套对它可用的相同工具的具身化。

所以进来的这个AI工具也不仅仅有一台原始计算机,

因为使用工具完成工作将更具token效率。

事实上,我有点看着它说,我们的业务,

今天是最终用户工具业务,

将基本上成为支持代理工作的基础设施业务。

这是另一种思考方式。

事实上,我们在M365下构建的所有东西仍然会非常相关。

你需要某个地方来存储它,某个地方来做归档,某个地方来做发现,

某个地方来管理所有这些活动,即使你是AI代理。

这是一个新的基础设施。

Dwarkesh Patel:

为了确保我理解,你是说理论上一个具有实际计算机使用能力的未来AI——所有这些模型公司现在都在研究——可以使用,

即使它没有与微软合作或在我们的保护伞下,微软软件。

但你是说,如果你与我们的基础设施合作,我们将给他们更低级别的访问权限,使你能够更有效地做你本来可以做的同样的事情?

Satya Nadella:

100%。

发生的事情是我们有服务器,

然后有虚拟化,

然后我们有更多的服务器。

这是另一种思考方式。

不要把工具看作最终的东西。

人类使用的工具下的整个基础是什么?

整个基础也是AI代理的引导程序,

因为AI代理需要计算机。

事实上,我们看到大量增长的最迷人的事情之一是所有这些做这些Office工件等的人,作为自主代理等想要提供Windows 365。

他们真的想能够为这些代理提供计算机。

绝对的。

这就是为什么我们将拥有基本上最终用户计算基础设施业务,

这将持续增长,因为它将比用户数量增长得更快。

这是人们问我的另一个问题之一,"嘿,按用户业务会发生什么?"

至少早期迹象可能是,思考按用户业务的方式

不仅仅是按用户,而是按代理。

如果你说它是按用户和按代理,

关键是为每个代理提供什么?

一台计算机,围绕它的一套安全措施,围绕它的身份。

所有这些事情,可观察性等等,都是管理层。

这一切都将被纳入其中。

Dylan Patel:

框架的方式——至少是我目前思考它的方式,我想听听你的观点——是

这些模型公司都在构建环境来训练他们的模型使用Excel或亚马逊购物或无论是什么,预订航班。

但同时,他们也在训练这些模型进行迁移。

因为那可能是最直接有价值的事情:将基于大型机的系统转换为标准云系统,将Excel数据库转换为使用SQL的真实数据库,

或者将在Word和Excel中完成的工作转换为更程序化和

在经典意义上更高效的东西,也可以由人类完成。

只是软件开发人员这样做不划算。

这似乎是每个人在接下来几年至少要用AI做的事情,以大规模驱动价值。

如果模型可以利用工具本身迁移到某些东西,微软如何融入其中?

是的,微软在数据库、存储和所有这些其他类别中占据领导地位,

但Office生态系统的使用将显著减少,就像大型机生态系统的使用可能会减少一样。

现在大型机实际上在过去二十年里一直在增长,即使没有人再谈论它们了。

它们仍然在增长。

Satya Nadella:

100%,我同意。

Dylan Patel:

这个流程是怎样的?

Satya Nadella:

归根结底,将有相当长的时间会有一个混合世界,因为人们将使用工具,这些工具将与必须使用工具的代理一起工作,

他们必须相互沟通。

我生成的工件是什么,然后人类需要看到?

所有这些事情在任何地方都会是真正的考虑因素,输出、输入。

我不认为它只是关于"哦,我迁移了"。

底线是我必须生活在这个混合世界中。

但这并不能完全回答你的问题,因为可能会有一个真正的新的有效前沿,那里只是代理与代理一起工作并完全优化。

即使代理与代理一起工作,

需要什么原语?

你需要存储系统吗?

那个存储系统需要有电子发现吗?

你需要有可观察性吗?

你需要有一个将使用具有一个身份系统的多个模型的身份系统吗?

这些都是我们今天为Office系统等拥有的核心底层基础设施。

这也是我们未来将拥有的。

你谈到了数据库。

我是说,伙计,

我希望所有Excel都有数据库后端。

我希望所有这些立即发生。

那个数据库是一个好数据库。

数据库事实上将是一件会增长的大事。

如果我想到所有Office工件被更好地结构化,由于代理世界,在结构化和非结构化之间进行连接的能力会更好,这将增长

底层基础设施业务。

碰巧的是,这一切的消费都是由代理驱动的。

你可以说所有这些都只是模型公司即时生成的软件。

这也可能是真的。

我们也将是这样一家模型公司。

我们将构建...竞争可能是我们将构建一个模型加上所有基础设施并提供它,然后那些能够做到这一点的人之间会有竞争。

MAI(微软AI)

Dwarkesh Patel:

说到模型公司,你说你不仅将拥有基础设施,还将拥有模型本身。

现在,微软AI最近发布的模型是两个月前发布的,在聊天机器人竞技场排名第36。

你显然拥有OpenAI的知识产权。在你同意这一点的前提下,它似乎落后了。

为什么会这样,特别是考虑到你理论上有权分叉OpenAI的单一代码库(monorepo)或蒸馏他们的模型,尤其是如果拥有领先的模型公司是你战略的重要组成部分?

Satya Nadella:

首先,我们绝对会在我们所有产品中最大限度地使用OpenAI模型。

这是我们将在未来七年一直继续做的核心事情,不仅仅是使用它,而且要为它增加价值。

这就是分析师和这个Excel代理的所在,这些都是我们将要做的事情,我们将进行强化学习微调。

我们将在GPT家族的基础上进行一些中期训练运行,在那里我们拥有独特的数据资产并建立能力。

对于MAI模型,我认为我们思考它的方式是,这个新协议的好消息是我们可以非常非常清楚地表明,我们将建立一个世界级的超级智能团队,并以高度的雄心追求它。

但与此同时,我们也将利用这段时间明智地思考如何同时使用这两件事。

这意味着我们将在一端非常专注于产品,在另一端非常专注于研究。

因为我们可以访问GPT家族,我最不想做的就是以一种只是重复而没有增加太多价值的方式使用我的算力。

我希望能够使用我们用来生成GPT家族的算力并最大化其价值,而我的MAI算力被用于...让我们以我们推出的图像模型为例,我认为它在图像竞技场排名第九。

我们使用它进行成本优化,它在Copilot中,在Bing中,我们将使用它。

我们在Copilot中有一个音频模型。

它有个性等等。我们针对我们的产品进行了优化。

所以我们会做这些。即使在LMArena上,我们从文本开始,它首次亮相时排名大约第13。

顺便说一下,它只在大约15,000个H100上完成。

这是一个非常小的模型。

所以这又是为了证明核心能力、指令遵循和其他一切。

我们想确保我们能够匹配当时的最先进水平。

这向我们展示了,鉴于缩放定律,如果我们给它更多算力,我们能够做什么。

我们接下来要做的是一个全能模型,我们将结合我们在音频、图像和文本方面所做的工作。

这将是MAI方面的下一个里程碑。

所以当我考虑MAI路线图时,我们将建立一个一流的超级智能团队。

我们将继续发布,并以开放的方式发布其中一些模型。

它们要么会在我们的产品中使用,因为它们将对延迟友好、对成本友好或其他什么,要么它们将具有某些特殊能力。

我们将进行真正的研究,以便为通往超级智能之路所需的接下来的五、六、七、八个突破做好准备——同时利用我们拥有GPT家族的优势,我们可以在其基础上进行工作。

Dylan Patel:

假设我们快进七年,你不再能访问OpenAI模型。

微软会做什么来确保他们处于领先地位,或者拥有一个领先的AI实验室?

今天,OpenAI已经开发了许多突破,无论是缩放还是推理。

或者谷歌开发了所有的突破,比如transformer。

但这也是一场巨大的人才游戏。

你看到Meta在人才上花费超过200亿美元。

你看到Anthropic去年从谷歌挖走了整个Blueshift推理团队。

你看到Meta最近从谷歌挖走了一个大型推理和后训练团队。

这些人才战争需要大量资本。

可以说,如果你在基础设施上花费1000亿美元,你也应该在使用基础设施的人身上花费X金额,以便他们能更有效地实现这些新突破。

人们如何相信微软将拥有一个世界级的团队来实现这些突破?

一旦你决定打开资金水龙头——你现在在资本效率方面做得很好,看起来很明智,不浪费钱做重复工作——但一旦你决定需要这样做,人们如何能说,“哦是的,现在你们可以冲到前五名模型了”?

Satya Nadella:

归根结底,我们将建立一个世界级的团队,我们已经有一个正在组建的世界级团队。

我们有Mustafa加入,我们有Karen。

我们有Amar Subramanya,他在Gemini 2.5做了很多后训练工作,他现在在微软。

Nando,他在DeepMind做了很多多媒体工作,也在那里。

我们将建立一个世界级的团队。

事实上,就在本周晚些时候,Mustafa将发布一些东西,更清楚地说明我们的实验室将要做什么。

我想让世界知道的是,也许,我们将建设支持多个模型的基础设施。

因为从超大规模的角度来看,我们想建立最具规模的基础设施舰队,能够支持世界所需的所有模型,无论是来自开源还是显然来自OpenAI和其他公司。

这是一项工作。

其次,在我们自己的模型能力方面,我们绝对会在我们的产品中使用OpenAI模型,我们将开始构建自己的模型。

我们甚至可能——就像在GitHub Copilot中使用Anthropic一样——在我们的产品中包含其他前沿模型。

我认为这就是每次...归根结底,产品在满足特定任务或工作时的评估才是最重要的。

我们将从那里开始回溯到所需的垂直整合,知道只要你用产品很好地服务市场,你总是可以优化成本。

Dwarkesh Patel:

有一个未来的问题。

现在,我们有的模型在训练和推理之间有这种区别。

有人可能会说,不同模型之间的差异越来越小。

展望未来,如果你真的期待类似人类水平的智能,人类会在工作中学习。

如果你想想你过去30年,是什么让Satya的token如此有价值?

是你在微软获得的过去30年的智慧和经验。

我们最终会有模型,如果它们达到人类水平,将具有这种在工作中持续学习的能力。

这将为领先的模型公司带来如此多的价值,至少在我看来是这样,因为你有一个模型的副本广泛部署在整个经济中,学习如何做每一项工作。

与人类不同,它们可以将学习汇总到该模型中。

所以有这种持续学习的指数反馈循环,几乎看起来像某种智能爆炸。

如果这种情况发生,而微软到那时还不是领先的模型公司...

你说我们用一个模型替换另一个模型,等等。

那时这不就不那么重要了吗?

因为就好像有一个模型知道如何做经济中的每一项工作,而其他的长尾模型则不知道。

Satya Nadella:

你的观点是,如果只有一个模型是世界上部署最广泛的唯一模型,它看到所有数据并进行持续学习,那就是比赛结束,你停止营业。

至少我看到的现实是,在当今世界,尽管任何一个模型占主导地位,但情况并非如此。

以编码为例,有多个模型。

事实上,每天这种情况都在减少。

没有一个模型被广泛部署。

有多个模型正在部署。

这就像数据库。

总是有这样的事情,"一个数据库可以成为到处使用的唯一数据库吗?"除了事实并非如此。

有多种类型的数据库正在针对不同用例部署。

我认为任何一个模型都会有持续学习的一些网络效应——我称之为数据流动性。

它会在所有领域发生吗?我不这么认为。

它会在所有地理位置发生吗?我不这么认为。

它会在所有细分市场发生吗?我不这么认为。

它会同时在所有类别中发生吗?我不这么认为。

因此,我觉得设计空间如此之大,有很多机会。

但你的基本观点是在基础设施层、模型层和脚手架层具有能力,然后能够不仅将这些东西组合成垂直堆栈,而且能够根据其目的组合每件事。

你不能构建针对一个模型优化的基础设施。

如果你这样做,如果你落后了怎么办?

事实上,你建造的所有基础设施都将是一种浪费。

你需要构建能够支持多个家族和模型谱系的基础设施。

否则,你投入的资本针对一种模型架构进行了优化,这意味着你距离某个突破只有一步之遥,比如发生某种MoE类的突破,你的整个网络拓扑就会失效。

这是一件可怕的事情。

因此,你需要基础设施来支持你自己的模型家族和其他模型家族中可能出现的任何东西。

你必须保持开放。

如果你认真对待超大规模业务,你必须认真对待这一点。

如果你认真对待成为一家模型公司,你基本上必须说,"人们可以在模型之上做事情的方式有哪些,以便我可以拥有一个ISV生态系统?"

除非我认为我将拥有每个类别,否则这不可能。

那么你就不会有API业务,根据定义,这将意味着你永远不会成为一个成功部署在各处的平台公司。

因此,行业结构是这样的,它将真正迫使人们专业化。

在这种专业化中,像微软这样的公司应该凭借其优点在每一层竞争,但不要认为这完全是关于通往比赛结束的道路,我只是垂直地组合所有这些层。

那种事是不会发生的。

超大规模云业务

Dylan Patel:

所以去年微软走在成为目前为止最大基础设施提供商的道路上。

你们在2023年是最早的,所以你们走出去,获取了所有资源——租赁数据中心、开始建设、确保电力供应,所有一切。

你们当时有望在2026年或2027年击败亚马逊。

当然到2028年你们肯定会击败他们。

从那以后,可以说,在去年下半年,微软进行了一次大暂停,他们放弃了一堆原本要租的场地,然后谷歌、Meta、亚马逊在某些情况下,还有甲骨文,拿下了这些场地。

我们现在坐在世界上最大的数据中心之一,所以显然这不是全部,你们仍在疯狂扩张。

但有些场地你们就是停止了开发。

你们为什么这么做?

Satya Nadella:

这要回到一点,超大规模云业务到底是什么?

我们做出的一个关键决定是,如果我们要把Azure建设得对AI的所有阶段都很出色——从训练到中期训练到数据生成到推理——我们只需要机群的可替换性。

所以整件事基本上导致我们不去建设大量特定几代的容量。

因为你必须意识到的另一件事是,到目前为止每18个月将各种OpenAI模型的训练容量扩大10倍,我们意识到关键是保持在那条道路上。

但更重要的是要有平衡,不仅仅是训练,而是能够在世界各地为这些模型提供服务。

因为归根结底,变现率将使我们能够继续提供资金。

然后基础设施需要我们支持多个模型。

所以一旦我们说这是实际情况,我们就调整了方向到我们现在的道路上。

如果我看我们现在的道路,我们现在启动了更多项目。

我们也在尽可能多地购买托管容量,无论是建设、租赁,甚至是GPU即服务。

但我们是根据我们看到的需求、服务需求和训练需求来建设的。

我们不想只是成为一家公司的托管商,只有一个客户的大量业务。

那不是一项业务,你应该与那家公司垂直整合。

鉴于OpenAI将成为一家成功的独立公司,这很棒。这说得通。甚至Meta可能使用第三方容量,但最终他们都将是第一方的。

对于任何有大规模的人来说,他们将自己成为超大规模提供商。

对我来说,就是要建立一个超大规模机群和我们自己的研究计算。

这就是调整的内容。所以我感觉非常非常好。

顺便说一下,另一件事是我不想被一代的大规模困住。

我们刚看到GB200,GB300即将到来。

等我到Vera Rubin、Vera Rubin Ultra时,数据中心将看起来非常不同,因为每机架功率、每行功率将会如此不同。

冷却要求将会如此不同。

这意味着我不想只是去建设大量千兆瓦,而这些只用于一代、一个系列。

所以我认为节奏很重要,可替换性和位置很重要,工作负载多样性很重要,客户多样性很重要,这就是我们正在建设的目标。

我们学到的另一件事是,每个AI工作负载不仅需要AI加速器,还需要很多其他东西。

实际上,我们的很多利润结构将在那些其他东西中。

因此,我们希望将Azure建设得对长尾工作负载非常出色,因为那是超大规模业务,同时知道我们必须在裸机上具有超强竞争力,用于最高端的训练。

但这不能挤占其余业务,因为我们不是只做五份合同、为五个客户提供裸机服务的业务。那不是微软的业务。

那可能是其他人的业务,那是好事。

我们说的是我们从事超大规模业务,归根结底这是AI工作负载的长尾业务。

为了做到这一点,我们将拥有一些领先的裸机即服务能力,用于一组模型,包括我们自己的。

我认为,这就是你看到的平衡。

Dylan Patel:

围绕整个可替换性话题的另一个问题。

好的,它不在你想要的地方,你宁愿它在一个好的人口中心,比如亚特兰大。我们在这里。还有一个问题是,随着AI任务范围的扩大,这有多重要?

一个推理提示30秒,或深度研究30分钟,或者在某个时候软件代理需要几个小时,几天等等,人机交互的时间。

它在位置A、B或C有什么关系吗?

Satya Nadella:

这是个很好的问题。就是这样。事实上,这也是我们想要思考Azure区域看起来像什么以及Azure区域之间的网络是什么的另一个原因。

这是我认为随着模型能力的发展和这些令牌使用的演变,无论是同步还是异步,你都不想处于不利位置。

然后在此基础上,顺便说一下,数据驻留法律是什么?

有整个欧盟的事情,我们实际上必须创建一个欧盟数据边界。

这基本上意味着你不能只是往返呼叫到任何地方,即使是异步的。

因此你需要有可能是高密度的区域性的东西,然后是电力成本等等。

但你百分之百正确地提出,我们建设的拓扑结构将必须演变。

第一,每美元每瓦的令牌。经济性如何?

将其与使用模式叠加,使用模式是什么?

使用模式在同步、异步方面。但也包括计算存储是什么?

因为延迟可能对某些事情很重要。存储最好在那里。如果我有一个Cosmos DB接近这个用于会话数据或甚至用于自主的东西,那么那也必须在它附近的某个地方,等等。

所有这些考虑因素将塑造超大规模云业务。

Dylan Patel:

在暂停之前,我们对你的预测,到2028年你将达到12-13千兆瓦。

现在我们在9.5左右。

但更相关的事情——我只是想让你更具体地说明这是你不想从事的业务——是甲骨文将从你规模的五分之一增长到2027年底比你更大。

虽然这不是微软级别的投资资本回报质量,但他们仍然获得35%的毛利率。

所以问题是,也许从事这个不是微软的业务,但你现在通过拒绝这项业务、放弃优先购买权等,创造了一个超大规模云提供商。

Satya Nadella:

首先,我不想贬低甲骨文在建设他们的业务方面取得的成功,我祝他们好运。

我认为我为你回答的事情是,对我们来说,去成为一家模型公司的托管商,时间范围有限的RPO是没有意义的。

就这么说吧。

你必须考虑的事情不是你在未来五年做什么,而是你在未来50年做什么。

我们做出了我们的一系列决定。

我对我们的OpenAI合作伙伴关系和我们正在做的事情感觉非常好。

我们有一本不错的业务账簿。我们祝他们成功。

事实上,我们是甲骨文容量的购买者。我们祝他们成功。

但在这一点上,我认为我们试图做的事情的产业逻辑是非常清楚的,那就是不是关于追逐...首先,顺便说一下,我跟踪你的那些东西,无论是AWS还是谷歌和我们的,我认为这非常有用。

但这并不意味着我必须追逐那些。

我必须追逐的不仅仅是它们在一段时间内可能代表的毛利率。

这本业务账簿是什么,微软可以独特地去清理,对我们来说清理是有意义的?这就是我们要做的。

Dwarkesh Patel:

我有一个问题,甚至从这个角度退一步,我接受你的观点,如果其他条件相同,从长尾客户那里获得更高利润比为几个实验室提供裸机服务是更好的业务。

但接下来有一个问题,行业正在朝哪个方向发展?

如果我们相信我们正走在通往越来越智能的AI的道路上,那么为什么行业的形态不是OpenAI、Anthropic和DeepMind是平台,长尾企业实际上在其上开展业务?

它们需要裸机,但它们是平台。

直接使用Azure的长尾是什么?

因为你想使用通用认知核心。

Satya Nadella:

但这些模型都将在Azure上可用,所以任何说"嘿,我想使用一些开源模型和一个OpenAI模型"的工作负载,如果你今天去Azure Foundry,你有所有这些模型可以配置,购买PTU,获得Cosmos DB,获得SQL DB,获得一些存储,获得一些计算。

这就是真正的工作负载看起来的样子。

真正的工作负载不仅仅是对模型的API调用。

真正的工作负载需要所有这些东西来构建应用程序或实例化应用程序。

事实上,模型公司需要那个来构建任何东西。

这不只是像"我有一个令牌工厂"。

我必须拥有所有这些东西。

这就是超大规模业务。而且不是在任何一个模型上,而是所有这些模型。

所以如果你想要Grok加上,比如说,OpenAI加上一个开源模型,来Azure Foundry,配置它们,构建你的应用程序。

这里有一个数据库。这就是业务的样子。

有一个单独的业务叫做只向模型公司销售原始裸机服务。

这就是关于你想从事多少这项业务、不从事多少以及那是什么的争论。

这是业务的一个非常不同的细分市场,我们在其中,我们也有限制,限制它将挤占其余业务的多少。

但这至少是我看待它的方式。

Dylan Patel:

这里有两个问题。一个是,为什么你不能两者都做?

另一个是,根据我们对你2028年容量的估计,它低了3.5千兆瓦。

当然,你本可以将其专用于OpenAI训练和推理容量,但你也本可以将其专用于实际运行Azure、运行Microsoft 365、运行GitHub Copilot。

我本可以只是建造它而不把它给OpenAI。

Satya Nadella:

或者我可能想在不同的位置建造它。

我可能想在阿联酋建造它,我可能想在印度建造它,我可能想在欧洲建造它。

其中一件事是,正如我所说,我们现在真正面临容量限制的地方,考虑到监管需求和数据主权需求,我们必须在世界各地建设。

首先,美国本土容量非常重要,我们想建设一切。

但当我展望2030年时,我对微软按第一方和第三方划分的业务形态有一个全球性的看法。

第三方按前沿实验室细分,他们想要多少,以及我们想为多个模型建立的推理容量,以及我们自己的研究计算需求。

这一切都进入了我的计算。

你正确地指出了暂停,但暂停不是因为我们说"天哪,我们不想建造那个"。

我们意识到我们想要建造的东西在工作负载类型、地理类型和时间上都略有不同。

我们将继续增加我们的千兆瓦,问题是以什么速度和在什么位置。

我如何利用摩尔定律,也就是说,我真的想在2027年过度建设3.5千兆瓦,还是想在2027-28年分散这些,知道甚至...我们与英伟达的最大经验教训之一是他们在迁移方面的速度加快了。

这是一个重要因素。我不想在一代上被困四五年的折旧。

事实上,Jensen给我的建议是两件事。

一是,以光速执行。

这就是为什么在这个亚特兰大数据中心的执行...

我的意思是,从我们得到它到交接给真正的工作负载之间是90天。

那是真正的光速执行。

我想在那方面做好。

然后这样我就在扩展中建设每一代。

然后每五年,你有更平衡的东西。

所以它实际上变成了像这样大规模工业运营的流动,你突然不再失衡,你在一次建设了很多,然后你休息很长时间,因为你被所有这些困住了,到你的观点,在一个位置,这可能对训练很好,或者可能对推理不好,因为我无法服务,即使这都是异步的,因为欧洲不会让我往返德克萨斯。

所以这些都是需要考虑的事情。

Dylan Patel:

我如何将这个声明与你在过去几周所做的事情相协调?

你宣布了与Iris Energy、Nebius和Lambda Labs的交易,还有一些即将到来的。

你在那里获取容量,你从“新云”(neoclouds)那里租用容量,而不是自己建造的。

Satya Nadella:

对我们来说没问题,因为现在当你对需求有了明确的了解,可以在人们正在建设的地方提供服务,这很好。

事实上,我们会租赁,我们会定制建设,我们甚至会采用GPU即服务,在我们没有容量但我们需要容量而其他人有容量的地方。

顺便说一下,我甚至会欢迎每个新兴云只是成为我们市场的一部分。

因为你猜怎么着?如果他们把他们的容量带到我们的市场,通过Azure来的客户将使用新兴云,这对他们来说是一个巨大的胜利,并且将使用Azure的计算、存储、数据库和所有其他东西。

所以我根本不认为这是"嘿,我应该把所有那些都自己吞下"。

自研芯片与OpenAI合作

Dwarkesh Patel:

您提到这种贬值资产,在五六年内,占了数据中心总拥有成本(TCO)的75%。而黄仁勋(Jensen)在这上面拿了75%的利润。所以所有超大规模云服务商都在尝试开发自己的加速器,以便他们可以减少这项压倒性的设备成本,从而提高他们的利润率。

Dylan Patel:

当你看看他们现在所处的位置,谷歌遥遥领先于其他所有人。他们做这个已经最久了。

他们将生产大约五百万到七百万片自己的TPU芯片。

你再看亚马逊,他们试图生产三百万到五百万片(终身出货量)。

但当我们看微软订购的自研芯片数量时,它远低于那个数字。

你们的项目也已经有同样长的时间了。你们的内部芯片项目到底怎么了?

Satya Nadella:

这是个好问题。有几点。

第一,任何新加速器的最大竞争对手,甚至可以说是英伟达的上一代产品。

在一个集群中,我要看的是整体的总拥有成本(TCO)。

我设定的标准,即使对我们自己的产品……顺便说一句,我刚看了Maia 200的数据,看起来很棒,但我们在计算方面学到的一件事是……

我们曾经有很多英特尔的芯片,然后我们引入了AMD,然后我们引入了Cobalt(微软自研CPU)。

我们就是这样扩展的。我们至少在核心计算领域有很好的成功先例,证明了如何构建自己的芯片,然后管理一个三者并存、保持某种平衡的集群。

因为顺便说一句,即使是谷歌也在买英伟达,亚马逊也是。

这很合理,因为英伟达在创新,而且它是通用产品。

所有模型都在上面运行,客户需求也在那里。

因为如果你构建自己的垂直产品,你最好有自己的模型,它要么用它来训练,要么用它来推理,你必须为它创造自己的需求,或者补贴它的需求。

因此,你要确保你适当地扩展它。

我们要做的方式是在我们自己的MAI模型和我们的芯片之间建立一个闭环,因为我觉得这给了你做自己芯片的“天赋人权”,你真的根据你正在做的事情设计了微架构,然后你与自己的模型保持同步。

在我们的案例中,好消息是OpenAI有一个项目,我们可以访问。

因此,认为微软不会有某种东西——

Dylan Patel:

你们对那个项目有多大程度的访问权限?

Satya Nadella:

全部。

Dylan Patel:

你们直接获得了所有的知识产权?所以你们唯一没有的知识产权是消费级硬件?

Satya Nadella:

就是这样。

Dylan Patel:

哦,好的。有意思。

Satya Nadella:

顺便说一句,我们也给了他们一堆知识产权来帮助他们起步。这是他们……的原因之一。因为我们一起建造了所有这些超级计算机。

我们为他们建造了它,他们也理所当然地从中受益。

现在当他们创新时,即使是在系统层面,我们也能获得所有这些。

我们首先想为他们实例化他们构建的东西,但然后我们会扩展它。

所以,如果说有什么的话,我思考你问题的方式是,微软希望成为一个出色的,我称之为,光速执行的英伟达合作伙伴。

因为坦白说,那个集群就是生命本身。

显然,黄仁勋的利润率做得非常好,但总拥有成本(TCO)有很多维度,我想在那个TCO上做得很好。

在此之上,我希望能够真正与OpenAI谱系和MAI谱系以及系统设计合作,因为我们知道我们两端都有知识产权。

Dwarkesh Patel:

说到权利,您几天前接受采访时说,在你们与OpenAI签订的新协议中,你们拥有OpenAI进行的无状态API调用的独家权利。

我们有点困惑,如果存在任何状态的话。

您刚才提到,所有这些即将到来的复杂工作负载都需要内存、数据库和存储等等。

如果ChatGPT在会话中存储东西,那现在这不就不是无状态了吗?

Satya Nadella:

这就是原因所在。我们做出的战略决定,也是为了适应OpenAI为采购计算资源所需的灵活性……

基本上,可以把OpenAI看作同时拥有PaaS(平台即服务)业务和SaaS(软件即服务)业务。

SaaS业务是ChatGPT。

他们的PaaS业务是他们的API。那个API是Azure独占的。

SaaS业务,他们可以在任何地方运行。

Dylan Patel:

他们可以和任何他们想合作的人一起构建SaaS产品吗?

Satya Nadella:

如果他们想找个合作伙伴,而那个合作伙伴想使用无状态API,那么Azure就是他们可以获得无状态API的地方。

Dylan Patel:

听起来他们好像有办法一起构建产品,而且是一个有状态的东西……

Satya Nadella:

不,即使是那样,他们也必须来Azure。再次强调,这是本着“我们作为合作伙伴关系的一部分,我们看重的是什么”的精神来做的。

我们确保了,在给予OpenAI所需的所有灵活性的同时,我们也是他们的好伙伴。

Dylan Patel:

所以举个例子,Salesforce想要集成OpenAI。它不是通过API。

他们实际上一起合作,一起训练一个模型,然后部署在,比如说,现在的亚马逊上。

这是允许的,还是他们必须使用你们的……

Satya Nadella:

对于任何像那样的定制协议,他们都必须来Azure上运行……

我们做了一些少数的例外,比如美国政府等等,但除此之外,他们都必须来Azure。

资本支出的爆炸式增长

Dwarkesh Patel:

退一步说,当我们来回穿梭于这个工厂时,

您谈到的一件事是,微软,你可以把它看作一个软件业务,但现在它真的正在变成一个工业业务。

有所有这些资本支出,所有这些建设。

如果你只看过去两年,你们的资本支出差不多翻了三倍。

也许你把这个趋势向前推演,它实际上就变成了一个巨大的工业爆炸。

Dylan Patel:

其他超大规模云服务商正在贷款。Meta在路易斯安那州贷了200亿美元。

他们还做了公司贷款。

似乎很明显,每个人的自由现金流都将归零,我相信如果你敢这么做,艾米(微软CFO)会狠狠教训你的,但到底发生了什么?

Satya Nadella:

我认为你提到的结构性变化是巨大的。

我把它描述为我们现在既是一个资本密集型业务,也是一个知识密集型业务。

事实上,我们必须用我们的知识来提高资本支出的投资回报率(ROIC)。

硬件厂商在营销摩尔定律方面做得非常出色,我认为这令人难以置信,而且很棒。

但如果你看看我在财报电话会议上提到的一些统计数据,对于一个给定的GPT家族,我们在每美元每瓦特的token吞吐量方面的软件改进,无论是季度环比还是同比,都是巨大的。

在某些情况下可能是5倍、10倍,甚至40倍,仅仅是因为你如何进行优化。

这就是知识密集度带来的资本效率。

在某种程度上,这是我们必须掌握的。

有人问我,传统的托管商和超大规模云服务商有什么区别?是软件。

是的,它是资本密集型的,但只要你有系统知识、软件能力来按工作负载、按集群进行优化……

这就是为什么我们说可替代性时,里面有那么多的软件。

这不仅仅是关于集群本身。

这是驱逐一个工作负载然后调度另一个工作负载的能力。

我能管理好那个调度算法吗?这就是我们必须做到世界级的那种东西。

所以是的,我认为我们仍将是一家软件公司,但是,这是一种不同的业务,我们将去管理它。

归根结底,微软拥有的现金流使我们能够让这两只手臂都火力全开。

Dwarkesh Patel:

看起来在短期内,您更相信事情需要时间,会更加坎坷。

但也许从长远来看,您认为那些谈论AGI和ASI(超级智能)的人是正确的。

萨姆(奥特曼)最终会是对的。

我有一个更广泛的问题,关于一个超大规模云服务商做什么才是合理的,考虑到你们必须大规模投资于这种五年内就会贬值的东西。

所以,如果你对萨姆那种人预期在三年内发生的事情有2040年的时间表,那么在那个世界里,你做什么才是合理的?

Satya Nadella:

需要有一部分资源分配给,我称之为,研究计算。

这需要像你做研发一样来做。坦白说,这甚至是最好的会计处理方式。

我们应该把它看作就是研发费用,你应该说,“研究计算的规模是多少,你想如何扩展它?”

我们甚至可以说它在某个时期内有一个数量级的扩展。选择你的时间,是两年?是16个月?随便什么。

这是一部分,这是基本投入,是研发费用。

其余的都由需求驱动。最终,你被允许在需求之前进行建设,但你最好有一个不会完全偏离轨道的需求计划。

Dwarkesh Patel:

您相信吗……这些实验室现在预测在2027-28年收入将达到1000亿美元,他们预测收入将继续以每年3倍、2倍的速度增长……

Satya Nadella:

在市场上,现在有各种各样的激励,而且理应如此。

你期望一个正在试图筹集资金的独立实验室做什么?

他们必须公布一些数字,这样他们才能真正筹集到资金,以便支付他们的计算费用等等。

这是一件好事。总会有人去冒一些风险并投入其中,而且他们已经显示出了吸引力。

这不像是在没有看到他们表现出色的情况下就承担所有风险,无论是OpenAI,还是Anthropic。

所以我对他们所做的一切感觉很棒,而且我们和这些家伙有大量的业务往来。所以这一切都很好。

但总的来说,最终有两件简单的事情。

一是你必须为研发分配资源。你提到了人才。

AI人才是有溢价的。你必须在那里花钱。你必须在计算上花钱。

所以在某种意义上,研究员与GPU的比率必须很高。

这就是在这个世界上成为一个领先的研发公司所需要的。

这需要扩展,而且你必须有一个资产负债表,让你能够在它成为普遍共识之前很久就扩展它。

这是一件事。但另一件则完全是关于如何进行预测。

世界会信任美国公司来领导AI吗?

Dylan Patel:

纵观全球,美国主导了许多技术栈。

美国通过微软拥有Windows,它甚至部署在中国,是主要的操作系统。

当然,有开源的Linux,但Windows在中国的个人电脑上无处不在。

你再看Word,它也无处不在。

你看看所有这些各种各样的技术,它们都部署在世界各地。

微软和其他公司也在其他地方发展。

他们在欧洲、印度和所有这些其他地方,在东南亚、拉美和非洲建设数据中心。

在所有这些不同的地方,你们都在建设容量。

但这似乎非常不同。

今天,技术的政治层面,计算的政治层面……美国政府并不关心互联网泡沫。

但似乎美国政府,以及世界上所有其他政府,都非常关心AI。

问题是,我们有点处于一个两极世界,至少是美国和中国,但欧洲、印度和所有其他国家都在说,“不,我们也要有主权AI。”

微软如何驾驭与90年代的不同——那时世界上只有一个重要的国家,那就是美国,我们的公司向世界各地销售产品,因此微软获得了巨大的利益——到一个两极化的世界?

在这个世界里,微软不能理所当然地拥有赢得整个欧洲、印度或新加坡的权利。

实际上存在着主权AI的努力。您的思考过程是怎样的,您如何看待这个问题?

Satya Nadella:

这是一个极其关键的部分。

我认为,美国科技行业和美国政府的关键、关键优先事项是确保我们不仅做出领先的创新工作,而且我们还要共同在世界范围内建立对我们技术栈的信任。

因为我总是说,美国是一个令人难以置信的地方。

它在历史上是独一无二的。

它拥有世界4%的人口,25%的GDP,和50%的市值。

我认为你应该思考一下这些比例并反思它。

那50%的市值之所以存在,坦白说,是因为世界对美国的信任,无论是对其资本市场,还是对其技术,以及其在任何特定时期对领先行业的管理。

如果这种信任被打破,那对美国来说就不是好日子。

我们从这一点出发,我认为特朗普总统、白宫、大卫·萨克斯(David Sacks),每个人,我真的认为,都明白这一点。

因此,我赞赏美国政府和科技行业共同做的任何事情,例如,作为一个行业集体,将我们自己的资本投向世界各地去冒险。

我希望美国政府能够为美国公司在世界各地的外国直接投资邀功。

这是最少被谈论,但却是美国应该做的最好的营销,那就是,不仅仅是所有外国直接投资都流向美国,而是最领先的行业,也就是这些AI工厂,正在世界各地被创建。

被谁创建?被美国和美国公司。

所以你从那里开始,然后你甚至可以围绕它建立其他协议,这些协议关乎它们的连续性,它们合法的、关于数据驻留等主权关切,让他们在隐私等方面拥有真正的自主权和保障。

事实上,我们对欧洲的承诺值得一读。

我们对欧洲做出了一系列承诺,关于我们将如何管理我们在那里的超大规模投资,以使欧盟和欧洲国家拥有主权。

我们还在法国和德国建设主权云。

我们有一个叫做“Azure主权服务”的东西,它实际上为人们提供了密钥管理服务以及机密计算,包括GPU中的机密计算,我们在这方面与英伟达做了很棒的创新工作。

所以我对能够通过技术和政策,建立对美国技术栈的这种信任感觉非常好。

Dwarkesh Patel:

您如何看待随着模型层面出现持续学习和网络效应,事情会如何发展?

也许在超大规模云服务商层面也有类似的东西。

您是期望各国会说,“看,很明显一个或几个模型是最好的,所以我们将使用它们,但我们会制定一些法律,规定权重必须托管在我们的国家”?

还是您期望会有这样一种推动,即它必须是在我们国家训练的模型?

也许一个类比是,半导体对经济非常重要,人们希望拥有自己的主权半导体,但台积电就是更好。

而且半导体对经济如此重要,以至于你就是会去台湾购买半导体。

你必须这样做。AI会是这样吗?

Satya Nadella:

归根结底,重要的是在他们的经济中使用AI来创造经济价值。

这就是扩散理论,最终,重要的不是领先的行业,而是利用领先技术来创造自己比较优势的能力。

所以我认为这将从根本上成为核心驱动力。

但话虽如此,他们会希望这种能力具有连续性。

所以在某种意义上,我相信,这就是为什么总会有一种制衡力量来对抗“嘿,这个模型能拥有所有失控的部署吗?”这就是为什么开源将永远存在。

根据定义,将会有多个模型。

这将是一种方式。

这是人们要求连续性、避免集中风险的另一种方式,换句话说就是这样。

所以你说,“嘿,我想要多个模型,然后我想要一个开源的。”

我觉得只要有这些,每个国家都会觉得,“好吧,我不用担心部署最好的模型并广泛扩散,因为我总能把我自己的数据和流动性转移到另一个模型上,无论是开源的,还是来自另一个国家的,等等。”

集中风险和主权——也就是真正的自主权——这两件事将驱动市场结构。

Dylan Patel:

关于这一点,半导体领域并不存在这种情况。所有的冰箱、汽车都使用台湾制造的芯片。

Satya Nadella:

直到现在才不存在。

Dylan Patel:

即便如此,如果台湾被切断,就不会再有汽车或冰箱了。

台积电亚利桑那工厂也无法替代任何真正比例的产量。

这种主权,如果你愿意这么说的话,有点像个骗局。拥有它是值得的,拥有它很重要,但它不是真正的主权。我们是一个全球经济体。

Satya Nadella:

我认为这有点像在说,“嘿,到目前为止,我们对于韧性意味着什么以及需要做什么一无所知。”任何民族国家,包括美国,在这一点上都会采取必要措施,在一些关键供应链上变得更加自给自足。

所以我,作为一家跨国公司,必须把这看作是一个首要要求。

如果我不这样做,那么我就是不尊重那个国家长期的政策利益。我不是说他们在短期内不会做出实际的决定。

绝对的,全球化不可能就这么倒退回去。所有这些资本投资不可能以……的速度完成。

但与此同时,想想看,如果有人出现在华盛顿说,“嘿,我们不打算建任何半导体工厂”,他们会被赶出美国。

同样的事情也将在其他每个国家发生。

因此,我们作为公司,必须尊重我们学到的教训,无论是疫情唤醒了我们还是什么。

但无论如何,人们都在说,“看,全球化太棒了。它帮助供应链全球化并变得超级高效。

但有一种东西叫做韧性,我们想要韧性。”所以这个特性将会被构建出来。

以什么速度,我认为,是你的观点所在。

你不能打个响指就说所有台积电的工厂现在都在亚利桑那州,并且拥有他们所有的能力。

它们不会是。但是否有一个计划?会有一个计划。我们应该尊重那个计划吗?绝对应该。

所以我感觉世界就是这样。

我想去适应世界本身以及它未来想做的事情,而不是说,“嘿,我们有一个不尊重你观点的观点。”

Dwarkesh Patel:

只是为了确保我理解了,这里的想法是,每个国家都想要某种数据驻留、隐私等。

而微软在这里特别有优势,因为你们与这些国家有关系,你们在建立这类主权数据中心方面有专业知识。

因此,微软特别适合一个有更多主权要求的世界。

Satya Nadella:

我不想把它描述成我们有什么独特的特权。我只想说,我认为这是一个我们几十年来一直在努力做的业务要求,而且我们计划继续这样做。

所以我对Dylan之前问题的回答是,我认真对待——无论是在美国,还是当白宫和美国政府说,“我们希望你把更多的晶圆产能分配给美国的晶圆厂”——我们都认真对待。

或者无论是数据中心和欧盟边界,我们都认真对待。

所以对我来说,尊重各国关心主权的合法理由,并为此构建软件和物理设施,是我们要做的事情。

Dylan Patel:

当我们走向两极世界——美国、中国——竞争不仅仅是你对亚马逊,或你对Anthropic,或你对谷歌。

有一大堆的竞争。美国如何重建信任?你们做什么来重建信任?去说,“实际上,不,美国公司将成为你们的主要提供商。”

您如何看待与新兴的中国公司的竞争,无论是字节跳动和阿里巴巴,还是Deepseek和Moonshot?

Dwarkesh Patel:

补充一下这个问题,一个担忧是,我们正在谈论AI如何变成一场工业资本支出竞赛,你必须在所有供应链上快速建设。

当你听到这个,至少到目前为止,你只会想到中国。这是他们的比较优势。

特别是如果我们明年不会一步登天到ASI,而是需要几十年的建设和基础设施,你如何应对中国的竞争?他们在那个世界里有优势吗?

Satya Nadella:

这是一个很好的问题。事实上,

你刚才指出了为什么对美国技术的信任可能是最重要的特性。它甚至可能不是模型的能力。

而是,“我能信任你这家公司吗?我能信任你的国家及其机构成为一个长期的供应商吗?”这可能才是赢得世界的关键。

Dwarkesh Patel:

这是一个很好的结束语。萨提亚,感谢您接受这次采访。

Satya Nadella:

非常感谢。

Dylan Patel:

谢谢。

Satya Nadella

太棒了。你们俩真是个很棒的团队。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章