这几天看各路Sellside点评和国内自媒体学到了很多宏大叙事专用名词,例如Jevons paradox、Sputnik moment、全球技术扩散、降本带来加速AGI。
太多的宏大叙事对弈难免逃不开空对空的交流。我们是个严肃的研究团队,不想从宏大叙事角度过度讨论。
这篇文章无意去证实或者证伪,只是感觉到在宏大叙事之外,我们也需要尝试用数学/会计方法和调研Data Point验证,作为我们Track进展的锚。
至少从我的感受是经历过去几天的Debate,整个行业变得越来越容易受到刺激,易惊体质,投资的难度也越来越大。
现在的主流宏大叙事是:
-
强化学习目前仍然在Scaling Law的早期,这会完全替代Pretrain的算力用量。
-
Deepseek等带来的模型降本,最终会大量刺激Token用量,带来应用生态的加速催化,并且总量比训练更大。
-
我们会在未来三年内看到AGI,Agent产品替代人类价值,并且贡献大量的消耗。AGI已经不是能不能,已经是什么时候的问题。
这与我们一年前听到的宏大叙事已经有了观感的变化,在一年前的宏大叙事是:
-
Agent和应用进展是更加渐进的,在推理大规模起量,到训练预算增长变慢之间,可能会有Air Pocket。
-
Air Pocket的时间点,可能是发现AI刚好能处理例如Coding、Math、客服等相对简单场景,但延伸到更加复杂场景需要更长的时间。
-
前途非常光明,但过程可能仍然像Gartner曲线表述的,会有一个过热→冷静→成熟的阶段。
宏大叙事的转变是因为:
-
最主要供应链出货很好,看不出Airpocket。
-
尽管我们还没有看到应用的爆发,但强化学习基于边际数据改善的逻辑,更容易做垂直场景。
-
训练的生命周期也因为强化学习进一步延长了。
1 强化学习的进展与天花板
我们在之前的一篇文章详细的讲过强化学习的关键要素:合成数据的数量与质量。
在我们跟踪Scaling Law的过程中,也出现过几次明显的心态变化。
在2024年上半年和之前,Scaling Law没有争议,Pretrain的逻辑比Posttrain更加清晰简单,每一代模型可能需要2-3年,但10x参数量增长带来相应效果提升。
在2024年年中,我们开始在个别案例中,发现强化学习的用量已经超过Pretrain,同时这是一条非常好的生成合成数据的路径,并最终会反哺Pretrain。所以在当时,我们非常乐观,Scaling Law同时有两条驱动曲线。
在2024年四季度我们看到了一些变化:
-
强化学习反哺Pretrain的路径好像没有之前那么清晰,很难泛化。
-
尽管进行了无数次尝试,但将额外计算能力投入到Pretrain中的回报已大大减少。这主要是由于高质量原始数据集的枯竭,而合成数据(一种潜在的解决方案)尚未提供令人满意的结果。
-
但虽然Pretrain撞墙了,Scaling Law仍然有一条处于早期的曲线for强化学习,我们讲到强化学习甚至还没有到GPT3的阶段。
-
在这一阶段,我们的想法与目前的主流叙事逻辑非常一致。
到了最近一个月,我们又看到了一些变化:
-
强化学习也存在数据制约,现在的数据生成方法仍然偏向手工化,依赖人工标注。同时,做题的方法也基本只适用于coding和math,很难进一步泛化。
-
如果继续沿用目前的的合成数据生产方案,往后的边际成本也会越来越高,这会同时出现Data Effiency和Data Quality的问题。
-
但我们仍然不确定在GB卡带来训练算力指数级提升后,是否能解决Data Effiency问题,同时也通过大量实验解决Data Quality问题,最终通向可泛化的Self-play,突破数据瓶颈,超越人类智能。
-
另外也强调下,最近讨论热烈的Deepseek R1-zero,和我们所说的self-play 仍有所区别,实际上还是大量依靠了人类生成的数据,本质上还是和人类做了对齐,需要在宏大叙事下正视技术的发展。
所以这里最关键的验证点是在GB到量后,是否大量实验真的能够通向真正的Self-play。这个时间点很近了,可能在Q2-Q3会有清晰地结论(除非大集群GB完全上线会进一步delay)。
在这个验证点前,我们相信所有的大模型公司都要为了验证这一逻辑做大量的算力储备,换言之在这个时间段是对CAPEX相对安全的时间段。
但越临近验证点,不确定性的风险也就越大。
2 降本带来的推理用量刺激-Jevons paradox
燃油、煤炭、电都是典型的Jevons paradox商品,并在不断降价后催生了更大的需求。
IaaS产品也是,头部CSP每年降价5-8%,通过性能相对OnPrem的不断提升,最终带来的稳定的增速。
大模型API仍然非常接近于过去软件行业的PaaS产品。而降本带来用量刺激的逻辑,在PaaS产品的每一个阶段都相伴相生。
我们在CDN、短信、RTC、数据库等不同壁垒的PaaS产品中都听到过类似的故事,“降价会促生更大的用量,带来收入的加速增长。”
最近的一次故事在所有Consumption SaaS中,从2022年开始,所有的客户都开始认为Consumption SaaS的定价太贵了。Consumption SaaS也开始回应客户的需求,并开始为我们所有投资人画下了一个新的大饼,“降价刺激更多的用量,百利而无一害,我们很快会再次加速增长。”
这个再次加速增长短的用了一年时间,长的用了三年时间。
就LLM API,我也觉得最后一定会符合Jevons paradox的终局,但中间的路径可能仍然很曲折。
这需要非常好的节奏把控。目前每个季度平均API的降本大概维持20-30%的水平。这意味着每年API价格会降低70%,换言之需要倍的Token增长维持API收入的稳定。需要6倍的Token增长,维持API收入的翻倍。
造成过去每个季度降本的模型包括GPT4 Turbo、GPT4o、GPT4o mini。
一次过快的价格调整,很可能也会带来1-2个月的Dip(没错,AGI时代已经比之前的PaaS友好多了,毕竟是大时代),然后花更多的时间走出来直至加速。
所以在这轮里可能要去想,如果降本不一定能带来推理算力总盘子立刻加速增长(可能还是渐进的增长),那在叙事变化的时候,什么产品的份额会提升?
同时在目前的场景中也需要区分是更好的模型,还是更便宜的模型在驱动用量。
在多数2C场景,更便宜的价格,意味着更低的试错成本,可以覆盖更多的客户,这一点问题都没有。
但在2B场景,客户付费能力本身就更强,更好的模型才会带来更多的用量,价格带来的弹性可能有限。例如Salesforce Agentforce产品,目前普遍的客户折扣在2-3折,模型的降本很难推动客户去打1折刺激更多量。但模型的能力提升,不光可以带来用量提升,还可以带来更高的ASP。
所以更强的O4、O5模型,或者Orion模型,可能对用量的帮助更大。
回到我们的观测时间点,观测API增长比观测Agent公司的进展更加直接。
这个时间点可能在2-3月。O1正式版在相比O1 Preview降本60%,以及O3出现后,是不是能带来用量的增长。这对推理的弹性非常大。
目前在观察了2个月O1 Preview的使用情况后,还没有看到用量的激增。
3 IT Spending与CAPEX的数学逻辑
主流叙事很容易将两者画等号,但在数学与会计逻辑却有很大的区别。
我们曾经对OpenAI的训练成本进行过估算,这包括24-26年的训练折旧成本分别为3.6B、8.6B与15B。25年的折旧成本可能比OpenAI原本的计划要低,在考虑到如果Stargate项目能顺利融资,25年-26年的折旧成本也会继续上移。
在上述的假设中,尽管训练开支仍然在2026年有70%的增长,但到CAPEX层面已经不再增长了。训练开支更符合收入增长的趋势,我们假设OpenAI在26年仍然有翻倍的收入增长。但毫无疑问在这个算术里,2025年是CAPEX的超级大年,但也留下了更多的问号给2026年。
我们尝试将Startgate的影响加入其中。尚且不了解Stargate与OpenAI原本的CAPEX有多少重合。
第一批1000亿美金StargateTCO中,有15%是资金和运维成本,扣掉后25-27年的CAPEX投资(和上面apple2apple包括场地等)分别是100亿,250亿,500亿。如果25-26年的CAPEX中都各有一半是来自OpenAI过去的CAPEX计划,那意味着去重后的25-26年CAPEX是300亿和375亿,27年会增长更快。
在这个算术场景中,Stargate非常重要,能不能顺利融资和启动决定了2026年的CAPEX叙事。
同样的数学计算也可以出现在Anthropic CEO最近的描述中。
所以这里最大的验证节点是Stargate的融资进展,以及其ROI的合理性。
按照目前的ROI估算,最大的算力供应方Oracle的IRR仅有5-8%。
4 Sputnik moment
这个话题非常Debate,不想过度阐述。
但看起来更像闭源AI的Sputnik moment,而不像美国AI行业的Sputnik moment。
Deepseek与北美大模型的Effiency比较,虽然无法Apple2Apple的给出答案,但观察北美公司的做法,这也确实改变了长期想法。
关于优化数据,OpenAI几乎不做任何披露,Deepseek也很多没写,两边就像开了战争迷雾,只能靠猜进行比对。
但即使OpenAI的Effiency比Deepseek高,OpenAI能够挖掘的算力利用空间也是很大的。
OpenAI有最高效的networking,NV保姆级支持,最好的卡,最好的配置,阶段性在优化少的情况下Effiency比Deepseek高也是可能的,但Deepseek的工程做法还是给了北美大模型公司很多优化上的启示。
更不用提,之前本来在算力应用上就非常粗放的META等大模型公司。
5 最重要的
整个故事中最重要的验证点是什么?
应该是大规模可泛化的Self-play能否跑通。
本文作者:波太金,来源:共识粉碎机,原文标题:《AI宏大叙事的验证逻辑》