黄铁军对大模型的四个预判:洗牌、安全核爆、GPT-5与再造DeepSeek

腾讯科技
智源研究院理事长黄铁军指出,大模型留在牌桌上取决于“三要素”:数据来源实时性、知识面全量性和基础设施可靠性,行业已从“百模大战”转向巨头主导。对于DeepSeek等中国团队的人才生态快速崛起,他表示“我们有信心到2028年产生类似AlphaGo、ChatGPT的国际级成果”,推动大模型从“智力基础设施”走向具身智能与AGI时代。

“百模大战”后,大模型行业加速收敛,一部分玩家离场,模型竞争逐渐成为巨头的游戏。

4月份,李飞飞教授领先编制的《2025年人工智能指数报告》提供的数据显示,2024年全年具有特殊影响力的模型(Notable AI models)当中,排名前5的几乎都来自美国、中国的科技巨头。

2024年全球有特殊影响力的模型分布,谷歌位列第一 来源:2025 AI指数报告

日前,在智源大会上与腾讯科技的交流中,智源研究院理事长黄铁军教授表示,大模型留在牌桌上取决于“三要素”:数据来源实时性、知识面全量性和基础设施可靠性,它们共同决定了大模型的数量,不会遍地都是,“三个也好,五个、七个也好,基本屈指可数。

零一万物董事长CEO李开复博士也有相似的观点。今年3月,他在接受采访时表示,中美超大模型的预训练正在逐渐寡头化。他预测中国大模型领域未来将会收敛至三家,其中以 DeepSeek 势头最猛。

作为中国计算机专家,黄铁军活跃在AI研发与治理最前沿,曾参与签署未来生命研究所于2023年3月份发起的《暂停GPT-4以上模型6个月研发》的公开信,该公开信获得了马斯克、图灵奖得主约书亚·本吉奥以及苹果联合创始人史蒂夫·沃兹尼亚克的支持。

黄铁军说,签署这份公开信的初衷,是为了警醒行业、公众对安全问题的重视。

2024年,智源研究院也邀请约书亚·本吉奥、杰弗里·辛顿等图灵奖得主,与张亚勤等国内专家共同签署发布《北京AI 安全国际共识》。

正是由于这种警醒,到现在为止,GPT-5一直没出,”黄铁军这样概括公开信的价值,但是提醒OpenAI有可能在7月份发布GPT-5。

无论蓄势待发GPT-5的OpenAI,还是代表中国模型“生力军”的DeepSeek,中美AI竞速赛,背后也是人才的竞争。

作为中国最早下场自研大模型的机构,智源研究院为行业输送了大量人才,被称之为中国“AI黄埔军校”。2020年,智源组建了一支由智源学者、研究院和学生组成的近100人的队伍,开启中国大模型研发之路,Kimi杨植麟、深言科技岂凡超、面壁曾国洋等创业者身上都有智源的印记。

黄铁军透露,智源推动的大模型开源开放生态,对DeepSeek萌发也特别重要,DeepSeek研发团队在中关村组建和发展,北大、科学院和清华都有不少学生加入到这个明星项目当中。他认为“中国大模型黄埔军校”的评价是一种美誉,但智源研究院志不止于此,“我们希望在10周年发展周期里,能够产生独创的有国际重大影响力的成果。有信心到2028年,智源至少有一个类似AlphaGo、ChatGPT这种量级的成果。”

黄铁军在智源大会开幕式上演讲

以下是腾讯科技与黄铁军教授的交流实录(在不改变原意的情况下有删减,调整)

留在大模型牌桌上的“三要素”

腾讯科技:黄老师,2023年,当时您说全球仅需要三个大模型就够了,现在往回看,这个观点有什么更新吗?

黄铁军:2023年提到的这个观点,最早是在2021年智源发悟道2.0的时候提出的。

类似的看法美国也有一些,有的说五个,最多也有说七个,其实三个也好,五个、七个也好,基本上屈指可数,就这么少数几个。

一般大家将大模型理解为一个产品,其实它应该是一个体系。不能说这个世界上每个人都有一个人脑,然后把它类比为大模型,得出结论:全世界有几十亿个大模型。

大模型有几个基本特征,其一,数据来源的实时性。不能说用户提问题,回答是基于一天前的数据训练出的模型,它对实时性有非常高的要求。

腾讯科技:高到什么程度?

黄铁军:刚发生的事情,大模型就必须清楚了解,这就好比我有什么问题,就问对应领域的专家,如果专家知识没及时更新,那他的建议就价值就不大,甚至是错误的。

其二,全量性。用户量大,问题基数大,就意味着可能会有千奇百怪的问题,这个时候就要求大模型覆盖的知识面足够全、足够广。

其三,大模型作为基础设施,必须可靠。它应该是一个7×24小时运行的系统,就跟电力系统一样。

数据来源实时性、知识面全量性和基础设施可靠性,这三个特点决定了大模型的数量,不会很多

从生态的角度来看,大模型是一个生态体系,从这个意义上来看,其数量会更少。

以电信运营商为例,现在主要是三大运营商,过去他们各自有各自的标准:3G时代,电信的CDMA2000、联通的WCDMA、移动的TD-SCDMA,现在4G、5G大家的标准基本一致,用户买手机就不需要再做额外选择。手机制造也更具有经济性,虽然运营商还是三个,但生态其实变成了一个。

互联网更是如此,全球就没有第二张互联网。

腾讯科技:如果不具备这三个要素,就会被淘汰,然后被挤下牌桌,对吗?

黄铁军:在这个生态下,依旧有机会,只是无法主导基础大模型发展。

就像电网一样,背后有很多企业在做服务,你像我国的五大发电集团,有风电、水电各种电,最后都汇入国家电网。所以在这么大的生态下,大家依旧有很多机会,只是说单个企业来做基础模型的机会很少。

腾讯科技:最后机会又变成巨头的了?

黄铁军:肯定是巨头,作为基础智力运营商,怎么可能不是巨头。

警惕“AI安全核爆”

腾讯科技:2023年,“暂停GPT-4以上模型研发6个月”公开信很热,黄老师当时也签了,现在回头看,这个动作对行业起到了什么样的帮助?

黄铁军:我觉得应该是一个警醒吧,由于关注度很高,大家对安全问题重视一下子就提升了。

正是由于这种警醒,到现在为止,GPT-5一直没出,但有可能今年7月份会出。最近我也和很多专家面对面讨论过这个问题,很有可能真的出来。

腾讯科技:你们是基于什么,去判断7月份会发布GPT-5?

黄铁军:有一些交流,有些是公开的,有些是非公开的,预判有可能是7月份,也有可能是年内。

“暂停公开信”,2023年3月份出来到现在,2年多时间,GPT没有大版本出来,从这个角度来说还是起到了一定的作用,但更多的作用是呼吁大家关注安全性问题,毕竟它不具备法律上的约束性。

现在来看这封公开信,它仍然有价值,而且对安全的呼吁应该加强。

就像本吉奥在智源大会上说的要认识到技术的两面性,不能因为它发展快,对经济、社会发展有利,就忽视其安全性,就比如汽车,不能说开得越快越好就不要刹车;肿瘤也一样,就是因为没有机制控制它疯狂扩散。技术发展的越强,规制这些技术的技术和政策也应该同步发展。

腾讯科技:这非常矛盾,既要暂缓它的技术发展,又希望在商业上跑得快。

黄铁军:其实也不矛盾,汽车企业不能不造刹车,这是企业的责任,要安全地跑得快,不能只强调跑得快。

在监管这件事情上,OpenAI这家公司的商业策略有点“狡猾”,当时也是奥特曼去美国国会作证,在世界各地宣传呼吁加强监管,但如果近期他们把GPT-5放出来,某种意义上也可以将他们呼吁监管的行为理解为一种商业策略。我相信会有监管,但不要相信企业自己会全面监管。

腾讯科技:这就是接下来我们想问的。对于那些做得好的团队来说,停一停可能等得起,但本身还在追逐的人也要暂停,是不是就吃亏了?你看,马斯克在公开信发表后半年左右就发布了Grok-1。

黄铁军:要从两个维度来看,这其实有点类似矛和盾的关系。

从技术的维度来看,发展先进的AI,无论是科研机构还是商业公司,都属于正常的追求。不能说担心矛太尖锐,就把矛磨得钝一点,这是不对的,我做的是攻击性的矛,就要更尖锐。从治理的角度来看,做盾的公司,就应该做得更坚固。

很多时候技术和治理对应的是两个公司、两个团队,他们以不同的角色,在竞争中发展,而不是说一定要把技术先进的那个拦下来,说“你应该慢一点”。

将来的生态里,就像信息系统、信息安全两类公司,都会存在。现状是全世界做信息系统技术的公司太多,做信息安全的公司太少,处在一个不平衡的状态,所以也需要公共政策的资助方向更多地向安全方面倾斜,支持和鼓励这方面的研究。

腾讯科技:那未来,你们是不是还会围绕安全,发表公开信去做一些呼吁?

黄铁军:是的,以前也在呼吁,智源之前发布的《北京AI安全国际共识》也是其中的一部分,未来会在AI安全技术研究和政策建议方面做更多的工作。

腾讯科技:虽然一直在提安全,但到现在为止我们也没有看到对公共安全影响特别重大的事件。

黄铁军:首先,事情肯定在发生,只是大家不知道,没有感觉,所以会认为不存在。第二,每个人关注自己领域相关的话题,如果没有重大事件让大家突然警醒,可能也没感觉。

历史上很多时候就是如此,原子弹爆炸之前,大家没有那种恐怖的感受,但爆炸一次,全世界的警醒就提高了。

腾讯科技:对AI来说,这种爆炸性的场景可能会是什么?

黄铁军:突然某个银行系统被AI接管了,带来股市和经济动荡,那这个影响大家马上都能感受得到。

还有一种场景是潜移默化的,比如现在很多报告都是基于模型生成的,单项报告风险不明显,但随着这类报告扩散开和数量增长,风险积累,整个生态就可能从量变到质变。

这很像用化肥,出发点是改良土壤,但当土壤中的有害物质积累到一定程度,就会对人类健康产生不可逆的巨大影响。现在很难评估这种长期影响会有多大,但必然存在。

腾讯科技:对这种爆炸性威胁和长期影响,现在有什么约束机制?

黄铁军:这个很难。它本身就在发展过程中,演化过程中很难控制,这种新产品还没有到伤害人类的阶段,不可能限制大家使用,我们要考虑和研究的是,在这种负面影响积累到一定程度后,怎么来应对。

中国大模型“黄埔军校”

腾讯科技:我们谈谈智源,从2018年11月成立到现在接近七年了,黄老师有没有给智源做过阶段性总结?

黄铁军:要说总结,其实随时都在做。我们的决策自由度相对高,不像传统科研的项目制那样将目标定死,按流程推进,但我们也有一些无形的“紧箍咒”,那就是做出做出有重大价值的成果。

腾讯科技:你怎么定义“有价值”这件事?

黄铁军:全世界都在追求有影响力的成果,但影响力很难量化。

以前的量化都是指标性的,比如发表多少论文,申请多少专利,但这些不是一个合理的指标。其实影响力从来都存在,你看历史上,能在人类的科技史上留下来的东西,它的影响力自然而然就在。比如指南针发明,它的影响力还用说吗?相对论、AlphaGo,它们的影响力还需要评价吗?

我们将追求影响力,并不是刻意追求影响力本身,只是用它来形容什么叫“一个有影响力的成果”,就是要追求类似前面说的具有这种级别影响力、对应价值和效果的成果。

腾讯科技:展望一下,我们大概什么时候能够看到智源出这样的成果?

黄铁军:很难说具体到什么时候,我们有自己的规划。

智源成立于2018年11月,到2028年11月就是10周年,我们希望在10周年内,能够产生有国际重大影响力的成果,现在还有3年多一点的时间。

智源有自己的方向和风格,经过过去一段时间的积累,我们还是有信心到2028年,能产生AlphaGo和ChatGPT这种量级的成果。

腾讯科技:大概可能会在哪些方向上出现?

黄铁军:具身智能、AI和生命科学交叉、AI基础生态。

腾讯科技:对大众来说,AI for Life Science最后落地会是什么?是一种诊疗技术,还是药物?

黄铁军:都有可能。既可能是药物上的突破,也同时是一种诊疗技术。它是一个通用模型,可能会对新药的发现和评估产生作用,也可能直接就作为一种辅助诊疗的设备使用,就像CT、核磁,这样医院普遍在用的诺奖相关成果,还有可能是作为药物研发机构的基础性服务平台。

我们希望在这三个方向上能够取得有重大影响力的成果,当然,剩下三年,同时完成三项的难度很大,取得一项我就觉得完成了当时的梦想和使命,第二项和第三项会接续发生。

腾讯科技:有人说,智源是中国大模型的“黄埔军校”,你们自己怎么看待这种评价?

黄铁军:这是一个美誉,在我们的发展中,自然而然地起到了类似的作用,在AI,特别是大模型方向上,这个评价还是比较客观的。因为当时的时间点上,在中国只有一个智源这样的机构,率先做大模型这件事。

在此之前,大学、研究所多以项目制为主,立项就要考虑公平性,需要发指南、评审,还有验收环节,按照这种体制,大模型是不可能发生的。如果能提前预知,马上就投资大模型就可以了,挣钱效应比申请科研经费快得多。

企业也是如此,在大模型这个新领域,如果没看到效果,怎么会投入很多资源?

智源当时成立的时候就几个人,宏江是理事长,我是院长,曹岗和唐杰是副院长,刘江是负责社区生态的副院长,加上工作人员就十来个人。

我们一开始并没有按照传统科研的逻辑来做项目,当时邀请了100多位智源学者开会讨论,最后形成共识,投入包括智源学者、学生等100多人去做大模型,因为已经有了经费、资源,对于新型研发机构,这100多个人去研发大模型,要用到的资源可以灵活配置,后来这100多个人,无论是去企业,还是创业、做研究,都成了中国大模型的中坚力量。

腾讯科技:这也是我们想进一步问的问题,刘江老师、唐杰老师很多人都离开了智源,人来人往,智源不做什么约束吗?

黄铁军:我们本身的定位就不是一个传统机构,不是一个垄断者或者要设立一些围墙隔阂,不会因为这些人出去创业了,就认为会对智源造成损失,我们是非营利机构,是生态促进者,他们在北京和中国AI生态里发挥作用就可以了,不一定非要智源获取多少利益。

腾讯科技:我们再发散一点,刚才说智源在科研上有自由度,这种模式适合国产光刻机研发吗?

黄铁军:不太一样。光刻机这种目标很明确的项目,指标都很清楚,就是要实现别人已经实现但对你保密的技术方法,你要设计自己的技术路线,而且一做出来马上会有产业价值,这种项目适合用工程的方法去做,这跟传统造一座桥、修一条路逻辑类似,不同点在于光刻机这里的技术挑战很大,需要科技人员做更多技术突破, 更适合计划体制。

腾讯科技:DeepSeek春节大火出圈,刚刚也发了R1的更新,R2也即将推出,智源内部怎么评价他们的成功,可能有哪些要素,人才是最重要的吗,需要什么样的人才?

黄铁军:DeepSeek成立是2023年7月,出圈是2025年春节,也就一年半时间。

一年半不算长,是很快的一个过程,不能孤立地去看:大模型的发展,从2018年到2025年春节,已经有近6年时间。DeepSeek是在大模型的发展过程中,在这个大环境中出现的,不是一个孤立的现象。

分阶段来看,从2018年开始,全球范围已经做了2-3年的大模型研发,然后智源这样的机构又做了2-3年实践的积累,然后是2023年出现“百模大战”,直至2025年初DeepSeek在一团混战中出圈,大概是这么一个时间线。

DeepSeek成功的要素有几个,最基本的算力条件是足够的。一般创业公司要做大模型,拿不出万卡,也就成不了DeepSeek,大模型需要物质基础;另一个重点在于人才——基础算法是公开的,在通用算法基础上优化到一个新阶段,需要人才。

今年4月份胡佛研究所和斯坦福联合发了一份报告,详细的整理了DeepSeek的人才构成,详细到每个人的毕业院校、加入的时间、工作履历等等,这种刨根问底的做法非常值得学习。

过去关注梁文锋比较多,他作为创始人的确很特别重要,但DeepSeek的成功不止于梁文锋,团队最初30个人左右,后来100多人,现在更多。

DeepSeek研发团队是在北京组建起来和发展起来的,开始在苏州桥那边,后来搬到融科大厦。这些人才经过大模型基本训练,不是“天上掉下来的”。

胡佛研究所和斯坦福的报告,还有一个关键点:DeepSeek团队中只有1%、2%的人拥有海外履历,其余都是中国的原生本土人才。

我知道北大有不少学生加入了DeepSeek,斯坦福报告中也统计北大是最大人才来源。这些年轻人经验不一定丰富,但是接触过大模型,有算法和基础能力,DeepSeek有很好的算力基础设施,加上梁文锋等创始人极强的组织能力,成功的要素比较完备。

如果在北大继续深造,或者来智源,我也不敢说一定能复现DeepSeek的成功。很简单,学校没有那么多算力,百卡可能都没有,没有那么多实践的机会。智源虽然有一定的算力,但也只有1000P,千卡级别,这个资源和一个大模型公司比还差很多。

腾讯科技:为什么学校这么缺算力?

黄铁军:那么多学校,国家资源是有限的。智算平台建设起来之后,给学校、给这些人才更多基础资源条件,特别重要。这跟物理、化学、生命前沿研究一样,没有尖端的仪器,很多工作没法开展。

再回到DeepSeek,2023年7月份成立时,中国的大模型行业已经有三年实践。他们有算力、有资金,加上一伙出色的人才集中攻关,成功并不突然。

追逐AGI与被AGI取代

腾讯科技:前两年,业内一直在谈大模型的参数,智源也发了当时世界最大的1.75万亿参数悟道2.0模型,但去年开始不怎么讨论这个话题了,堆参数没效果了?

黄铁军:那倒不是。智源发的1.75万亿参数模型,是个混合专家模型,同期谷歌发布的Switch Transformer,1.61万亿参数。那时候的1万亿参数,大概相当于后来的千亿参数稠密模型。

今天GPT-4这种万亿参数模型指的是稠密模型,现阶段都还处在万亿参数阶段。做更大的参数有没有发展空间?肯定有,而且肯定要做更大的。

腾讯科技:最近有研究显示,语言模型的记忆量大概是每参数3.6比特,是不是意味着模型参数与记忆能力成正比,参数越大越好?

黄铁军:对,越大能力越强,但做更大参数模型的代价和需要的技巧,好比盖十层楼、一百层楼和一千层楼的区别,现阶段人类盖楼能力上限是几百层,盖一千层就需要更好的工程技术支持。

大模型也是这样,从智能的角度来看应该做更大的参数量,但从工程可实现的角度来综合考虑,会有一些约束。

腾讯科技:去年初Sora发布出圈爆火,在这之前就有类似的产品,比如Pika、Runway,为什么只有Sora成为了现象级产品?

黄铁军:跟公司的风格有关系,Sora早期发了几十段视频,后来再也没有发什么技术相关的东西,而且效果也没有那么好。

我觉得Sora能火起来,跟奥特曼本身是一个商业背景的创业者,并且擅长营销有很大关系,社会被他带节奏带的比较严重,但这也不奇怪,大家往往都关注明星。

Sora火起来,与它很直观的展现形式有关。介绍一个技术的优缺点很困难,人们很难从loss曲线上去看到结论与效果,但站在用户的角度来看,比如一个电影导演,可以直观感知到与实拍之间的差距。

腾讯科技:现在模型的数量开始收缩,应用越来越多,这代表着一种什么趋势或者信号吗?

黄铁军:训练更强更大的模型,数量会收敛。前面说了,基础大模型研发需要的资源不是一般公司能够覆盖的,但有了一个能够产生智力的基础大模型后,在这个基础上去做应用,花样可就多了。

不是所有的公司都需要“发电”,但大家都在用电,进而造就了消费电子和家电这样的新产业,像手机、电动牙刷等在电力时代早期都是想象不出来的。智能时代可创新的空间太多了。所以,接下来可能还有越来越多各种意想不到的产品出现。

腾讯科技:说到具体的应用,之前是AI助手,现在是Agent,之后可能是什么?

黄铁军:我个人希望是能帮助我们进一步提高效率的AI助手,但又不希望他们在能力上全面超过我们,希望从它诞生到超越人类,这个时间段尽可能稍微长一点。

腾讯科技:长一些怎么理解?

黄铁军:在它失控之前,多享受一段时间智能带来的红利,别还没有对社会起到多少正向作用,就失控了。

腾讯科技:人类想要AGI,又担心无法控制控制它,那为什么还要做这件事,这不矛盾吗?

黄铁军:无论是研究者还是创业者,站在这些人的立场上,追逐AGI是科技发展的趋势,不以个人意志为转移,人类不可能拦住这个趋势,它总会有超过我们的一天,只是早一点到来和晚一点到来的区别。

假使我们停留在现在的智力水平上,又不允许比人类智能更高级的物种出现,本身就是一种狭隘的表现。尽量让AGI超越人类的时间拖得更久一点,不仅是为了满足人类需要,主要是为了人类能与新智能相互适应,适应了就会有融合的可能性。

腾讯科技:我们基于什么条件、基准来判断它超过了人类?

黄铁军:西方文化背景基本上还是偏向于掌控它。在我看来,当人类面对外来的新物种,希望建立一套标准,以便于更好控制它,这是一种本能的反应,但这并不是终极方案。

既然人与AGI共处是一个趋势,那么更应该考虑如何与其更好的和平共处,更好的共同发展,而不是把它当成异类封闭住。

从家长的角度来说,孩子总归是要超越父母的,但是在他实现超越之前,也会有青春期,会有冲突,这并不奇怪,只要冲突不会产生颠覆性负面影响,这就是一代人一代人往前发展的必然过程,人与AGI也是如此。

腾讯科技:之前大家都在提AGI到来的时间,很少有人谈具体的投入,黄老师认为,实现AGI什么量级的资源?

黄铁军:围绕AGI这个趋势相关的动作都可以视为投入,不管目标是做AGI,还是做一个AI应用、Agent或者翻译软件,其实都是在添砖加瓦,往更强的智能推动。

腾讯科技:是否可以通过算经济账量化,比如说一万亿、十万亿、一百万亿美元?

黄铁军:这不属于量化的逻辑,不是花钱就可以造出一件什么产品出来。今天的人工智能,网络、能源这些基础条件和要素,最后都会汇总到一起,共同催生一个超越人类的新的智能。

腾讯科技:那这个智能最终会长成什么样?

黄铁军:智力水平要超越,首先肯定表现为体系性、系统性,而非个体。个体受能量、物理的约束,而体系性的物种,可以7×24小时不间断运行,实时获取全量数据,率先成为超越人类能力的AGI。

本文来源于:腾讯科技,作者:《AI未来指北》特约作者苏扬 编辑郑可君,原文标题:《黄铁军对大模型的四个预判:洗牌、安全核爆、GPT-5与再造DeepSeek》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章