不用英伟达，Gemini 3是如何训练的？

贝叶斯之美

08:53

谷歌全新推出的多模态Gemini 3采用稀疏MoE架构与原生多模态设计，完全基于自家TPU训练，具备1M token上下文处理能力。该模型通过强化学习专门优化多步推理能力，虽然在事实准确率和推理基准测试中表现领先，但其幻觉率仍高达88%，在"知之为知之"的自我认知层面尚未取得实质性突破。

经过一年多的蛰伏，谷歌带着全新升级的多模态Gemini3来袭，前端UI升级性能拉满，虽然深度推理、上下文一致性等与ChatGPT5.1 thinking相比还有差距，但总体上已经能满足绝大多数用户的基本AI需求。

Gemini 3是如何训练的？是完全基于谷歌TPU吗？大家都在关注这些核心问题！

Gemini 3 = 稀疏 Mixture-of-Experts（MoE）Transformer + 原生多模态（文本/图像/音频/视频）+ 超长上下文（输入最多 1M token、输出 64k）+ RL 强化“多步推理/定理证明”的一整套栈，并且是用 Google 自家 TPU Pod + JAX + Pathways 从零训练出来的新模型。

下面分几层讲：架构、训练数据与流程、算力/系统设计，再讲一下“这套设计背后的逻辑”。

架构：稀疏 MoE Transformer + 原生多模态 + 超长上下文

1. 核心骨架：Sparse Mixture-of-Experts Transformer

官方模型卡直接写了：

架构 = 稀疏 Mixture-of-Experts（MoE）Transformer
原生支持文本、视觉（图像）、音频输入（视频通常拆成图像帧+音频序列送进来）。

MoE 的关键点：

每一层有很多“专家子网络”（experts）；
前面有个 routing/gating 子网络，对每个 token 决定送到哪几个专家；
每个 token 只激活少数几个专家，不是所有参数都跑一遍；
这样可以做到：总参数量很大（外界估计总体容量>1T 级）但单次推理算力成本可控。

相当于，不是每个问题都叫公司里所有员工一起开会，而是路由到 2–3 个最合适的小组来处理。

2. 原生多模态（Text + Vision + Audio + Video）

模型从设计上就是 “多模态优先”，而不是 “先做文本，再外挂一个视觉编码器”。文本 token、图像 patch、音频帧，都会进同一个 Transformer 主干，只是前端有不同的编码器，把不同模态统一到同一向量空间。Google 还在此基础上做了 Nano Banana Pro 这种图像模型，直接把 Gemini 3 Pro 当成图像生成/编辑的“主脑”。

这类原生多模态的好处：

可以跨模态推理：例如看视频+讲解文字，一起理解“这个实验为什么失败”；
对产品场景（搜索界面截图、代码+报错截图、讲课视频+PDF）非常友好。

3. 超长上下文：1M Token 输入、64k 输出

官方模型卡：输入上下文上限 1,000,000 token，输出上限 64,000 token。
MarkTechPost 文章也确认了这点，并强调它是“让 agent 能吃完整代码库/长文档/多小时视频”的关键。

在实现上，Google 没公开全部细节，但结合他们开源的 Gemma 3 报告可以看出最近的思路：更多 local attention 层 + 更短的 local span，减少 KV-cache 爆炸；把“少量 global attention 层”用在关键信息汇总上。

所以你可以理解为：局部窗口里用 cheap 的 local attention，偶尔插一层“全局视角”做信息整合，再配合 MoE 把计算分散到不同专家上，共同支撑 1M context。

4. 和 Gemini 2.5 的差异

官方说得很清楚：

不是 2.5 的微调版，而是从头训练的新一代架构。
在各种推理、多模态、长上下文基准上，都显著超过 2.5 Pro。

训练数据：多模态 + 多来源 + 大规模清洗

1. 预训练数据构成

模型卡里披露得相当详细：

多模态、多领域的大规模语料：

公开网页文档 & 文本

代码（多种语言）

图像

音频（含语音和其他音频类型）
视频

数据来源类型：

公共可下载数据集

爬虫抓取数据（遵守 robots.txt）

商业授权数据（licensed）

Google 产品中的用户数据 & 与模型的交互数据（在对应 TOS/隐私政策和用户控制下）

Google 内部业务产生的数据
AI 合成数据（synthetic data）

所以整体可以理解为：“公共互联网 + 授权版权库 + 自家产品行为日志 + 内部 & 合成数据” 的大杂烩，而且是多模态同步喂的。

2. 数据清洗与安全过滤

同一份模型卡也写了数据处理流程：

去重（deduplication）
遵守 robots.txt
各类 安全过滤（屏蔽色情、暴力、CSAM 等内容）
质量过滤，去掉垃圾/无关内容

这些既是安全要求，也是为了稳定训练（脏数据太多会直接拉垮收敛）。

训练流程：预训练 + 指令微调 + RL（人类 & critic 反馈）

官方没有给出超细节的损失函数和 schedule，但框架是比较典型的“三阶段”：

1. 阶段一：自监督预训练（大模型基座）

在上面那堆多模态数据上，做类似「下一个 token 预测」的自监督训练；文本/代码用标准的 autoregressive objective；图像/音频/视频通过适配的编码方式，把 patch/帧也当 token 来预测。

目标：学到通用语言+世界知识+多模态表征，不管任务、不管指令。

2. 阶段二：监督式指令微调（SFT）

用“人类写的高质量多模态指令数据”进行微调：
- 问答、对话、代码生成、推理题目
- 图文问答、视频理解、音频理解
这一步类似于把“会说话的大脑”变成“会听指令做事的助手”。

模型卡把这部分统称为 instruction tuning data。

3. 阶段三：强化学习 + 安全部署

Gemini 3 在 RL 上写得比之前代更直白：使用 reinforcement learning from human and critic feedback：

人类标注哪种回答更好；再加“critic 模型”自动给出评分；强化学习用到的内容特别强调：

多步推理数据

问题求解数据
定理证明类数据

也就是说，他们专门用 RL 把模型往“会慢慢推理、拆解问题、做数学/证明”这个方向拉。这也解释了：Gemini 3 在 Humanity’s Last Exam、ARC AGI 2 等高难度推理 benchmark 上比 2.5 和不少竞品强。

安全相关：他们把 数据过滤 + 条件预训练 + SFT + RLHF + 产品级安全过滤 都当成安全“层级防护”。并按照自家的 Frontier Safety Framework 做红队和能力评估。

算力与系统：TPU 全栈 + JAX + Pathways

这次 Gemini 3 的一个重要“元叙事”是：“不用 NVIDIA 也能在前沿”。

1. 硬件：完全用 Google 自家 TPU 训练

模型卡写得很清楚：

训练全部在 Google Tensor Processing Units（TPUs） 上完成；
使用 TPU Pods（大规模 TPU 集群），支持多设备分布式训练；
利用 TPU 的高带宽内存和大 batch 做到了更好的模型质量 + 能效。

外部文章因此强调：Gemini 3 证明了一条“自研芯片+自家云”的完整路径，可以在不依赖 GPU 供应链的情况下做到 frontier 级别。

2. 软件栈：JAX + ML Pathways

模型卡：训练用的是 JAX + ML Pathways。Pathways 是 Google 自己的多机多任务训练框架，比较适合这种 MoE + 超长上下文的大模型并行。结合 MoE 架构，你可以想象它在系统层面需要解决：

专家参数在 TPU Pod 上怎么切片/放置；
token 的 routing 怎么跨设备做负载均衡；
超长上下文的 KV cache 怎么 sharding 和回收；
在这些约束下还要保证训练吞吐和稳定性。

这些实现细节没公开，但从他们强调的“sparse MoE + 1M context 实用化”可以看出，系统工程占了很大比重。

从“设计选择”看 Gemini 3 的几个洞察：

站在方法论角度，可以大概总结出 Google 这代模型的取向：

容量 vs 成本：用 MoE 换算力效率

想要万亿级参数的表达力，但又不能每 token 都烧满；Sparse MoE = “只叫对这件事最有用的几个专家出来”，能在相同算力下塞进更多知识和能力。
场景优先：原生多模态 + 超长上下文 + agent 能力

多模态 + 1M context，是为了直接吃：代码库、产品文档、UI 截图、视频课程、系统日志；

再配合 Antigravity 这类 agent IDE 和“Generative UI”，把模型变成真正的“操作系统级助手”，而不是只会聊天。
推理优先：在 RL 里刻意强化多步推理和定理证明

很多 frontier bench（ARC AGI、GPQA、数学竞赛）都强调“要一步步想”；所以他们显式用这类数据做 RL，把 reward 设计成“慢想但答对”。
安全与合规：从数据到产品的多层防护

数据侧就做过滤；模型训练阶段用安全相关的目标和 RL 惩罚项；部署时再加 policy + 安全过滤 + Frontier Safety 评估。
全栈一体化：TPU + 框架 + 模型 + 产品的协同优化

完全在自家 TPU 上训练，用 JAX + Pathways 深度绑定硬件特性；再纵向整合到 Search、Workspace、Antigravity IDE、AI Studio 等产品里。

Gemini 3 更像是“用 TPUs 驱动的 MoE 多模态大脑”，通过庞杂但干净的多模态数据预训练，再用 RL 把“多步推理+Agent 行为”打磨到实战可用。

为何谷歌选择Sparse MoE 而不是 Dense LLM？

Sparse MoE vs Dense LLM：到底换来了什么，又付出了什么？

Sparse MoE = 拿“更多参数容量”换“更复杂的系统工程”；

Dense LLM = 拿“简单稳定”换“更高的推理成本 / 更有限的容量”。

1. 参数容量 vs 计算成本

设想一个简化例子：

Dense 模型：400B 参数，每一层所有 token 都用到全部参数。

Sparse MoE：假设有 32 个专家（experts），每个 expert 有 50B 参数。模型“总容量”≈ 32 × 50B = 1.6T 参数；但路由策略：每个 token 只激活 2 个 expert。那么一次前向计算用到的参数 ≈ 2 × 50B = 100B 参数。

所以，对「单次推理」来说：

Dense 400B：固定用 400B；
Sparse MoE：逻辑容量 1.6T，但每个 token 实际只跑 100B 左右。

这就是 MoE 的核心吸引力：

在「算力可承受」的前提下，把总容量做得远超 Dense，强化“记忆 & 专业化能力”。

2. 路由 & 负载均衡：MoE 的第一大坑

但换来的是非常难搞的一堆工程问题：

Routing/gating 的选择

每个 token 要选出“最合适”的 1–2 个专家。路由器本身也是一个小网络，要学习“哪个 token 该找哪类专家”。训练前期很容易变成：少数几个专家被疯狂点名，其余专家闲置 → 训练不收敛。
Load balancing（负载均衡）

为了防止“热门专家爆满”，通常加一个正则/损失项，强制各专家被用得更均匀。太强 → 路由“被拉平”，失去“专家专长”；太弱 → 过度偏好少数专家，参数利用率低。
跨设备通信成本

专家通常分布在不同 TPU/GPU 上；每一层都要把 token 按路由结果“打散 + 聚合 + 再拼回”，需要大量 All-to-All 通信；通信没设计好，MoE 直接变成一个巨大的网络风暴制造机，吞吐掉到谷底。

Dense LLM 就简单很多：

所有层 & 参数按顺序切片，数据并行 / tensor 并行就行；
没有额外路由逻辑，也没有 All-to-All 的专家分发。

3. 表达能力：通才 vs 专才

MoE 的“理论卖点”是：不同专家可以学不同的“风格 / 领域 / 任务”：

有的更擅长代码；

有的更擅长数学；

有的更擅长对话/闲聊；
对于特定 token/任务，只调用那些“最适合”的专家。

这会带来几个有意思的现象：

“专家人格”，在可视化路由模式时，能看到某些专家只在「代码块 + 错误信息」附近被激活；另一些专家在「多段数学推导」里用得更多。
局部过拟合 vs 全局泛化

好处：细分任务的表现可以很强（因为专家参数多，专注范围窄）；

风险：如果路由器没学好，有的专家可能对“某些写法/数据分布”过拟合，换个表达就表现下降。

Dense LLM 则是完全的“通才模式”：所有 token 都用同一套参数；更容易在分布迁移时保持稳健，但对容量和算力要求更高。

4. 训练 & 推理的稳定性

Dense LLM 优点：

实现简单，优化稳定；
不会出现“专家闲置”、“路由崩坏”的问题；
调参 & debug 难度低很多。

Sparse MoE 的典型麻烦：

训练稳定性更差

路由器一旦 bias 到几个专家上，训练会偏；需要 carefully 的 warmup、损失设计、甚至 curriculum 才能稳住。
调参维度更多

专家数量、每 token 激活专家数、capacity factor（每个 expert 能接多少 token）、负载均衡 loss 权重等等，都是额外的超参数。
部署 & 推理复杂度高

多设备专家部署布局；路由所带来的延迟和显存碎片问题；实时服务时要和 KV cache / batching 配合，这些都比 Dense 麻烦一大截。

但到了 Gemini 3 这种规模：

Dense 再往上堆，推理成本会非常夸张；
在 TPU 上做全栈 MoE 优化对 Google 来说是可控的；
所以他们选了「更高系统复杂度，换更大容量和更低推理成本」这条路。

所以，谷歌使用MoE 是把“模型容量的 scaling law”从“全靠花算力”变成“花更多系统工程 + 一部分算力”。

幻觉情况如何？

Gemini 3 在“知道的事情答得很强”上是 SOTA，但在“不知道时老老实实说不知道”上，做得并不好。

几个关键 benchmark：

SimpleQA Verified（事实问答准确率）

也就是说：在简单事实题上，它比竞品明显更“知道得多”。
- Gemini 3 Pro：72.1% 正确率
- Gemini 2.5 Pro：52.9%
- GPT-5.1：大约 35% 左右，Claude Sonnet 4.5 更低。
AA-Omniscience（知识 + 幻觉联合测评）

这 88% 是啥意思？大意是：当它没有答对时，~88% 的情况都会硬给一个自信的错误答案，而不是说“我不知道 / 没法确认”。

Gemini 3 Pro 在 Omniscience Index 总分和 Accuracy（正确率）都是第一。但同一个评测里，它的 Hallucination Rate ≈ 88%，而且和 Gemini 2.5 Pro 差不多。

所以：

“Gemini 3 确实比上一代、也比很多竞品更常给出正确答案”；
但也的确 “一旦不知道，它依然很爱乱编，而且看起来很自信”。

不少媒体和分析直接点名这一点——“在可靠性 benchmark 里拿第一，但幻觉率仍然很高”。所以，Gemini 3 的幻觉问题现在看起来“挺严重”，而且和 2.5 相比在“会说不知道”这块几乎没进步。但与此同时，它在很多 推理、多模态和事实准确率 benchmark 上又明显领先。

所以更合理的定位可能是：

这是一个“知识多、推理强，但自我认知（知道自己不知道）还很差”的巨大大脑。

对如何使用Gemini用法，我会建议：把它当作“生成研究结构 + 发掘盲区 + 做 scenario/ontology 的 co-pilot”更为恰当合适。

本文来源：贝叶斯之美

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

不用英伟达，Gemini 3是如何训练的？

架构：稀疏 MoE Transformer + 原生多模态 + 超长上下文

训练数据：多模态 + 多来源 + 大规模清洗

训练流程：预训练 + 指令微调 + RL（人类 & critic 反馈）

算力与系统：TPU 全栈 + JAX + Pathways

从“设计选择”看 Gemini 3 的几个洞察：

趁Gemini 3“东风”，“谷歌链”挑战“英伟达链”，颠覆AI交易格局

Gemini 3的“关键跃迁”--驱动AI应用落地的“重大突破”？

谷歌Gemini 3.0 Pro模型卡发布，多模态能力大幅领先竞争对手

谷歌最强大AI模型来了！Gemini 3发布首日即投入搜索、App和开发者平台同步上线

“表现极其惊艳”，谷歌大模型罕见发布前“造势”，Gemini 3.0本周登场？