谷歌推出最快最高性价比Gemini 3模型，响应时间提高2.5倍、输出速度提升45%

03-04 00:41

416

Gemini 3.1 Flash-Lite专为开发者大规模高频工作负载设计，本周二起预览版向开发者开放，内置“思考层级”；基准测试显示，该模型首个答案响应时间较Gemini 2.5 Flash提高2.5倍，输出速度提升45%；GPQA Diamond和MMMU Pro测试得分均超越GPT-5 Mini等竞品；定价0.25美元/百万输入token、1.5美元/百万输出token，上下文窗口最长100万token。

美东时间3月3日周二，谷歌推出Gemini 3系列中速度最快、性价比最高的模型——Gemini 3.1 Flash-Lite。它专为开发者大规模高频工作负载设计，以更低价格实现不妥协的智能表现。

Gemini 3.1 Flash-Lite于3日当天起以预览版形式向开发者开放，可通过谷歌AI Studio的Gemini API接入，企业用户则可经由谷歌云Vertex AI平台使用。使用该模型无需特定硬件或软件配置，用户只需通过API调用即可接入。

谷歌透露，根据Artificial Analysis基准测试，3.1 Flash-Lite在首个答案响应时间上较Gemini 2.5 Flash提高2.5倍，输出速度提升45%，同时维持相近或更优的质量水准。

谷歌表示，该模型在Arena.ai排行榜上获得1432的Elo评分，并在多项推理与多模态理解基准测试中超越同级别其他模型，甚至优于上一代体量更大的Gemini模型。目前已有Latitude、Cartwheel、Whering等企业在早期测试中使用该模型，并反馈出显著的效率与成本优势。

定位与价格：高频场景下的性价比首选

谷歌DeepMind在模型说明文件中将3.1 Flash-Lite定位为“具备成本效益、速度快，针对高频、对延迟敏感的任务（如翻译和内容分类）进行优化”的模型，是Gemini 3系列原生多模态推理模型家族的新成员。

在价格方面，3.1 Flash-Lite定价为每百万输入token 0.25美元、每百万输出token 1.50美元。谷歌在官方博客中指出，该定价仅为大型模型的一小部分，适合需要大规模部署、同时对成本高度敏感的开发者和企业用户。

该模型支持文本、图像、音频与视频等多模态输入，上下文窗口最长达100万token，输出上限为6.4万token，可满足从文件摘要到复杂多模态任务的广泛需求。

性能基准：超越同级并挑战上一代旗舰

在核心性能指标上，谷歌援引Artificial Analysis基准测试数据称，3.1 Flash-Lite的首个答案响应时间（Time to First Answer Token）比Gemini 2.5 Flash快2.5倍，输出速度提升45%。

在智能能力评估方面，该模型在Arena.ai排行榜上获得1432的Elo评分，在GPQA Diamond测试中得分86.9%，在MMMU Pro测试中得分76.8%，谷歌表示这两项成绩均超越同级别竞争模型。

值得注意的是，谷歌特别强调3.1 Flash-Lite在部分基准测试中甚至超越了上一代体量更大的Gemini 2.5 Flash，这意味着在特定工作负载下，用户无需支付旗舰模型的价格即可获得更优性能。

核心特性：可调节的“思考层级”

除速度与成本外，3.1 Flash-Lite的一项差异化功能是在AI Studio和Vertex AI中内置“思考层级”（thinking levels）控制，允许开发者根据任务复杂程度灵活调整模型的推理深度。

谷歌在官方博客中写道，这一功能“对于管理高频工作负载至关重要”。对于翻译、内容审核等以成本为优先的批量任务，开发者可选用较低思考层级以压缩成本；对于生成用户界面、创建模拟场景或遵循复杂指令等需要深度推理的任务，则可调高思考层级以提升输出质量。

在架构层面，谷歌DeepMind披露，3.1 Flash-Lite基于Gemini 3 Pro构建，训练使用谷歌自研的张量处理单元（TPU）及JAX与ML Pathways软件框架完成。

企业反馈：效率与指令遵循能力获高度认可

多家早期测试企业对3.1 Flash-Lite给出了正面评价，尤其集中于速度、指令遵循能力和规模化处理能力三个维度。

AI叙事平台Latitude的AI负责人Kolby Nottingham表示：“谷歌的模型在同类产品中展现出无与伦比的指令遵循能力和速度，成功率比我们之前使用的模型高出20%，推理速度快60%，使Latitude能够为更广泛的受众提供复杂的叙事体验。”

AI动画工具Cartwheel首席科学家Andrew Carr则称该模型为“智能与速度比无可匹敌”，并指出："它在工具调用方面表现出色，能够在更大模型所需时间的一小部分内快速探索代码库。我们拥有大量多模态标注使用场景，在大规模应用中，Flash-Lite成为我们处理更多数据、获取更多洞察的关键解锁工具。"

时尚应用Whering的CEO Bianca Rangecroft表示，通过将3.1 Flash-Lite整合进分类流程，Whering在商品标签标注上实现了"100%的一致性"，即使面对复杂的时尚品类，也能提供"确定、可重复的结果"。

企业AI平台HubX联合创始人Kaan Ortabas则提供了具体数据：“作为根编排与内容引擎，Gemini 3.1 Flash-Lite持续实现10秒以内的完成时间、接近实时的流式输出、约97%的结构化输出合规率以及94%的意图路由准确率，在速度、指令精准度和成本效益之间取得了卓越平衡。”

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。