Gemini 3的“关键跃迁”--驱动AI应用落地的“重大突破”?

国盛证券
国盛证券指出,谷歌Gemini 3核心突破在于Screen UnderStanding能力。该技术使AI能直接理解并操作图形界面,绕过了API限制,从而将自动化场景大幅扩展至各类软件,驱动AI应用真正落地。结合多模态推理与Antigravity平台,此次升级不仅为数字员工与物理机器人奠定了基础,也使得构建高度个性化的专业与生活助手成为可能。

核心观点

Gemini 3发布,模型能力全方位突破。谷歌近期连续发布了Gemini 3 系列模型、Nano Banana Pro 图像模型,以及全新开发平台 Antigravity,标志着多模态理解、推理与 Agent 能力的全面跃迁。1)Gemini 3 Pro多模态理解能力尤其是Screen UnderStanding能力登顶;推理与长期规划能力显著提升,在 Vending-Bench 2 长期任务测试中表现最佳;Deep Think 模式突破 AGI 相关推理:ARC-AGI评测高达 45.1%;Agentic 能力:编程和工具使用能力增强,更可靠执行多步骤任务。2)Nano Banana Pro:具备物理逻辑的图像生成,完美的解决图像生成中文本渲染错误痛点,与现实世界知识结合,支持专业视觉内容制作。3) Antigravity:智能工作台:提供 AI 驱动 IDE与多智能体管理界面,智能体有专属的工作空间。

 Screen UnderStanding是本次跃迁的关键。我们认为Gemini 3的多模态理解能力,尤其是Screen UnderStanding能力的大幅提高是驱动AI应用落地的关键突破。Gemini 3 Pro在ScreenShot-Pro评测基准大幅领先Claude Sonnet 4.5和GPT 5.1。Gemini 3 Pro 能精准解读结构化/非结构化文档,对发票、合同、研究文档等场景意义重大。Screen UnderStanding对未来AI进一步发展具有里程碑意义:(1)通过屏幕理解直接操作 GUI,不再依赖 API。这意味着AI 可操作没有API的软件,Agent 能真正执行看屏幕、点按钮的人类工作流程大幅扩展自动化场景。(2)通向物理机器人能力的桥梁:模型学会理解屏幕上的按钮并点击与机器人理解世界并行动的逻辑高度同构,未来可自然迁移到机器人对设备面板、仪表、工具界面的识别与操作。

自定义Agent展望,每个人自己的工作与生活助手。大模型快速迭代,推理与工具调用能力持续增强,催生了越来越强的自定义 Agent 应用前景。对金融机构尤其是二级买卖方而言,我们展望未来可探索以下方向:1)构建个人投研知识库,支持资料检索、分析和分享汇报;2)打造智能群发助手,实现带称呼的差异化群发及后续自动回复闭环;3)利用Agent整理微信消息、研报、公众号等海量信息,并按个性化规则提炼要点;4)个性化的研究助理,指定大模型的输出风格如分析时需要附上权威信息来源;5)通过简单对话就能靠AI编程能力制作数据分析、合规底稿助手、报销助手等实用工具;6)类似美团“小美”的生活助手,且同时对接竞争厂商平台,实现各种生活服务整合。

报告正文

01 Gemini 3发布,模型能力全方位突破

谷歌近期连续发布了旗舰模型Gemini 3 系列、图像模型Nano Banana Pro,以及创新性的开发平台Antigravity。我们认为这标志着大模型能力的关键跃迁,这些发布不仅在多模态理解和推理能力上设定了新标杆,更在Agent和机器人技术的未来应用方面,展现了重大的潜力:

Gemini 3 Pro:多模态推理与卓越的Agent能力

Gemini 3 Pro核心突破体现在以下几个方面:

世界领先的多模态理解:模型能够处理和理解文本、图像、视频、音频乃至代码等多种模态的数据,并在这些复杂数据之间进行推理,达到了前所未有的细致程度。Gemini 3 Pro在Screen UnderStanding任务方面表现尤其出色,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5(36.2%)和GPT 5.1(3.5%)。

卓越的推理和规划能力:

自从Gemini 2 开启Agent时代以来,谷歌取得了许多进展,不仅提升了 Gemini 的编码代理能力,还改进了其在更长时间跨度内可靠规划的能力。Gemini 3 在 Vending-Bench 2 上的榜首表现证明了这一点,该测试通过管理模拟的自动贩卖机业务来测试长期规划能力。Gemini 3 Pro 在整整一年的模拟运营中,保持了一致的工具使用和决策能力,在不偏离任务的情况下带来了更高的回报:

Gemini 3 Deep Think 模式进一步突破了智慧的界限,在测试中,Gemini 3 Deep Think 在Humanity’s Last Exam(未使用工具的情况下得分41.0%)和 GPQA Diamond(93.8%)的表现,甚至超越了 Gemini 3 Pro 原本就令人印象深刻的成绩。它还在 ARC-AGI(包含代码执行,ARC Prize Verified)上取得了前所未有的 45.1%,展现了解决新颖挑战的能力。

增强的 Agent能力: Gemini3 带来了卓越的指令执行能力,显著改进工具使用和智能编码。更高效的工具使用:同时执行多步骤任务。Gemini3的智能体功能可以构建更实用、更智能的个人AI助手。

Nano Banana Pro (Gemini 3 Pro Image):视觉世界的逻辑与物理

物理感知推理:据视频生成平台Higgsfield官网,Nano Banana Pro 超越了简单的扩散模型。它在渲染场量之前进行场景规划,提供原生 2K 分辨率、物理精确的光照和完美的文本渲染。

生成清晰文本:Nano Banana Pro解决了图像生成中的一大痛点——文字错误。清晰易读的文字有助于制作海报、复杂的图表和精细的产品模型。用户可以描述所需的字体类型,或模拟不同的手写字体。

理解现实世界的知识:利用 Gemini 模型对现实世界的了解和强大的推理能力,Nano Banana Pro可以生成精准、细致、丰富的图像结果。可以为图片添加注释,将数据转化为信息图表,或将手写笔记转换为图表:

Antigravity:全新的智能开发平台

如果说Gemini 3是“大脑”,Antigravity 就是让大脑手脚并用的“工作台”。 Antigravity 的开发初衷是,智能体不应该仅仅是侧边栏里的聊天机器人;它们应该拥有自己专属的工作空间。该平台提供了两种与代码交互的独特方式:

编辑器视图:当用户需要亲自动手操作时,用户将获得一个最先进的、由人工智能驱动的 IDE,它配备了 Tab 键自动补全和内联命令,以支持用户已经熟悉的同步工作流程。

管理界面:这是一个专用界面,用户可以在其中创建、协调和观察多个智能体在不同工作区中异步工作的情况。

02 Screen UnderStanding是本次跃迁的关键

我们认为Gemini 3的多模态理解能力,尤其是Screen UnderStanding能力的大幅提高是驱动AI应用落地的关键突破。Gemini 3 Pro在ScreenShot-Pro评测基准大幅领先Claude Sonnet 4.5和GPT 5.1。

据Squared报道,Gemini 3 Pro 在文档理解方面表现出色。它能够清晰地读取和解读结构化和非结构化内容,并能对文档进行推理,而不仅仅是提取信息。我们认为,对于处理发票、合同等文件和数据研究的公司而言是一项重大优势。

在示例演示中,模型将图像转换为交互式网页体验。Gemini 3 Pro 在生成功能代码之前,会分析对象、布局和含义。这种程度的转换标志着人工智能参与界面设计和功能开发的方式发生了转变。

空间推理能力的提升使该模型能够支持自动驾驶车辆、机器人、扩展现实硬件和智能设备系统中的任务。Gemini 3 Pro 可以预测轨迹、识别物体关系并分析任务进展。我们认为这为下一代自动化解决方案奠定了基础。

该模型的屏幕理解功能在桌面和移动系统上均展现出卓越的性能。它能够读取界面元素,通过鼠标移动检测用户意图,并将标注转化为操作。演示表明,人工智能能够根据简单的手绘指令执行任务。这标志着用户与数字环境交互方式的重大转变。

视频推理进一步扩展了这些功能。Gemini3 Pro 能够处理快速动作,识别关键事件,并在长时间的视频素材中保持上下文关联。这有助于开发人员生成详细的摘要、提取关键帧并构建视频分析代理。这项功能对于监控分析、体育分析、培训系统和创意视频制作至关重要。

Screen UnderStanding对未来AI应用进一步落地的重大意义还包括:

1、打通Agent与数字世界交互的API开放程度障碍:我们认为通过API调用(Function Calling)的方式使用工具受限于软件接口的开放程度。拥有Screen Understanding的模型,可以直接操作任何为人类设计的图形界面(GUI)。这意味着Agent可以操作没有API的工具,极大地扩展了AI的各种应用场景。AI可以从辅助工具正式进化为数字员工。它不再需要人类把任务翻译成代码,而是直接像人类员工一样,看着屏幕,操作软件,完成工作。

2、迈向物理世界机器人的桥梁: 我们认为屏幕本质上是一个高维度的、动态的视觉环境。模型学会“理解屏幕上的按钮并点击”所需要的感知-决策-行动闭环,与机器人“理解桌子上的杯子并抓取”在底层逻辑上是高度同构的。而且对于物理机器人而言,这项能力可以扩展到对真实世界环境(如操作面板、设备仪表、复杂工具界面)的识别和操作。

03 自定义Agent展望,每个人自己的工作与生活助手

当前大模型在不断迭代,推理能力与工具使用能力不断升级,基于大模型创造的Agent能力越来越强。作为金融机构从业人员,我们展望了以下未来可能利用大模型制作的自定义Agent,尤其是对二级买卖方可能较实用的应用:

1.个人投研知识库
当前许多大模型或是原生AI应用已经具备了知识库的能力,例如腾讯的工作助手ima即可轻松保存个人资料并后续进行问答。我们展望未来,对于金融机构从业者,可将日常积累的上市公司调研纪要、行业专家访谈记录、内部策略会观点等核心资料导入知识库,Agent帮助进行信息检索以及分析。在协作场景中,研究员无需传输海量文件,仅需向同事开放特定主题的检索权限(如“共享算力产业链的政策解读类资料”),且能通过Agent追踪资料的引用轨迹与反馈意见。面向客户汇报时,Agent可快速根据汇报主题聚合相关研究成果,自动生成带数据支撑的观点摘要,大幅缩短材料筹备时间。

2.更智能的群发助手

目前微信已经有群发功能,我们展望未来,如果微信能在用户允许的情况下分析对每个好友的聊天记录,则可以做到更智能化的群发,如在群发时自动添加差异化的称呼,并附上贴合对方关注点的开场白。更进一步,Agent可能实现群发后再智能回复的闭环处理:收到客户的即时问询后,自动提取问题核心,分析群发内容以及自己个人的知识库生成初步回复。

3.微信消息等海量信息整理
对许多工种例如金融从业者,工作上如果微信消息、邮件等内容太多,信息过载成为影响决策效率的核心痛点,我们展望未来,用户自定义的Agent可以用大模型迅速提炼要点。腾讯云开发者社区就有使用AI把微信聊天记录变成可视化报告的案例。
另外其他信息比如每天更新的券商研报、关注的公众号等内容也可以用AI进行摘要。从业者可向Agent预设个性化的提炼规则:例如设置优先提取AI相关信息;对于多份研报实现推荐标的推荐频次统计等。

4.个性化的工作助理
现在许多大模型可以保存自定义的个性化设置,而不用每次在新的对话中调整要求,例如ChatGPT。例如作为投研助手Agent来使用的情况,可以要求大模型按特定的风格输出回答,涉及任何引用网络资料的回答都自动给出权威来源链接。

5.AI编程制作数据分析代码等
对于一些比较明确的数据分析、图表可视化等工作内容,使用代码来构建一个工作流程
可以大幅降低重复工作量。对缺乏专业编程能力的用户,大模型的编程能力恰好弥补了这一短板,通过简单对话就能靠AI编程制作实用的工具。例如对于券商研报需要制作底稿的需求,可以在一边撰写文档时一边将底稿内容写入Word批注,再利用代码提取批注内容生成底稿文件。对于需要经常提交复杂报销材料的工作,如果未来各订票应用开放接口,也可以制作符合自己公司流程的报销助手。

6.生活助手

近期美团已经在上线测试其生活助手“小美”。功能包括点餐等。我们认为未来将有许多涉猎电商、本地生活的公司推出类似产品,但这类AI助手预计一般情况下只会和自己公司内部的应用打通,例如“小美”会在服务时调用美团。理想情况下用户应该可以自定义一个符合自己喜好的Agent,并且可以调用不同的竞品应用,比如在点外卖时对美团、淘宝、京东等平台都进行查询对比。


本文来源于:国盛证券

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章