OpenAI发布GPT-5.6系列模型,Sol基准测试超越Claude Mythos,应美政府要求限量开放

李丹、龙玥
304
GPT-5.6系列包括旗舰版Sol、兼顾效率与日常工作的Terra、快速且低价版Luna,定价最高的Sol收费为5美元/百万输入token 、30美元/百万输出token,只有Anthropic Fable 5模型的一半左右,旗舰版Sol在智能体编程基准上超越Mythos 5。但这一轮模型发布因美国政府介入而显得与众不同。OpenAI称,目前GPT-5.6仅向有限数量的可信合作伙伴开放预览,计划未来几周内全面推出。

OpenAI正式发布GPT-5.6系列模型,旗舰版Sol在智能体编程基准上超越Anthropic Claude Mythos 5,并以约一半定价与之竞争,但这一轮模型发布因美国政府介入而显得与众不同。

此次GPT-5.6系列包括旗舰版Sol、均衡版Terra以及轻量版Luna。不同于以往的公开发布,OpenAI并未立即全面开放,而是在美国政府要求下,仅向少数“可信合作伙伴”(trusted partners)提供预览权限。定价最高的Sol收费为5美元/百万输入token、30美元/百万输出token,约为Anthropic Claude Fable 5对应价格的一半。

OpenAI表示,这是为了配合美国政府建立针对前沿AI模型的安全评估流程,但同时罕见公开强调,政府审批式的模型开放机制“不应成为长期默认模式”。这一表态意味着,在特朗普政府不断强化前沿AI国家安全监管背景下,美国AI公司的模型发布已经进入一个新的阶段:不仅模型能力成为竞争焦点,模型发布本身也开始接受政府安全审查。

GPT-5.6系列Sol、Terra、Luna三档定位

美东时间26日周五,OpenAI同时公布了GPT-5.6系列的三款模型,包括“我们的下一代前沿模型 GPT-5.6 Sol;兼顾效率与日常工作的平衡型模型 GPT-5.6 Terra;以及适用于高频次、大规模任务的快速且经济实惠的模型 GPT-5.6 Luna”。

  • GPT-5.6 Sol:定位旗舰模型,面向最复杂推理、科研、软件开发、网络安全、生物研究以及Agent工作流。
  • GPT-5.6 Terra:主打综合能力,相较GPT-5.5保持接近性能,但成本降低约50%,定位企业及日常生产力场景。
  • GPT-5.6 Luna:速度最快、价格最低,适合大规模在线服务及高吞吐场景。

其中,Sol新增更高阶模式,包括:

  • Max:更长时间思考、更深层推理;
  • Ultra:能够协调多个子Agent完成复杂长期任务。

值得注意的是,GPT-5.6的命名逻辑与Claude系列颇为相似——数字(x.6)标记模型代次,Sol、Terra、Luna则是可以独立迭代演进的固定性能档位。

OpenAI表示,新模型在软件工程、自主智能体(Agent)任务、网络安全、防御研究等领域均取得显著提升,并经过超过70万GPU小时自动化安全测试以及大量外部红队评估。

服务定价方面,GPT-5.6 Sol的收费为5美元/百万输入token 、30美元/百万输出token,这一成本仅为Anthropic 旗下 Claude Fable 5模型的一半左右,后者的费率为10 美元/百万输入token、50 美元/百万输出token。Terra的收费是Sol的一半,Luna的收费则不到Terra 的一半。

此外,OpenAI还对提示缓存机制进行了升级,支持自定义缓存断点,最低缓存有效期为30分钟,缓存写入按未缓存输入价格的1.25倍计费,缓存读取维持九折优惠。由于Sol在多个基准测试中以更少token匹敌或超越竞品,实际每任务成本可能低于前代,有望对冲AI模型越来越贵的行业趋势,同时加强对中国低价模型的竞争力。

7月,Sol还将在Cerebras硬件上部署,推理速度可达每秒750个token,初期面向特定客户开放。

与Claude Mythos正面交锋:智能体编程领先,网络安全效率更高

此次GPT-5.6 Sol的发布,被外界普遍视为OpenAI对Anthropic Mythos级模型的直接回应。OpenAI公布了一组重点基准数据,以呈现Sol与Claude Mythos系列的能力对比。

智能体编程方面,Sol表现最为突出。在Terminal-Bench 2.1基准上,GPT-5.6 Sol Ultra得分91.9%,GPT-5.6 Sol得分88.8%,均超过Claude Mythos 5的88.0%和Claude Fable 5的84.3%。该基准主要测试命令行工作流中的规划、迭代与工具协调能力,是衡量AI智能体实战能力的重要指标。

网络安全方面,Sol在ExploitBench上仅使用约三分之一的输出token,就达到了与Anthropic Mythos Preview相当的表现水平;而Claude Mythos 5在该项测试中仍处于领先,但OpenAI未提供Mythos 5的对应效率数据。OpenAI将Sol定位为"防御者而非攻击者"——模型更擅长发现和修复漏洞,而非自主发起端到端攻击。

生物学领域,Sol在GeneBench v1(基因组学与定量生物学分析基准)上超越GPT-5.5,同时消耗更少token,但OpenAI未披露与Anthropic模型的直接对比数据。在HealthBench Professional和HealthBench Hard上,Sol相比GPT-5.5有所提升,在HealthBench和HealthBench Consensus上则基本持平。

有市场观察人士指出,Sol与Claude Mythos系列在当前基准上整体互有胜负,约有一半指标持平或小幅领先,但总体尚未达到Fable的全面水平

ExploitGym方面(由加州大学伯克利分校研究人员与OpenAI等实验室联合创建),GPT-5.6 Sol、Terra和Luna均随推理强度提升展现出增强的网络安全能力,显示出算力扩展空间;目前尚无Claude系列在该基准上的可比数据。

最大变化是发布方式 美国政府要求限制开放

相比模型性能,更受市场关注的是此次发布方式。

OpenAI宣布,目前GPT-5.6系列仅向有限数量的可信合作伙伴开放预览。这一安排并非OpenAI主动决定,而是应特朗普政府要求实施。OpenAI在公告中披露:

“作为与美国政府持续沟通的一部分,在今天发布之前,我们先行展示了我们的计划及模型能力。应政府要求,我们将首先向一小部分受信任的合作伙伴提供有限预览,这些合作伙伴的参与情况已向政府报备,随后再进行更广泛的发布。”

媒体指出,美国政府希望在模型全面公开前,对具有潜在网络安全能力的前沿模型建立统一审查流程,因此要求OpenAI采取分阶段发布策略,仅允许经过批准的机构首先接入模型。首批获得权限的企业约二十家左右,未来几周将逐步扩大开放范围。

报道称,在当前机制下,部分客户的模型访问权限甚至需要政府逐一批准。

这一安排延续了近期特朗普政府针对前沿AI模型实施的更严格监管思路。此前,美国政府已要求Anthropic撤回部分新模型公开发布,并建立针对“受监管前沿模型”(Covered Frontier Models)的评估体系。

OpenAI公开表达对政府审批的担忧 希望建立可重复执行的发布流程

虽然配合美国政府的要求实施限量开放,但OpenAI在官方公告中专门加入了一段措辞颇为强硬的声明。

公告先是明确表示,OpenAI“坚信应实现广泛的访问权限,并计划在未来几周内全面推出 GPT-5.6 Sol、Terra 和 Luna 模型”,称在提供模型预览期间,将继续进行测试并与合作伙伴密切协作,以推进更广泛的开放,然后写道:

我们认为,这种政府介入的访问流程不应成为长期默认模式。它阻碍了那些真正需要这些顶尖工具的用户、开发者、企业、网络安全防御者及全球合作伙伴获取这些资源。

我们采取这一短期举措,是因为我们相信这是在未来几周内实现更广泛发布的最佳途径;与此同时,我们将与政府合作,制定关于网络安全的行政命令框架,并建立一套适用于未来模型发布的、可重复执行的流程。”

这是OpenAI此次公告最受关注的表态之一。

公司一方面明确表示支持特朗普政府维护国家安全的目标;另一方面也强调,前沿AI模型应尽快向开发者、科研机构、企业及网络安全防御者开放,因为这些群体都需要及时获得先进AI能力。

OpenAI进一步表示,希望借此次预览,与美国政府共同建立一套清晰、可重复执行的审批流程,而不是让政府逐案审批成为未来AI行业长期运行方式。

模型安全评估:尚未达到最高风险等级

OpenAI同时公布最新部署安全评估结果。

根据Deployment Safety报告,GPT-5.6虽然在自主执行任务、漏洞分析及复杂推理方面能力进一步增强,但公司认为其尚未达到Preparedness Framework中需要最高等级限制的危险阈值。

OpenAI表示:模型网络安全能力明显增强;更擅长发现软件漏洞,而非帮助实施攻击;尚未达到必须全面限制部署的危险等级;发布前已接受自动化测试、专家红队以及外部机构评估。

具体而言,在受控测试条件下,Sol能够识别Chromium和Firefox中的漏洞及利用原语,但尚未能自主生成完整的漏洞利用链,因此未触及"网络安全关键"(Cyber Critical)评估阈值。

整套安全防护框架采用多层叠加设计:模型层面训练了对违禁网络攻击请求的拒绝能力,包括针对伪装意图和越狱尝试的识别;生成过程中部署了实时分类器,一旦检测到潜在违规,系统将暂停并由更大规模的推理模型进行审查,确认违规后输出将在到达用户前被拦截;账户层面的风险信号监控则可跨会话识别持续性恶意行为模式,将其与合法的双重用途安全研究区分开来。

Codex、ChatGPT也将升级至GPT-5.6

除API外,OpenAI表示:

  • ChatGPT未来将逐步接入GPT-5.6系列;
  • Codex也将升级至GPT-5.6模型;
  • 开发者平台随后将开放更多访问权限。

媒体指出,此次升级意味着OpenAI未来整个产品体系——包括ChatGPT、Codex及API——都将逐步切换至GPT-5.6架构,只是全面开放时间仍取决于此次政府审查流程推进情况。

AI竞争进入新阶段:不仅比模型,更比监管

业内人士认为,此次GPT-5.6发布最大的意义,可能并非模型性能再次提升,而是美国政府首次深度介入全球最先进AI模型的发布流程。

继Anthropic之后,OpenAI同样需要在模型上线前接受政府安全评估,意味着美国AI监管正从传统行业监管逐步转向前沿模型部署管理。

不过,OpenAI此次公开强调不认为政府审批的流程应成为长期默认做法,也显示公司希望当前安排仅属于特殊时期的过渡机制,而非未来AI产业长期运行规则。

未来几周,随着GPT-5.6逐步扩大开放,以及美国政府正式建立前沿模型审查制度,AI行业如何在国家安全与技术开放之间寻找平衡,将成为全球AI竞争的新焦点。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关阅读