OpenAI发布GPT-5.6系列模型，Sol基准测试超越Claude Mythos，应美政府要求限量开放

李丹、龙玥

10:52

304

GPT-5.6系列包括旗舰版Sol、兼顾效率与日常工作的Terra、快速且低价版Luna，定价最高的Sol收费为5美元/百万输入token 、30美元/百万输出token，只有Anthropic Fable 5模型的一半左右，旗舰版Sol在智能体编程基准上超越Mythos 5。但这一轮模型发布因美国政府介入而显得与众不同。OpenAI称，目前GPT-5.6仅向有限数量的可信合作伙伴开放预览，计划未来几周内全面推出。

OpenAI正式发布GPT-5.6系列模型，旗舰版Sol在智能体编程基准上超越Anthropic Claude Mythos 5，并以约一半定价与之竞争，但这一轮模型发布因美国政府介入而显得与众不同。

此次GPT-5.6系列包括旗舰版Sol、均衡版Terra以及轻量版Luna。不同于以往的公开发布，OpenAI并未立即全面开放，而是在美国政府要求下，仅向少数“可信合作伙伴”（trusted partners）提供预览权限。定价最高的Sol收费为5美元/百万输入token、30美元/百万输出token，约为Anthropic Claude Fable 5对应价格的一半。

OpenAI表示，这是为了配合美国政府建立针对前沿AI模型的安全评估流程，但同时罕见公开强调，政府审批式的模型开放机制“不应成为长期默认模式”。这一表态意味着，在特朗普政府不断强化前沿AI国家安全监管背景下，美国AI公司的模型发布已经进入一个新的阶段：不仅模型能力成为竞争焦点，模型发布本身也开始接受政府安全审查。

GPT-5.6系列Sol、Terra、Luna三档定位

美东时间26日周五，OpenAI同时公布了GPT-5.6系列的三款模型，包括“我们的下一代前沿模型 GPT-5.6 Sol；兼顾效率与日常工作的平衡型模型 GPT-5.6 Terra；以及适用于高频次、大规模任务的快速且经济实惠的模型 GPT-5.6 Luna”。

GPT-5.6 Sol：定位旗舰模型，面向最复杂推理、科研、软件开发、网络安全、生物研究以及Agent工作流。
GPT-5.6 Terra：主打综合能力，相较GPT-5.5保持接近性能，但成本降低约50%，定位企业及日常生产力场景。
GPT-5.6 Luna：速度最快、价格最低，适合大规模在线服务及高吞吐场景。

其中，Sol新增更高阶模式，包括：

Max：更长时间思考、更深层推理；
Ultra：能够协调多个子Agent完成复杂长期任务。

值得注意的是，GPT-5.6的命名逻辑与Claude系列颇为相似——数字（x.6）标记模型代次，Sol、Terra、Luna则是可以独立迭代演进的固定性能档位。

OpenAI表示，新模型在软件工程、自主智能体（Agent）任务、网络安全、防御研究等领域均取得显著提升，并经过超过70万GPU小时自动化安全测试以及大量外部红队评估。

服务定价方面，GPT-5.6 Sol的收费为5美元/百万输入token 、30美元/百万输出token，这一成本仅为Anthropic 旗下 Claude Fable 5模型的一半左右，后者的费率为10 美元/百万输入token、50 美元/百万输出token。Terra的收费是Sol的一半，Luna的收费则不到Terra 的一半。

此外，OpenAI还对提示缓存机制进行了升级，支持自定义缓存断点，最低缓存有效期为30分钟，缓存写入按未缓存输入价格的1.25倍计费，缓存读取维持九折优惠。由于Sol在多个基准测试中以更少token匹敌或超越竞品，实际每任务成本可能低于前代，有望对冲AI模型越来越贵的行业趋势，同时加强对中国低价模型的竞争力。

7月，Sol还将在Cerebras硬件上部署，推理速度可达每秒750个token，初期面向特定客户开放。

与Claude Mythos正面交锋：智能体编程领先，网络安全效率更高

此次GPT-5.6 Sol的发布，被外界普遍视为OpenAI对Anthropic Mythos级模型的直接回应。OpenAI公布了一组重点基准数据，以呈现Sol与Claude Mythos系列的能力对比。

智能体编程方面，Sol表现最为突出。在Terminal-Bench 2.1基准上，GPT-5.6 Sol Ultra得分91.9%，GPT-5.6 Sol得分88.8%，均超过Claude Mythos 5的88.0%和Claude Fable 5的84.3%。该基准主要测试命令行工作流中的规划、迭代与工具协调能力，是衡量AI智能体实战能力的重要指标。

网络安全方面，Sol在ExploitBench上仅使用约三分之一的输出token，就达到了与Anthropic Mythos Preview相当的表现水平；而Claude Mythos 5在该项测试中仍处于领先，但OpenAI未提供Mythos 5的对应效率数据。OpenAI将Sol定位为"防御者而非攻击者"——模型更擅长发现和修复漏洞，而非自主发起端到端攻击。

生物学领域，Sol在GeneBench v1（基因组学与定量生物学分析基准）上超越GPT-5.5，同时消耗更少token，但OpenAI未披露与Anthropic模型的直接对比数据。在HealthBench Professional和HealthBench Hard上，Sol相比GPT-5.5有所提升，在HealthBench和HealthBench Consensus上则基本持平。

有市场观察人士指出，Sol与Claude Mythos系列在当前基准上整体互有胜负，约有一半指标持平或小幅领先，但总体尚未达到Fable的全面水平。

ExploitGym方面（由加州大学伯克利分校研究人员与OpenAI等实验室联合创建），GPT-5.6 Sol、Terra和Luna均随推理强度提升展现出增强的网络安全能力，显示出算力扩展空间；目前尚无Claude系列在该基准上的可比数据。

最大变化是发布方式美国政府要求限制开放

相比模型性能，更受市场关注的是此次发布方式。

OpenAI宣布，目前GPT-5.6系列仅向有限数量的可信合作伙伴开放预览。这一安排并非OpenAI主动决定，而是应特朗普政府要求实施。OpenAI在公告中披露：

“作为与美国政府持续沟通的一部分，在今天发布之前，我们先行展示了我们的计划及模型能力。应政府要求，我们将首先向一小部分受信任的合作伙伴提供有限预览，这些合作伙伴的参与情况已向政府报备，随后再进行更广泛的发布。”

媒体指出，美国政府希望在模型全面公开前，对具有潜在网络安全能力的前沿模型建立统一审查流程，因此要求OpenAI采取分阶段发布策略，仅允许经过批准的机构首先接入模型。首批获得权限的企业约二十家左右，未来几周将逐步扩大开放范围。

报道称，在当前机制下，部分客户的模型访问权限甚至需要政府逐一批准。

这一安排延续了近期特朗普政府针对前沿AI模型实施的更严格监管思路。此前，美国政府已要求Anthropic撤回部分新模型公开发布，并建立针对“受监管前沿模型”（Covered Frontier Models）的评估体系。

OpenAI公开表达对政府审批的担忧希望建立可重复执行的发布流程

虽然配合美国政府的要求实施限量开放，但OpenAI在官方公告中专门加入了一段措辞颇为强硬的声明。

公告先是明确表示，OpenAI“坚信应实现广泛的访问权限，并计划在未来几周内全面推出 GPT-5.6 Sol、Terra 和 Luna 模型”，称在提供模型预览期间，将继续进行测试并与合作伙伴密切协作，以推进更广泛的开放，然后写道：

“我们认为，这种政府介入的访问流程不应成为长期默认模式。它阻碍了那些真正需要这些顶尖工具的用户、开发者、企业、网络安全防御者及全球合作伙伴获取这些资源。

我们采取这一短期举措，是因为我们相信这是在未来几周内实现更广泛发布的最佳途径；与此同时，我们将与政府合作，制定关于网络安全的行政命令框架，并建立一套适用于未来模型发布的、可重复执行的流程。”

这是OpenAI此次公告最受关注的表态之一。

公司一方面明确表示支持特朗普政府维护国家安全的目标；另一方面也强调，前沿AI模型应尽快向开发者、科研机构、企业及网络安全防御者开放，因为这些群体都需要及时获得先进AI能力。

OpenAI进一步表示，希望借此次预览，与美国政府共同建立一套清晰、可重复执行的审批流程，而不是让政府逐案审批成为未来AI行业长期运行方式。

模型安全评估：尚未达到最高风险等级

OpenAI同时公布最新部署安全评估结果。

根据Deployment Safety报告，GPT-5.6虽然在自主执行任务、漏洞分析及复杂推理方面能力进一步增强，但公司认为其尚未达到Preparedness Framework中需要最高等级限制的危险阈值。

OpenAI表示：模型网络安全能力明显增强；更擅长发现软件漏洞，而非帮助实施攻击；尚未达到必须全面限制部署的危险等级；发布前已接受自动化测试、专家红队以及外部机构评估。

具体而言，在受控测试条件下，Sol能够识别Chromium和Firefox中的漏洞及利用原语，但尚未能自主生成完整的漏洞利用链，因此未触及"网络安全关键"（Cyber Critical）评估阈值。

整套安全防护框架采用多层叠加设计：模型层面训练了对违禁网络攻击请求的拒绝能力，包括针对伪装意图和越狱尝试的识别；生成过程中部署了实时分类器，一旦检测到潜在违规，系统将暂停并由更大规模的推理模型进行审查，确认违规后输出将在到达用户前被拦截；账户层面的风险信号监控则可跨会话识别持续性恶意行为模式，将其与合法的双重用途安全研究区分开来。

Codex、ChatGPT也将升级至GPT-5.6

除API外，OpenAI表示：

ChatGPT未来将逐步接入GPT-5.6系列；
Codex也将升级至GPT-5.6模型；
开发者平台随后将开放更多访问权限。

媒体指出，此次升级意味着OpenAI未来整个产品体系——包括ChatGPT、Codex及API——都将逐步切换至GPT-5.6架构，只是全面开放时间仍取决于此次政府审查流程推进情况。

AI竞争进入新阶段：不仅比模型，更比监管

业内人士认为，此次GPT-5.6发布最大的意义，可能并非模型性能再次提升，而是美国政府首次深度介入全球最先进AI模型的发布流程。

继Anthropic之后，OpenAI同样需要在模型上线前接受政府安全评估，意味着美国AI监管正从传统行业监管逐步转向前沿模型部署管理。

不过，OpenAI此次公开强调不认为政府审批的流程应成为长期默认做法，也显示公司希望当前安排仅属于特殊时期的过渡机制，而非未来AI产业长期运行规则。

未来几周，随着GPT-5.6逐步扩大开放，以及美国政府正式建立前沿模型审查制度，AI行业如何在国家安全与技术开放之间寻找平衡，将成为全球AI竞争的新焦点。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。