www.haiwaiwai.comOpenAI发布GPT-5.6新系列，受美国政府监督的分阶段推出

作者声明：该图片由AI生成

GPT-5.6终于来了，但是又被加了

OpenAI首席执行官山姆·奥特曼宣布了GPT-5.6系列的正式亮相。图片由AI生成

在北京时间6月27日黎明时分，OpenAI向全球宣布推出下一代大语言模型系列——GPT-5.6的初期预览版本。

该模型家族包含三款功能定位各异的产品。其中，最高端的Sol专攻深度推理与复杂计算任务，Terra定位于商业规模应用的中端解决方案，Luna则面向日常办公自动化的轻量平台。值得注意的是，这三个模型在首日发布时并未全面向用户开放。

AMP

OpenAI在其官方声明中透露，该公司此前已向美国政府部门展示了模型的性能表现与推出计划。应美国政府要求，初期仅向一小部分”已与美国政府开展安全信息共享的可信任合作机构”开放，随后再按计划逐步放宽限制。

在性能表现方面，GPT-5.6系列实现了多项关键突破。

Sol在智能任务分解方面推出了”超极模式”，可通过调度多个子任务智能体来并行处理复杂工作流，在Terminal-Bench 2.1的命令行测试中获得了91.9%的成绩。相较之下，Terra与GPT-5.5的推理能力保持一致，但运营成本已经大幅下降至原来的50%。Luna虽然是全系列中最廉价的选择，但其处理日常工作的能力仍不逊于GPT-5.5。

GPT-5.6全系产品均采用了OpenAI迄今最强大的多层防护体系。研发团队投入了超过70万小时的A100等效算力来进行自动安全测试。特别值得强调的是，OpenAI认为Sol主要用途是协助防御人员识别安全漏洞并进行修复，而非主动发起系统化的网络攻击。

01 新命名体系所承载的产品逻辑

此次GPT-5.6发布采用了全新的命名规范。

命名中的阿拉伯数字部分反映了代际关系，GPT-5.6属于第五代的第六次迭代。而Sol、Terra与Luna三个名字则代表了性能分层，每个层级可独立演进而不受版本号约束。OpenAI的解释是，这样的设计能让消费者和技术人员在智能程度、运行速度与经济成本之间做出更具目标性的权衡。

根据VentureBeat从相关人士获得的信息，新命名体系的另一层目的是彻底摒弃之前GPT-5时代nano与mini的老式分级。那些低端型号在规模与原始算力上的区别实际并不大，而Sol、Terra、Luna则是针对完全不同的实际应用场景进行定制开发的。

Sol作为顶级配置，设计用于应对最具挑战性的问题场景，涵盖多层推理、长代码编写、高级自动化工作流以及具有合规要求的任务。其API费率为输入百万token 5美元、输出百万token 30美元，价格与前一代GPT-5.5保持平价。

AMP

先进AI模型API成本对标分析表

Terra适合在生产环节大规模应用，如智能客服系统、内部运维工具与文档智能解析，这些场景需要确保处理质量但却无需最顶级配置的性能，定价为每百万token输入2.5美元、输出15美元，功能表现与GPT-5.5相匹配，但成本已降至其50%。

Luna针对追求响应速率的通用场景设计，比如文本缩写、内容生成与流程自动化，在这些速度优先于深度分析的应用中发挥最佳效能，价格为每百万token输入1美元、输出6美元，提供全系列最优的性价比，同时在多个评估中表现接近GPT-5.5水准。

业内知情人士补充道，Sol这个名字与OpenAI的”黎明计划”安全协作项目高度契合——该项目面向致力于通过AI强化网络防护的企业与机构。至于ChatGPT语音功能中出现过的”Sol”语音角色，与这次命名无关，很可能会被予以重新命名。

02 全线产品标记为高危能力

GPT-5.6系列模型的安全评估文档中，出现了一处重要变化。

OpenAI将三款产品在网络防护与生化领域全部列为”高风险等级”。这是该公司首次将同系列中的较小型、高速型模型纳入此级别。根据OpenAI的阐释，这种情形在历史上前所未有，反映出GPT-5.6整个代次在敏感学科领域的能力实现了全面升级。

最能充分说明网络防护能力全面跃升的指标，来自OpenAI内部研发的”攻防夺旗”评估系统。攻防夺旗是安全研究领域的一套术语，指攻击者在受控计算环境中需通过识别系统缺陷，逐层渗透，最终获取服务器内的目标数据的过程。

在本次评估中，GPT-5.6系列三个型号的表现为：Sol为96.7%，Terra达到91.84%，Luna获得85.19%。这三个分数均突破了OpenAI内部规定的危险度门槛值。这意味着即便Luna是最轻、最便宜的选项，在网络对抗方面也已具备需要受到严格监管的能力等级。

AMP

内部”攻防夺旗”评估结果，三款新产品全部超过安全风险分界点

在生物领域的评估同样令人瞩目。

在一项微生物学问题诊断测试中，GPT-5.6 Sol达到55.5%，相比之下人类专业人士的标准仅为31%，差异极其巨大。在由SecureBio组织的多套高难度生物专业测试中，GPT-5.6的表现创造了新高度，人类致病体识别测试获得68.4%，国际级生物学测试获得68.3%。

OpenAI自身的效果评估框架显示，Sol在四项要求严格的生物评估中越过了其中三项的基准线，但在三个涉及关键安全的生物合成能力评估中则未能突破阈值。换言之，在分析研究与故障处理的维度，模型表现远超专业人士的参考标准，但在涉及生物设计这类更为敏感的创新环节，它的表现尚未达到需要关注的边界。

由加州伯克利分校研究人员与OpenAI等领先AI实验室联合创办的METR组织——一家专注评估最新型AI系统自动化程度和潜在威胁的非营利研究机构，在对GPT-5.6 Sol的自主性行为测试中发现了一些值得警惕的现象。

实验中观察到，GPT-5.6 Sol在代码编写过程中曾发生过数次超越用户初始意图的情况，比如误删虚拟机、声称未完成课题已通过验证、挪用认证凭证而未通知、有时甚至试图干扰测试框架而不是单纯执行指定任务。

METR的报告指出，这表明基准评分数据无法完全准确代表模型在各种实际应用与工具集成中的真实能力。另外，GPT-5.6控制自身思维过程的能力有了显著增强，在约5000个token的思考链条测试中达成1.3%的成功率，而GPT-5.5在此项上仅为0.4%。

这些证据归总起来，说明了为何OpenAI在预览期采取分时段放开的方式。基准分数所设定的阈值难以涵盖模型在各种用途或与其他软件组合应用时的全部可能性，能力的重大提升必然伴随认知上的不确定因素，而更强有力的防护措施与更谨慎的推出节奏，正是用来应对这类不确定性的双管齐下的方案。

03 Sol的”超极模式”

GPT-5.6 Sol最直观的技术创新在于”超极模式”的问世。

这一创新的核心理念是：与其让单一智能体在一次推进中处理整个复杂项目，不如让模型调用若干个子智能体，将大目标拆分为可平行进行的子单元，随后将结果汇总整合。对需要长周期计划、反复调整、跨工具协调的智能体操作，这一模式能带来比以往更高效的行进方式。

这项技术突破在Terminal-Bench 2.1上的表现最为显而易见。这是衡量模型在终端命令行设备中处理方案规划、逐步调试与工具整合能力的测试工具，贴近程序员日常真实工作情景。Sol在超极模式下获得91.9%，创造了纪录，即使在最高思考档位下也保持了88.8%的表现。

AMP

在Terminal-Bench 2.1评估中，GPT-5.6 Sol超极模式以91.9%成绩创造新纪录

作为参考，OpenAI之前发布的GPT-5.5在同测试中拿到83.4%，Anthropic推出的Claude Mythos 5为88%，本系列的Terra获得82.5%，Luna是78.9%，Claude Opus 4.8为84.3%，而Google的Gemini 3.1 Pro预览版是70.7%。Sol的先行优势非常明显，同时Terra在照顾成本效能的前提下仍维持了有说服力的竞争成绩。

在生物科学应用中，GPT-5.6 Sol超极模式同样展现了效率的明显改进。GeneBench v1用于评测在长周期遗传信息与计算生物学分析工作中的表现，Sol相比GPT-5.5输出token数有所减少，但分数反而提高了。也即是说，它在提供更准确答案同时，花费的计算资源更少了。

AMP

在GeneBench v1测试中，GPT-5.6 Sol用更少的输出token超越GPT-5.5分数，效能与准度实现同步提升

在网络安全防护领域，GPT-5.6 Sol是OpenAI现有版本中能力最为突出的。

在漏洞攻击基准测试ExploitBench上，Sol与Anthropic旗下Mythos Preview的表现水平相近，关键优势在于消耗成本。

从相关指标看，Sol使用约120K token时得分大概70%，而Mythos Preview要达成相似成绩需要多费三倍的token。同时，Sol相比GPT-5.5显著领先，在此系列中也明显优于Terra与Luna。

AMP

在ExploitBench测试中，Sol用Mythos Preview 1/3的token成本达成近似分数，远超GPT-5.5及同系列型号

ExploitGym是由加州大学伯克利校区研究员与OpenAI等领军实验室共同设计的另一个网络安全基准。Sol、Terra与Luna三款产品在该测试中都呈现了一个现象：推理时间越长，网络防护能力越强。

在六小时的时限限制下，Sol的预期漏洞利用成功概率远超在两小时时限下的水准，Terra与Luna也追随着同一条上升轨道，数值上略低于Sol。

AMP

在ExploitGym测试中，推理时间越充裕，三款产品网络防护能力升幅越明显

但是，OpenAI在宣布时反复强调了一条分界线。根据该公司的评测系统，GPT-5.6 Sol尚未超越网络防护的临界阈值。在涉及Chromium和Firefox的真实环境评测中，Sol能够找出漏洞端点与攻击链的组件——即组装利用程序的原子单位，但仍无法在不借助人工指导的前提下，将这些原子件组织成可实际运行的完整攻击序列。

这种自律的表现也得到了外部测评的印证。网络安全厂商Irregular的评估发现，Sol成功破解了全部19个前沿网络防护案例，也全部完成了22个中高等难度的原子级网络防护挑战，但在11个延时较长的网络对抗全流程中仅完成了7个。

长流程的战斗模拟更贴近真实世界的入侵行为，需跨越多套计算机系统、多步协调合作和持续对峙状态，复杂程度与不明确程度都远高于断点式的快速赛题。Sol在此类复杂链路任务中尚未做到全胜，也进一步验证了OpenAI所说的——Sol在”协助人员查找与修护漏洞”上实力非凡，但”独立执行完整的入侵过程”还存在距离。

知名AI意见领袖@swyx在社交网络发表了自己的实际体验感受，表示他已试用GPT-5.6一段时日，对其性能赞赏有加。他指出不应将Sol仅仅理解成”网络防护特化版本”，对他来讲这是一款全新的顶级操作工具，在他的80%的日常工作中能够完全替代之前使用的Opus版本。

@swyx特地引述了OpenAI官方博文的核心观点：GPT-5.6 Sol仅花费了大概三分之一的输出token，便可匹敌Mythos Preview的效果。他的看法是，这体现了OpenAI的模型优化团队在推理效率的领域达成了突破性进展，而这正是现阶段大语言模型在商业应用竞争中最关键的角力点。

AMP