Claude Opus 4.8实测封神！强到离谱，也贵到肉痛

新智元

05/29 18:24

Claude Opus 4.8高强度模式下编程暴涨30分、写作79.6分；能重构代码库、生成学术论文。但神级表现极度依赖“Extra-High”模式，资源消耗巨大，用户频繁撞上$200/月额度墙，桌面端体验混乱。

Anthropic王者归来！

深夜，Anthropic全新发布Claude Opus 4.8，一举夺回全球AI王座。

Opus 4.8被定位为一款更强大的复杂任务模型，尤其是在编程、智能体任务和长时间推理方面。

更狠的是，神秘的Mythos几周之内即将面世！

而且，趁着这股东风，Anthropic紧接着宣布好消息——

以9650亿美元估值完成650亿美元融资，超越62天前OpenAI的8520亿美元的估值！

不过，当人们实测过后，整个科技界瞬间分裂成了两个截然不同的阵营。

一方面，是以知名评测媒体Every和部分硬核生产力用户为首的「狂热派」。

他们高呼Opus 4.8已经「封神」，甚至直言Anthropic这次实在是太低调了，「他们完全可以直接叫它Opus 5，根本不会有人有异议。」

他们直言，Opus 4.8是目前市面上「最全面、最接近人类灵魂与顶尖工程师结合体」的模型。

但另一方面，以Ruby on Rails创始人DHH、Redis之父antirez为首的「开发者老炮」，却在社交网络上公开拆台。

他们认为Opus 4.8的跑分虽然险胜老对手GPT-5.5，但实际的「编码体感」却依然落后，甚至直指Anthropic在基准测试的宣传上犯了重大错误。

一方面，它的「快速模式」、「动态工作流」看起来都很杀手级，另一方面，桌面端的体验，似乎又很拉垮。

Opus 4.8用起来的真实体感，究竟如何？

这是一次名不副实的挤牙膏，还是一次真正的大跃迁？

接下来，就让我们揭开全貌！

这不是Opus 4.8，是Opus 5！

首先，是以Every团队为代表的正方。

在长达一周的深度测试后，他们得出了震撼结论——这是我们测试过的最强模型，它简直是个怪物。

甚至可以说，它可以被叫做Opus 5。

暴涨30分的「资深工程师基准」

在极难的「高级工程师基准」测试中，上一代Opus 4.7曾让无数开发者大失所望，被指责为「难以使用、难以热爱」。

但Opus 4.8这一次打了一场漂亮的翻身仗。

在「超高强度」模式下，Opus 4.8拿下了63分的高分，不仅比Opus 4.7夸张地暴涨了30分，更是以1分的微弱优势，险胜了一直霸榜的GPT-5.5（62分）。

团队试着让它去彻底重构一个生产级别的代码库，结果Opus 4.8真的交付了一个能够完美运行的系统！

结果说明，Opus 4.8绝不仅仅是一个补全工具，而是一个能在Repo（代码仓库）级别进行长线思考的架构师。

79.6分全场最高：击穿「AI感」的最强写手

如果说代码能力是理科生的浪漫，那么写作能力则是衡量模型EQ的终极标准。

在Every的写作基准测试中（涵盖论文、推广邮件、长篇叙事等真实场景），Opus 4.8直接艳压一众模型。

Opus 4.8跑出了79.6的绝对高分，远远甩开了自家兄弟Sonnet 4.6（74.5）、老对手GPT-5.5（73）以及前代Opus 4.7（63）。

「这是一种非常奇妙的体验。」多位创作者反馈。Opus 4.8极大地减少了令人不适的「AI味」。

当你给它一份风格指南后，它能异常精准地模仿你的语气。

它甚至展现出了极高的心理学和人际交往洞察力，当你试图和它探讨一些深刻的心理问题时，它的回答毫不敷衍，而是会「质疑你的预设框架」，提供丰富、动态且极其具有深度的思考过程。

100万Token的统治力，企业级应用一把过

除了跑分，Opus 4.8在复杂知识工作中的表现堪称怪兽。

它依然保持了100万Token的超大上下文窗口，这意味着你可以把一整本书的手稿、几周的会议记录，甚至一个完整的企业代码库一口气塞给它。

最让商业咨询圈震惊的是，在企业级PPT生成测试中，Opus 4.8在Zero-shot的情况下，产出了一份结构清晰、设计合理、叙事逻辑堪称完美的PPT。这是过去所有模型都无法做到的。

知名云存储服务商Box，也在第一时间将Opus 4.8接入了其Box AI Agent并在真实企业数据上进行了测试，结果呈现出碾压态势。

· 报告起草：在工业品报告任务中，4.8得分87%（对比4.7的77%）；消费品发布评估任务中，得分高达90%。

· 法律审查：Opus 4.8能够极其精准地抓取合规标准，找出潜在的合同漏洞，并在多次独立测试中保持近乎完美的稳定性。

· 财务数据分析：在复杂的银团贷款与双边贷款结构对比中，从繁杂的源文档中提取准确财务指标的能力，比上一代提升了近8个百分点。

沃顿商学院教授Ethan Mollick的实测更是令人拍案叫绝。

他把几年前数百份去匿名化的研究文件扔进Claude Code中的Opus 4.8。

结果，Opus 4.8自主完成了提前提出假设、数据清洗、寻找参考文献、进行深度分析、稳健性检验，最后直接用LaTeX格式排版输出了一篇高度专业的小型学术论文！

有趣的是，Mollick教授用GPT-5.5 Pro作为这篇论文的「审稿人」，GPT-5.5挑出了一个幻觉错误和几个小问题，随后Opus 4.8立刻虚心接受，完美修正。

或许这就是为什么Every的CEO Dan Shipper激动地将Opus 4.8称为自己的「心头好」。

一个不可思议的软件工程师，同时又是一个拥有深度和同理心的近乎人类的作家，二者完美相融。

沃顿商学院教授实测的一个Opus 4.8惊艳案例

被群嘲的桌面端与「高智商税」

如此强大的模型，为何没有在全网形成绝对的碾压之势？

因为Opus 4.8身上背负着两个沉重的枷锁。

「大力出奇迹」的代价，是被智商分级绑架

评测机构很快发现了一个尴尬的事实：Opus 4.8的「神级表现」，可以说是病态地依赖于你给它设定的推理强度（Effort Level）。

在/effort的设定中，只有当档位拉到「Extra-High」时，Opus 4.8才是那个得分63的资深工程师；一旦降级到「High」，它的编码得分会瞬间暴跌至42，秒变平庸码农。

在写作上也是如此。High档位下的Opus 4.8文笔优雅、逻辑严密；但一旦切到Medium，它就会瞬间原形毕露，暴露出AI最糟糕的套路化写作恶习。

网友Haider尖锐地指出了这背后的技术退步：

我注意到了一个现象，4.8在低强度下消耗的Token，几乎和4.6在高强度下一样多。

GPT-5.5倾向于用更少的Token拿到更高的分数；而4.8似乎走向了反面，它在用海量的Token堆砌智能。

这就导致了Opus系列一直被诟病的硬伤——Rate Limits。

由于高强度模式极度消耗资源，大量订阅了$200/月Max套餐的高端用户反馈，在运行复杂Agent任务时，常常几个小时就会撞上额度墙。

网友BridgeMind直言，自己为了测试连续烧穿了两个200美元的账号。

显然，相较于OpenAI庞大算力支撑下的宽容生态，Anthropic显得过于抠门了。

混乱的UI设计

如果说模型是引擎，那么客户端应用就是底盘。而Claude的底盘，正在严重拖累这台跑车。

多位深度评测者指出，Claude桌面端的设计简直是一场灾难。

Chat、Code、Cowork三个独立标签页的分割，被指责为「混乱不堪」。

这种割裂的UI设计，被戏称是「带着时间推移的伤疤和Anthropic内部组织架构图的缩影」。（太亮了）

相比之下，OpenAI的Codex桌面端应用被公认为是「干净、快速，让人感觉这就是未来」。

Opus 4.8的硬核实力确实让很多人想回归Claude，但糟糕的软件交互体验，最终还是让很多人把GPT-5.5+Codex作为日常主力，只在处理复杂任务时，才会捏着鼻子切回Claude。

极其糟糕的「笼子」

大牛工程师Anthony Koeger是这样评价的：最近流行的这句话实在太对了，「一个模型的好坏，取决于套在它外面的那层壳（A model is only as good as its harness）。」

而Opus这次有些拉跨。

是关于「诚实」的营销，还是「跑分陷阱」下的战略失误？

伴随着Opus 4.8的发布，全网也爆发了一场关于大模型「跑分意义的空前激辩。

这场争论的导火索，就是一张Anthropic自己制作的官方发布图。

眼尖的网友Aakash Gupta发现了一个极不寻常的细节——

在Anthropic发布的各模型能力对比图中，在TerminalCoding这一项上，GPT-5.5的成绩是78.2%，而Opus 4.8只有74.6%。

正常情况下，任何一家大厂的公关部，都会把输掉的测试项悄悄从PPT上抹去。

但Anthropic没有，他们不仅把失败留在了图表上，甚至还主动把GPT-5.5那代表胜利的78.2%做了加粗处理。

Aakash对此大加赞赏，认为这显示出Opus4.8的核心卖点——诚实。

在大型Agent任务中，模型最昂贵、最致命的失败模式，就是「过度自信」。

而Opus 4.8最大的隐性升级，就是它更愿意承认自己不确定。官方数据显示，4.8在代码中留下缺陷却不声张的概率，比4.7降低了惊人的4倍。

这次，Anthropic卖的不是跑分，而是诚实。

在Vending Bench测试中，Claude Opus 4.8的表现也远逊于Opus 4.7和GPT 5.5

然而，业界大佬们并不买账。

Ruby on Rails创始人和Redis之父，这两位在开发者社区拥有极高话语权的大神，直接对Anthropic开炮。

DHH坦言，自从用了GPT-5.5之后，他经历了无数次震撼时刻，这是他在Claude阵营很久没有体会到的了。

antirez更是尖锐地指出，Anthropic这次把GPT-5.5放在同一张图里对比，犯了一个「重大的战略错误」。

过去的厂商比拼，往往是拿新一代模型和自己的上一代比。

但这次，Anthropic非要和GPT-5.5比。问题在于，现在全网的「体感」是，GPT-5.5的写代码能力非常、非常强悍。

当你Anthropic拿着一张图表，告诉大家你的Opus4.8跑分比GPT-5.5还要高。

但我们用起来却觉得并非如此时，你不仅不能证明你更强，反而会让用户觉得你们的基准测试是在自娱自乐，彻底失去公信力。

网友aditya的吐槽更是直击灵魂：

用了快一个小时的Opus 4.8，它根本不值得炒作。

几个很普通的工程任务，它全搞砸了。

在前端领域，网友也感到失落：「用了几个小时4.8，感觉还不如4.7顺手。」

这一现象印证了AI大V Chubby的观察：Anthropic现在仿佛在拼命追赶OpenAI，而不是以前那样在引领整个行业了。

面对即将到来的GPT-5.6，Anthropic的王座显得摇摇欲坠。

有人做了一个速查表，结论是GPT 5.5和Opus 4.8的胜负取决于推理能力和获得第一个token的时间

大牛工程师Anthony Koeger是这样评价的：最近流行的这句话实在太对了，「一个模型的好坏，取决于套在它外面的那层壳（A model is only as good as its harness）。」

而Opus这次有些拉跨。

是关于「诚实」的营销，还是「跑分陷阱」下的战略失误？

伴随着Opus 4.8的发布，全网也爆发了一场关于大模型「跑分意义的空前激辩。

这场争论的导火索，就是一张Anthropic自己制作的官方发布图。

眼尖的网友Aakash Gupta发现了一个极不寻常的细节——

在Anthropic发布的各模型能力对比图中，在TerminalCoding这一项上，GPT-5.5的成绩是78.2%，而Opus 4.8只有74.6%。

正常情况下，任何一家大厂的公关部，都会把输掉的测试项悄悄从PPT上抹去。

但Anthropic没有，他们不仅把失败留在了图表上，甚至还主动把GPT-5.5那代表胜利的78.2%做了加粗处理。

Aakash对此大加赞赏，认为这显示出Opus4.8的核心卖点——诚实。

在大型Agent任务中，模型最昂贵、最致命的失败模式，就是「过度自信」。

而Opus 4.8最大的隐性升级，就是它更愿意承认自己不确定。官方数据显示，4.8在代码中留下缺陷却不声张的概率，比4.7降低了惊人的4倍。

这次，Anthropic卖的不是跑分，而是诚实。

在Vending Bench测试中，Claude Opus 4.8的表现也远逊于Opus 4.7和GPT 5.5

然而，业界大佬们并不买账。

Ruby on Rails创始人和Redis之父，这两位在开发者社区拥有极高话语权的大神，直接对Anthropic开炮。

DHH坦言，自从用了GPT-5.5之后，他经历了无数次震撼时刻，这是他在Claude阵营很久没有体会到的了。

antirez更是尖锐地指出，Anthropic这次把GPT-5.5放在同一张图里对比，犯了一个「重大的战略错误」。

过去的厂商比拼，往往是拿新一代模型和自己的上一代比。

但这次，Anthropic非要和GPT-5.5比。问题在于，现在全网的「体感」是，GPT-5.5的写代码能力非常、非常强悍。

当你Anthropic拿着一张图表，告诉大家你的Opus4.8跑分比GPT-5.5还要高。

但我们用起来却觉得并非如此时，你不仅不能证明你更强，反而会让用户觉得你们的基准测试是在自娱自乐，彻底失去公信力。

网友aditya的吐槽更是直击灵魂：

用了快一个小时的Opus 4.8，它根本不值得炒作。

几个很普通的工程任务，它全搞砸了。

在前端领域，网友也感到失落：「用了几个小时4.8，感觉还不如4.7顺手。」

这一现象印证了AI大V Chubby的观察：Anthropic现在仿佛在拼命追赶OpenAI，而不是以前那样在引领整个行业了。

面对即将到来的GPT-5.6，Anthropic的王座显得摇摇欲坠。

有人做了一个速查表，结论是GPT 5.5和Opus 4.8的胜负取决于推理能力和获得第一个token的时间

6周的赶工，Anthropic这次急了

为什么Opus 4.8 会呈现出如此复杂、矛盾的评价？

一个不容忽视的数据是：Opus 4.8距离上一代4.7的发布，仅仅隔了6个星期。

这是Anthropic历史上最快的一次大版本迭代（此前每个Opus版本的间隔至少在10周以上）。

资深观察家BridgeMind一针见血地指出了真相：「这完全是一次仓促的发布，因为GPT-5.5正在疯狂蚕食市场份额。」

那么，真正的杀招在哪里？

据多方消息证实，Anthropic真正的下一代旗舰模型，代号为Mythos，几周内就会面世。

「Opus 4.8只是一个过渡的创可贴，它修补了4.7的一些毛病，去几个Agent榜单上刷了存在感。」业内人士指出，「如果你在期待真正的智能质变，请屏息等待Mythos。」

网友Machina的一段话，或许是对Opus 4.8发布最贴切的解读。

我们已经跨过了那条线——现在的旗舰模型，已经超出了绝大多数普通人分辨其优劣的能力上限。所以，现在世界上只剩下唯一一个真实的Benchmark，那就是你自己的工作流。

……

如果连你在自己最烂熟于心的工作上都感觉不出差异，那么这些跑分对你来说，就没有任何意义。」

Opus 4.8到底是神作，还是一次仓促的公关手段？

调出你最难啃的那个项目，让实测给你答案吧。

本文来源：新智元

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

相关文章