Anthropic王者归来!
深夜,Anthropic全新发布Claude Opus 4.8,一举夺回全球AI王座。
Opus 4.8被定位为一款更强大的复杂任务模型,尤其是在编程、智能体任务和长时间推理方面。
更狠的是,神秘的Mythos几周之内即将面世!

而且,趁着这股东风,Anthropic紧接着宣布好消息——
以9650亿美元估值完成650亿美元融资,超越62天前OpenAI的8520亿美元的估值!

不过,当人们实测过后,整个科技界瞬间分裂成了两个截然不同的阵营。

一方面,是以知名评测媒体Every和部分硬核生产力用户为首的「狂热派」。
他们高呼Opus 4.8已经「封神」,甚至直言Anthropic这次实在是太低调了,「他们完全可以直接叫它Opus 5,根本不会有人有异议。」
他们直言,Opus 4.8是目前市面上「最全面、最接近人类灵魂与顶尖工程师结合体」的模型。

但另一方面,以Ruby on Rails创始人DHH、Redis之父antirez为首的「开发者老炮」,却在社交网络上公开拆台。
他们认为Opus 4.8的跑分虽然险胜老对手GPT-5.5,但实际的「编码体感」却依然落后,甚至直指Anthropic在基准测试的宣传上犯了重大错误。
一方面,它的「快速模式」、「动态工作流」看起来都很杀手级,另一方面,桌面端的体验,似乎又很拉垮。

Opus 4.8用起来的真实体感,究竟如何?
这是一次名不副实的挤牙膏,还是一次真正的大跃迁?
接下来,就让我们揭开全貌!

这不是Opus 4.8,是Opus 5!
首先,是以Every团队为代表的正方。
在长达一周的深度测试后,他们得出了震撼结论——这是我们测试过的最强模型,它简直是个怪物。
甚至可以说,它可以被叫做Opus 5。


暴涨30分的「资深工程师基准」
在极难的「高级工程师基准」测试中,上一代Opus 4.7曾让无数开发者大失所望,被指责为「难以使用、难以热爱」。
但Opus 4.8这一次打了一场漂亮的翻身仗。
在「超高强度」模式下,Opus 4.8拿下了63分的高分,不仅比Opus 4.7夸张地暴涨了30分,更是以1分的微弱优势,险胜了一直霸榜的GPT-5.5(62分)。

团队试着让它去彻底重构一个生产级别的代码库,结果Opus 4.8真的交付了一个能够完美运行的系统!

结果说明,Opus 4.8绝不仅仅是一个补全工具,而是一个能在Repo(代码仓库)级别进行长线思考的架构师。
79.6分全场最高:击穿「AI感」的最强写手
如果说代码能力是理科生的浪漫,那么写作能力则是衡量模型EQ的终极标准。
在Every的写作基准测试中(涵盖论文、推广邮件、长篇叙事等真实场景),Opus 4.8直接艳压一众模型。

Opus 4.8跑出了79.6的绝对高分,远远甩开了自家兄弟Sonnet 4.6(74.5)、老对手GPT-5.5(73)以及前代Opus 4.7(63)。
「这是一种非常奇妙的体验。」多位创作者反馈。Opus 4.8极大地减少了令人不适的「AI味」。

当你给它一份风格指南后,它能异常精准地模仿你的语气。
它甚至展现出了极高的心理学和人际交往洞察力,当你试图和它探讨一些深刻的心理问题时,它的回答毫不敷衍,而是会「质疑你的预设框架」,提供丰富、动态且极其具有深度的思考过程。
100万Token的统治力,企业级应用一把过
除了跑分,Opus 4.8在复杂知识工作中的表现堪称怪兽。
它依然保持了100万Token的超大上下文窗口,这意味着你可以把一整本书的手稿、几周的会议记录,甚至一个完整的企业代码库一口气塞给它。

最让商业咨询圈震惊的是,在企业级PPT生成测试中,Opus 4.8在Zero-shot的情况下,产出了一份结构清晰、设计合理、叙事逻辑堪称完美的PPT。这是过去所有模型都无法做到的。
知名云存储服务商Box,也在第一时间将Opus 4.8接入了其Box AI Agent并在真实企业数据上进行了测试,结果呈现出碾压态势。


· 报告起草:在工业品报告任务中,4.8得分87%(对比4.7的77%);消费品发布评估任务中,得分高达90%。
· 法律审查:Opus 4.8能够极其精准地抓取合规标准,找出潜在的合同漏洞,并在多次独立测试中保持近乎完美的稳定性。
· 财务数据分析:在复杂的银团贷款与双边贷款结构对比中,从繁杂的源文档中提取准确财务指标的能力,比上一代提升了近8个百分点。


沃顿商学院教授Ethan Mollick的实测更是令人拍案叫绝。
他把几年前数百份去匿名化的研究文件扔进Claude Code中的Opus 4.8。
结果,Opus 4.8自主完成了提前提出假设、数据清洗、寻找参考文献、进行深度分析、稳健性检验,最后直接用LaTeX格式排版输出了一篇高度专业的小型学术论文!

有趣的是,Mollick教授用GPT-5.5 Pro作为这篇论文的「审稿人」,GPT-5.5挑出了一个幻觉错误和几个小问题,随后Opus 4.8立刻虚心接受,完美修正。

或许这就是为什么Every的CEO Dan Shipper激动地将Opus 4.8称为自己的「心头好」。
一个不可思议的软件工程师,同时又是一个拥有深度和同理心的近乎人类的作家,二者完美相融。
沃顿商学院教授实测的一个Opus 4.8惊艳案例
被群嘲的桌面端与「高智商税」
如此强大的模型,为何没有在全网形成绝对的碾压之势?
因为Opus 4.8身上背负着两个沉重的枷锁。
「大力出奇迹」的代价,是被智商分级绑架
评测机构很快发现了一个尴尬的事实:Opus 4.8的「神级表现」,可以说是病态地依赖于你给它设定的推理强度(Effort Level)。
在/effort的设定中,只有当档位拉到「Extra-High」时,Opus 4.8才是那个得分63的资深工程师;一旦降级到「High」,它的编码得分会瞬间暴跌至42,秒变平庸码农。
在写作上也是如此。High档位下的Opus 4.8文笔优雅、逻辑严密;但一旦切到Medium,它就会瞬间原形毕露,暴露出AI最糟糕的套路化写作恶习。
网友Haider尖锐地指出了这背后的技术退步:
我注意到了一个现象,4.8在低强度下消耗的Token,几乎和4.6在高强度下一样多。
GPT-5.5倾向于用更少的Token拿到更高的分数;而4.8似乎走向了反面,它在用海量的Token堆砌智能。

这就导致了Opus系列一直被诟病的硬伤——Rate Limits。
由于高强度模式极度消耗资源,大量订阅了$200/月Max套餐的高端用户反馈,在运行复杂Agent任务时,常常几个小时就会撞上额度墙。

网友BridgeMind直言,自己为了测试连续烧穿了两个200美元的账号。

显然,相较于OpenAI庞大算力支撑下的宽容生态,Anthropic显得过于抠门了。
混乱的UI设计
如果说模型是引擎,那么客户端应用就是底盘。而Claude的底盘,正在严重拖累这台跑车。
多位深度评测者指出,Claude桌面端的设计简直是一场灾难。
Chat、Code、Cowork三个独立标签页的分割,被指责为「混乱不堪」。

这种割裂的UI设计,被戏称是「带着时间推移的伤疤和Anthropic内部组织架构图的缩影」。(太亮了)
相比之下,OpenAI的Codex桌面端应用被公认为是「干净、快速,让人感觉这就是未来」。
Opus 4.8的硬核实力确实让很多人想回归Claude,但糟糕的软件交互体验,最终还是让很多人把GPT-5.5+Codex作为日常主力,只在处理复杂任务时,才会捏着鼻子切回Claude。

极其糟糕的「笼子」
大牛工程师Anthony Koeger是这样评价的:最近流行的这句话实在太对了,「一个模型的好坏,取决于套在它外面的那层壳(A model is only as good as its harness)。」

而Opus这次有些拉跨。

是关于「诚实」的营销,还是「跑分陷阱」下的战略失误?
伴随着Opus 4.8的发布,全网也爆发了一场关于大模型「跑分意义的空前激辩。
这场争论的导火索,就是一张Anthropic自己制作的官方发布图。
眼尖的网友Aakash Gupta发现了一个极不寻常的细节——
在Anthropic发布的各模型能力对比图中,在TerminalCoding这一项上,GPT-5.5的成绩是78.2%,而Opus 4.8只有74.6%。

正常情况下,任何一家大厂的公关部,都会把输掉的测试项悄悄从PPT上抹去。
但Anthropic没有,他们不仅把失败留在了图表上,甚至还主动把GPT-5.5那代表胜利的78.2%做了加粗处理。
Aakash对此大加赞赏,认为这显示出Opus4.8的核心卖点——诚实。

在大型Agent任务中,模型最昂贵、最致命的失败模式,就是「过度自信」。
而Opus 4.8最大的隐性升级,就是它更愿意承认自己不确定。官方数据显示,4.8在代码中留下缺陷却不声张的概率,比4.7降低了惊人的4倍。
这次,Anthropic卖的不是跑分,而是诚实。

在Vending Bench测试中,Claude Opus 4.8的表现也远逊于Opus 4.7和GPT 5.5
然而,业界大佬们并不买账。
Ruby on Rails创始人和Redis之父,这两位在开发者社区拥有极高话语权的大神,直接对Anthropic开炮。
DHH坦言,自从用了GPT-5.5之后,他经历了无数次震撼时刻,这是他在Claude阵营很久没有体会到的了。
antirez更是尖锐地指出,Anthropic这次把GPT-5.5放在同一张图里对比,犯了一个「重大的战略错误」。

过去的厂商比拼,往往是拿新一代模型和自己的上一代比。
但这次,Anthropic非要和GPT-5.5比。问题在于,现在全网的「体感」是,GPT-5.5的写代码能力非常、非常强悍。
当你Anthropic拿着一张图表,告诉大家你的Opus4.8跑分比GPT-5.5还要高。
但我们用起来却觉得并非如此时,你不仅不能证明你更强,反而会让用户觉得你们的基准测试是在自娱自乐,彻底失去公信力。

网友aditya的吐槽更是直击灵魂:
用了快一个小时的Opus 4.8,它根本不值得炒作。
几个很普通的工程任务,它全搞砸了。

在前端领域,网友也感到失落:「用了几个小时4.8,感觉还不如4.7顺手。」

这一现象印证了AI大V Chubby的观察:Anthropic现在仿佛在拼命追赶OpenAI,而不是以前那样在引领整个行业了。

面对即将到来的GPT-5.6,Anthropic的王座显得摇摇欲坠。


有人做了一个速查表,结论是GPT 5.5和Opus 4.8的胜负取决于推理能力和获得第一个token的时间

大牛工程师Anthony Koeger是这样评价的:最近流行的这句话实在太对了,「一个模型的好坏,取决于套在它外面的那层壳(A model is only as good as its harness)。」

而Opus这次有些拉跨。

是关于「诚实」的营销,还是「跑分陷阱」下的战略失误?
伴随着Opus 4.8的发布,全网也爆发了一场关于大模型「跑分意义的空前激辩。
这场争论的导火索,就是一张Anthropic自己制作的官方发布图。
眼尖的网友Aakash Gupta发现了一个极不寻常的细节——
在Anthropic发布的各模型能力对比图中,在TerminalCoding这一项上,GPT-5.5的成绩是78.2%,而Opus 4.8只有74.6%。

正常情况下,任何一家大厂的公关部,都会把输掉的测试项悄悄从PPT上抹去。
但Anthropic没有,他们不仅把失败留在了图表上,甚至还主动把GPT-5.5那代表胜利的78.2%做了加粗处理。
Aakash对此大加赞赏,认为这显示出Opus4.8的核心卖点——诚实。

在大型Agent任务中,模型最昂贵、最致命的失败模式,就是「过度自信」。
而Opus 4.8最大的隐性升级,就是它更愿意承认自己不确定。官方数据显示,4.8在代码中留下缺陷却不声张的概率,比4.7降低了惊人的4倍。
这次,Anthropic卖的不是跑分,而是诚实。

在Vending Bench测试中,Claude Opus 4.8的表现也远逊于Opus 4.7和GPT 5.5
然而,业界大佬们并不买账。
Ruby on Rails创始人和Redis之父,这两位在开发者社区拥有极高话语权的大神,直接对Anthropic开炮。
DHH坦言,自从用了GPT-5.5之后,他经历了无数次震撼时刻,这是他在Claude阵营很久没有体会到的了。
antirez更是尖锐地指出,Anthropic这次把GPT-5.5放在同一张图里对比,犯了一个「重大的战略错误」。

过去的厂商比拼,往往是拿新一代模型和自己的上一代比。
但这次,Anthropic非要和GPT-5.5比。问题在于,现在全网的「体感」是,GPT-5.5的写代码能力非常、非常强悍。
当你Anthropic拿着一张图表,告诉大家你的Opus4.8跑分比GPT-5.5还要高。
但我们用起来却觉得并非如此时,你不仅不能证明你更强,反而会让用户觉得你们的基准测试是在自娱自乐,彻底失去公信力。

网友aditya的吐槽更是直击灵魂:
用了快一个小时的Opus 4.8,它根本不值得炒作。
几个很普通的工程任务,它全搞砸了。

在前端领域,网友也感到失落:「用了几个小时4.8,感觉还不如4.7顺手。」

这一现象印证了AI大V Chubby的观察:Anthropic现在仿佛在拼命追赶OpenAI,而不是以前那样在引领整个行业了。

面对即将到来的GPT-5.6,Anthropic的王座显得摇摇欲坠。


有人做了一个速查表,结论是GPT 5.5和Opus 4.8的胜负取决于推理能力和获得第一个token的时间


6周的赶工,Anthropic这次急了
为什么Opus 4.8 会呈现出如此复杂、矛盾的评价?
一个不容忽视的数据是:Opus 4.8距离上一代4.7的发布,仅仅隔了6个星期。
这是Anthropic历史上最快的一次大版本迭代(此前每个Opus版本的间隔至少在10周以上)。
资深观察家BridgeMind一针见血地指出了真相:「这完全是一次仓促的发布,因为GPT-5.5正在疯狂蚕食市场份额。」

那么,真正的杀招在哪里?
据多方消息证实,Anthropic真正的下一代旗舰模型,代号为Mythos,几周内就会面世。
「Opus 4.8只是一个过渡的创可贴,它修补了4.7的一些毛病,去几个Agent榜单上刷了存在感。」业内人士指出,「如果你在期待真正的智能质变,请屏息等待Mythos。」
网友Machina的一段话,或许是对Opus 4.8发布最贴切的解读。
我们已经跨过了那条线——现在的旗舰模型,已经超出了绝大多数普通人分辨其优劣的能力上限。所以,现在世界上只剩下唯一一个真实的Benchmark,那就是你自己的工作流。
……
如果连你在自己最烂熟于心的工作上都感觉不出差异,那么这些跑分对你来说,就没有任何意义。」

Opus 4.8到底是神作,还是一次仓促的公关手段?
调出你最难啃的那个项目,让实测给你答案吧。
本文来源:新智元




