“框架”比“模型”本身对Agent成功的影响大7倍!“推理成本”和“部署效率”才是创业公司的核心竞争优势

119
Braintrust对生产环境AI Agent的1781次运行分析显示,智能体框架(Harness)而非模型才是决定Agent成功率的胜负手。保持模型不变仅更换框架,成功率可从12%飙升至92%。在成本端,开源模型展现出巨大优势,Kimi和DeepSeek在编程任务上的单次成功成本远低于闭源模型,而盲目追求低Token成本往往导致“快速失败”。

谁是AI Agent竞赛中真正的胜负手?1781次真实运行给出的答案不是模型。

AI评估平台Braintrust从Hugging Face抓取了1781条Agent在生产环境中的完整运行轨迹,覆盖六款主流模型在六大类任务中的表现,然后用GPT-4o逐条打分。结论第一条就极具冲击力:保持模型不变,仅更换包裹模型的"智能体框架"(harness),成功率可以从12%直接跳到92%——波动幅度超过80个百分点。

回归分析把这一直觉量化为精确数字。在控制基准测试和模型两个变量后,智能体框架能解释约5.3%的成功率差异,模型仅能解释0.7%。换智能体框架的影响力是换模型的7倍以上。更关键的是,智能体框架切换的成本几乎为零——同一任务中不同智能体框架的Token消耗基本相当。

对AI创业公司而言,这组数据改写了竞争规则。当模型层商品化加速、六款主流模型在编程任务上的表现差距已缩小至个位数百分点时,"选哪个模型"不再是决定性变量。"用什么工具把模型部署到生产环境"、"每次成功任务的推理成本控制在什么水平"——这两项能力正在替代"接入哪个模型",成为区分赢家和输家的核心变量。

智能体框架:成功率81个百分点的最大杠杆

Braintrust测试了五种架构完全不同的智能体框架。claude_code是Anthropic的原生Agent循环,以类XML格式让模型自主管理工具调用和上下文。smolagents_code允许模型编写Python代码串联操作。tool_calling是标准的结构化JSON函数调用,一次一个工具。tool_calling_with_shortlisting在前者基础上每轮预筛选可用工具。openai_solo则是最薄的OpenAI封装。

同模型、同任务下切换智能体框架的数据令人触目惊心。Claude在SWE-bench编程任务中,claude_code下成功率100%,换成tool_calling骤降至14%。Kimi在AppWorld多应用编排任务中,smolagents_code下92%,tool_calling下仅12%。GPT-4.1在电信客服任务中,smolagents_code下51%,claude_code下只剩18%。

每个成功率的悬崖背后都是同一个模型。智能体框架设计中的微小差异——是让模型自主管理上下文,还是用固定模板约束每一步;是允许模型写代码来串联工具调用,还是只能一次调用一个工具——把成功率的差距拉到了近一个数量级。

tool_calling_with_shortlisting的失败尤其值得注意。这个智能体框架试图通过"每轮缩小可用工具列表"来提高效率,但数据表明它反而拖累了表现——缩小选项可能切掉了有用工具,也可能引入了路由错误。"更精密的控制"并不自动等于"更好的结果"。

开源模型的生产力账本:编程任务每次成功0.73美元

在SWE-bench编程基准上,开源模型的成绩与最顶尖闭源模型处于同一档位。DeepSeek V3.2达到96%成功率,Kimi K2.5达到94%,Claude Opus 4.5为100%,GPT-5.2为93%,Gemini 3 Pro为87%。

但真正的分水岭在成本端。Braintrust对每次运行按LiteLLM的实际Token费率定价,然后用成功率折算每次成功任务的成本。

在SWE-bench上,claude_code配合Kimi K2.5每次成功仅花费0.73美元,配合DeepSeek V3.2为1.27美元。闭源的Claude Opus要4.28美元,Gemini 3 Pro要4.97美元。在AppWorld任务上,差距进一步拉大:Kimi配合smolagents_code每次成功仅0.40美元,Claude配claude_code高达84.33美元——差了200倍以上。

开源模型还有一个闭源模型不具备的成本结构优势:自托管。不用每次调用都付费,不用承受API涨价的被动风险。对于需要大规模部署Agent的公司,这构成了一条结构性的成本护城河,不是短期Token降价能抹平的。

"Token最便宜"不等于"效率最高"

GPT-4.1在这个分析中扮演了教科书级的反面角色。

它的Token账单在纸面上漂亮得惊人——比同等任务下的其他模型便宜10到100倍。但Braintrust拆开每条运行轨迹后发现:GPT-4.1在SWE-bench和AppWorld这类硬核任务上的失败率高达53%到90%,它之所以"便宜",是因为"更快地失败了"。

没有成功率的成本指标不是效率指标,而是"用更少Token完成一次失败"的数字。衡量效率的正确维度是每次成功成本(cost per success),即单次任务成本除以成功率。这个指标完全重塑了配置排名。

在编程类任务上,开源模型走到了成本效率前沿线的最优位置。在对话客服类任务上,局面彻底翻转——GPT-4.1以每次成功0.02至0.03美元的成本大幅领先Claude的1.95美元,且开源模型根本没有运行这批对话测试。

对于AI创业公司,不存在一个通吃的"最便宜模型"。编码任务用DeepSeek或Kimi自托管,客服对话用GPT-4.1——不同的任务家族对应完全不同的成本最优解。

没有全能的模型,只有分任务的最优解

六个基准测试,四个不同的冠军。

Claude赢下SWE-bench(编程)、BrowseComp+(网页研究)和TAU2零售/电信客服。Gemini在TAU2航空客服上以100%成功率夺冠。DeepSeek和Kimi则在AppWorld多应用编排任务上大幅领先。不存在一个在所有场景中通杀的模型。

甚至在同一智能体框架内,不同模型的表现也差距悬殊。AppWorld任务中,Claude在自家原生的claude_code下仅有26%成功率,远低于同智能体框架下DeepSeek的80%和Kimi的78%。模型与任务的匹配度、以及与智能体框架之间的协同效应,远比模型参数的绝对规模更能预测最终表现。

Braintrust还发现,高平均成功率会掩盖致命的局部塌方。某些配置总体得分不错,但在某个具体任务类型上完全崩盘。把每个配置的跨任务成功率标准差画出来,高方差配置和可靠配置泾渭分明——Claude Opus的claude_code虽然总体上73%领先Gemini的71%,但跨任务标准差却更高(0.27 vs 0.24),意味着它在某些测试套件上波动更大。

对创业公司的采购策略而言,这意味着不应当押注单一模型。 合理的路径是按任务类型构建一个差异化的模型-智能体框架组合矩阵,让每一类任务都跑在最合适、成本最优的配置上。

两种失败,两种完全相反的工程策略

Braintrust还揭示了一个对工程部署有直接指导意义的模式:Agent失败时的行为,在编码任务和对话任务上方向完全相反。

在SWE-bench和AppWorld这类硬核编程任务中,失败伴随着"颠簸"——Agent比成功的同行发出更多LLM调用、消耗更多Token、运行更长时间。BrowseComp+的失败运行消耗的Token是成功运行的2.3倍。claude_code智能体框架的失败运行Token用量中位数约0.8M,尾部甚至超过3.7M。

在TAU2客服对话类任务中,模式完全反转。失败的Agent调用更少、Token更少、结束更快——没有颠簸挣扎,直接自信地给出了一个错误答案后收工。

两种截然相反的失败模式意味着,生产环境的监控策略不能用一个规则覆盖所有场景。编码任务需要Token用量的上限告警——在Agent陷入无限循环或反复挣扎时及时止损。对话任务则需要下限告警——捕捉那些"过于流畅地完成了一次错误交付"的异常。一刀切的单一阈值,会帮助一类任务,同时摧毁另一类。

推理成本管理和部署效率:创业公司的真正壁垒

Braintrust这组数据讲述的是一个比"谁家的模型跑分更高"更根本的叙事。

六个主流模型在编程任务上的成功率差距已经收窄到个位数百分点,开源模型的单次成功成本甚至已经系统性低于闭源。模型层的商品化速度比绝大多数人预想的更快。继续在"接入哪个最新模型"上构筑商业故事,护城河正在快速蒸发。

真正开始拉开差距的,是模型之外的三项能力:为每类任务匹配最优智能体框架、按每次成功成本而非每次任务成本衡量效率、对不同任务类型建立差异化的失败监控体系。

这三件事的核心指向同一组关键词——推理成本的精细管理和部署效率的系统优化。AI Agent赛道上,比"你的模型比我的好多少"更关键的问题是:你在给定任务上把每次成功成本控制到什么水平?你能否在客户自建方案做不到的成本线以下交付相同的成功率?

对于ToB的AI创业公司,产品定义的重心需要从"我们接入了哪个模型"转向"我们在什么任务场景、用什么成本结构、以什么成功率交付"。叙事不再是比模型——是比成本、比效率、比工程。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关阅读