“框架”比“模型”本身对Agent成功的影响大7倍！“推理成本”和“部署效率”才是创业公司的核心竞争优势

06/26 15:47

Braintrust对生产环境AI Agent的1781次运行分析显示，智能体框架（Harness）而非模型才是决定Agent成功率的胜负手。保持模型不变仅更换框架，成功率可从12%飙升至92%。在成本端，开源模型展现出巨大优势，Kimi和DeepSeek在编程任务上的单次成功成本远低于闭源模型，而盲目追求低Token成本往往导致“快速失败”。

谁是AI Agent竞赛中真正的胜负手？1781次真实运行给出的答案不是模型。

AI评估平台Braintrust从Hugging Face抓取了1781条Agent在生产环境中的完整运行轨迹，覆盖六款主流模型在六大类任务中的表现，然后用GPT-4o逐条打分。结论第一条就极具冲击力：保持模型不变，仅更换包裹模型的"智能体框架"（harness），成功率可以从12%直接跳到92%——波动幅度超过80个百分点。

回归分析把这一直觉量化为精确数字。在控制基准测试和模型两个变量后，智能体框架能解释约5.3%的成功率差异，模型仅能解释0.7%。换智能体框架的影响力是换模型的7倍以上。更关键的是，智能体框架切换的成本几乎为零——同一任务中不同智能体框架的Token消耗基本相当。

对AI创业公司而言，这组数据改写了竞争规则。当模型层商品化加速、六款主流模型在编程任务上的表现差距已缩小至个位数百分点时，"选哪个模型"不再是决定性变量。"用什么工具把模型部署到生产环境"、"每次成功任务的推理成本控制在什么水平"——这两项能力正在替代"接入哪个模型"，成为区分赢家和输家的核心变量。

智能体框架：成功率81个百分点的最大杠杆

Braintrust测试了五种架构完全不同的智能体框架。claude_code是Anthropic的原生Agent循环，以类XML格式让模型自主管理工具调用和上下文。smolagents_code允许模型编写Python代码串联操作。tool_calling是标准的结构化JSON函数调用，一次一个工具。tool_calling_with_shortlisting在前者基础上每轮预筛选可用工具。openai_solo则是最薄的OpenAI封装。

同模型、同任务下切换智能体框架的数据令人触目惊心。Claude在SWE-bench编程任务中，claude_code下成功率100%，换成tool_calling骤降至14%。Kimi在AppWorld多应用编排任务中，smolagents_code下92%，tool_calling下仅12%。GPT-4.1在电信客服任务中，smolagents_code下51%，claude_code下只剩18%。

每个成功率的悬崖背后都是同一个模型。智能体框架设计中的微小差异——是让模型自主管理上下文，还是用固定模板约束每一步；是允许模型写代码来串联工具调用，还是只能一次调用一个工具——把成功率的差距拉到了近一个数量级。

tool_calling_with_shortlisting的失败尤其值得注意。这个智能体框架试图通过"每轮缩小可用工具列表"来提高效率，但数据表明它反而拖累了表现——缩小选项可能切掉了有用工具，也可能引入了路由错误。"更精密的控制"并不自动等于"更好的结果"。

开源模型的生产力账本：编程任务每次成功0.73美元

在SWE-bench编程基准上，开源模型的成绩与最顶尖闭源模型处于同一档位。DeepSeek V3.2达到96%成功率，Kimi K2.5达到94%，Claude Opus 4.5为100%，GPT-5.2为93%，Gemini 3 Pro为87%。

但真正的分水岭在成本端。Braintrust对每次运行按LiteLLM的实际Token费率定价，然后用成功率折算每次成功任务的成本。

在SWE-bench上，claude_code配合Kimi K2.5每次成功仅花费0.73美元，配合DeepSeek V3.2为1.27美元。闭源的Claude Opus要4.28美元，Gemini 3 Pro要4.97美元。在AppWorld任务上，差距进一步拉大：Kimi配合smolagents_code每次成功仅0.40美元，Claude配claude_code高达84.33美元——差了200倍以上。

开源模型还有一个闭源模型不具备的成本结构优势：自托管。不用每次调用都付费，不用承受API涨价的被动风险。对于需要大规模部署Agent的公司，这构成了一条结构性的成本护城河，不是短期Token降价能抹平的。

"Token最便宜"不等于"效率最高"

GPT-4.1在这个分析中扮演了教科书级的反面角色。

它的Token账单在纸面上漂亮得惊人——比同等任务下的其他模型便宜10到100倍。但Braintrust拆开每条运行轨迹后发现：GPT-4.1在SWE-bench和AppWorld这类硬核任务上的失败率高达53%到90%，它之所以"便宜"，是因为"更快地失败了"。

没有成功率的成本指标不是效率指标，而是"用更少Token完成一次失败"的数字。衡量效率的正确维度是每次成功成本（cost per success），即单次任务成本除以成功率。这个指标完全重塑了配置排名。

在编程类任务上，开源模型走到了成本效率前沿线的最优位置。在对话客服类任务上，局面彻底翻转——GPT-4.1以每次成功0.02至0.03美元的成本大幅领先Claude的1.95美元，且开源模型根本没有运行这批对话测试。

对于AI创业公司，不存在一个通吃的"最便宜模型"。编码任务用DeepSeek或Kimi自托管，客服对话用GPT-4.1——不同的任务家族对应完全不同的成本最优解。

没有全能的模型，只有分任务的最优解

六个基准测试，四个不同的冠军。

Claude赢下SWE-bench（编程）、BrowseComp+（网页研究）和TAU2零售/电信客服。Gemini在TAU2航空客服上以100%成功率夺冠。DeepSeek和Kimi则在AppWorld多应用编排任务上大幅领先。不存在一个在所有场景中通杀的模型。

甚至在同一智能体框架内，不同模型的表现也差距悬殊。AppWorld任务中，Claude在自家原生的claude_code下仅有26%成功率，远低于同智能体框架下DeepSeek的80%和Kimi的78%。模型与任务的匹配度、以及与智能体框架之间的协同效应，远比模型参数的绝对规模更能预测最终表现。

Braintrust还发现，高平均成功率会掩盖致命的局部塌方。某些配置总体得分不错，但在某个具体任务类型上完全崩盘。把每个配置的跨任务成功率标准差画出来，高方差配置和可靠配置泾渭分明——Claude Opus的claude_code虽然总体上73%领先Gemini的71%，但跨任务标准差却更高（0.27 vs 0.24），意味着它在某些测试套件上波动更大。

对创业公司的采购策略而言，这意味着不应当押注单一模型。 合理的路径是按任务类型构建一个差异化的模型-智能体框架组合矩阵，让每一类任务都跑在最合适、成本最优的配置上。

两种失败，两种完全相反的工程策略

Braintrust还揭示了一个对工程部署有直接指导意义的模式：Agent失败时的行为，在编码任务和对话任务上方向完全相反。

在SWE-bench和AppWorld这类硬核编程任务中，失败伴随着"颠簸"——Agent比成功的同行发出更多LLM调用、消耗更多Token、运行更长时间。BrowseComp+的失败运行消耗的Token是成功运行的2.3倍。claude_code智能体框架的失败运行Token用量中位数约0.8M，尾部甚至超过3.7M。

在TAU2客服对话类任务中，模式完全反转。失败的Agent调用更少、Token更少、结束更快——没有颠簸挣扎，直接自信地给出了一个错误答案后收工。

两种截然相反的失败模式意味着，生产环境的监控策略不能用一个规则覆盖所有场景。编码任务需要Token用量的上限告警——在Agent陷入无限循环或反复挣扎时及时止损。对话任务则需要下限告警——捕捉那些"过于流畅地完成了一次错误交付"的异常。一刀切的单一阈值，会帮助一类任务，同时摧毁另一类。

推理成本管理和部署效率：创业公司的真正壁垒

Braintrust这组数据讲述的是一个比"谁家的模型跑分更高"更根本的叙事。

六个主流模型在编程任务上的成功率差距已经收窄到个位数百分点，开源模型的单次成功成本甚至已经系统性低于闭源。模型层的商品化速度比绝大多数人预想的更快。继续在"接入哪个最新模型"上构筑商业故事，护城河正在快速蒸发。

真正开始拉开差距的，是模型之外的三项能力：为每类任务匹配最优智能体框架、按每次成功成本而非每次任务成本衡量效率、对不同任务类型建立差异化的失败监控体系。

这三件事的核心指向同一组关键词——推理成本的精细管理和部署效率的系统优化。AI Agent赛道上，比"你的模型比我的好多少"更关键的问题是：你在给定任务上把每次成功成本控制到什么水平？你能否在客户自建方案做不到的成本线以下交付相同的成功率？

对于ToB的AI创业公司，产品定义的重心需要从"我们接入了哪个模型"转向"我们在什么任务场景、用什么成本结构、以什么成功率交付"。叙事不再是比模型——是比成本、比效率、比工程。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

“框架”比“模型”本身对Agent成功的影响大7倍！“推理成本”和“部署效率”才是创业公司的核心竞争优势

智能体框架：成功率81个百分点的最大杠杆

开源模型的生产力账本：编程任务每次成功0.73美元

"Token最便宜"不等于"效率最高"

没有全能的模型，只有分任务的最优解

两种失败，两种完全相反的工程策略

推理成本管理和部署效率：创业公司的真正壁垒

蚂蚁灵波，为什么要从头训练机器人大脑

英伟达补齐AI软件栈拼图：联手LangChain发布Agent蓝图，推理成本骤降10倍

OpenAI压缩推理成本50%，对外发动价格战、对内严守机密

Anthropic出性价比王牌Claude Sonnet 5，提升智能体能力，直指企业AI自动化市场

AI Agent时代的云基础设施是怎样的？你需要理解“Agent Runtime 完整飞轮”