字节AI推动Agent加速落地

构建AI基础设施。

作者 | 刘宝丹

编辑 |黄昱

在AI模型落地之战中,All In AI的字节拿出了最新武器。

4月17日,火山引擎面向企业市场发布豆包1.5・深度思考模型,它具备视觉推理能力,能像人类一样对看到的事物进行联想和思考。同时,火山引擎还升级了文生图模型3.0和视觉理解模型。

火山引擎总裁谭待表示,豆包1.5・深度思考模型在专业领域的推理任务中表现出色,数学推理AIME2024测试得分追平Open AI o3-mini-high。它在编程竞赛、科学推理、创意写作等方面也表现出色。

深度思考模型是构建Agent的基础,得益于模型性能的提升,字节开始把重点放在Agent落地上。

谭待希望,AI能够解决更复杂,更完整的问题,不再仅仅是对信息的感知、处理和生成,而是能端到端的处理任务。比如,帮用户做好行程规划并且完成买票。

会上,火山引擎宣布推出OS Agent解决方案及AI云原生推理套件,帮助企业更快、更省地构建和部署Agent应用。

华尔街见闻获悉,OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其他Agent的操作。

以豆包UI-TARS模型为例,它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,突破传统自动化工具依赖预设规则的局限性,为Agent的智能交互提供了更接近人类操作的模型基础。

要做好Agent,除了模型能力和好的架构和工具之外,成本也是Agent落地的重要因素。

为此,火山引擎专门打造了AI云原生Serving Kit推理套件,让模型部署更快、推理成本更低。华尔街见闻从火山引擎内部获悉,GPU消耗相比传统方案降低80%。

随着Agent加快落地,对火山引擎来说,会带来更大量的模型推理消耗。

据火山引擎披露,截至2025年3月底,豆包大模型日均tokens调用量已达到12.7万亿,较去年5月发布时增长上百倍。根据IDC发布的《中国公有云大模型服务市场格局分析,1Q25》显示,火山引擎以46.4%的市场份额位居第一。

不过,Agent仍处于探索阶段,火山引擎要想更好推动Agent落地,还要在市场中接受更多考验。

以下为华尔街见闻与谭待的交流实录(经编辑):

问:DeepSeek R2正在紧锣密鼓地筹划,面对这个开源的强力竞争对手,豆包整个闭源的策略和后续的商业化是怎么样的?

谭待:我主要说一下火山引擎,开源和闭源不是关键,模型的优劣才是关键。

昨天Open AI发布了o4mini和o3,竞争是好事。若把当前的AI发展看作一场马拉松,可能现在才跑了500米,大家在竞争中相互推动,无论是技术还是行业应用都能快速发展。

商业模式方面,火山引擎作为云厂商,一是做好基础设施AI云原生;二是提供最好的模型以及模型上的各种应用,DeepSeek推出后,所有云厂商中对其适配最好的就是火山引擎。

问:未来2年,火山引擎的大模型token调用还会保持近百倍的增长吗?

谭待:从长期来看,百倍甚至更高的增长是有可能的,但具体是2年还是3年,最关键的取决于模型是否有重大突破。

去年到今年增长很快,是因为模型有几个重大突破:一是,最基础的聊天和信息处理能力提升且成本下降;二是,今年深度思考功能的推出也是一个突破。往后发展还有很多关键节点,比如,Agent相关技术能否取得更大进展。

每一次大模型突破肯定能激发一次大的变化,但2年内能否再翻100倍,要谨慎乐观。

问:针对豆包模型的全面升级,您给豆包的表现打多少分?这次升级更强调了文本推理更强、成本更低、更容易落地,这三个优势哪个实现起来是最难的?

谭待:我就不打分了,因为模型进展太快,今天打100分,可能1个月以后只有60分,静态打分意义不大。相比于主观打分,更有价值的是客观数据,比如有多少人使用豆包APP,有多少大企业在调用豆包模型。

整体来说,实现效果好最难,因为要先用各种方法达到最好的效果,然后在这个基础上再用各种方式去降低成本,这是一个优化的过程。

问:火山未来会支持MCP协议,或者类似的协议,您怎么看待通过统一协议来争夺开发生态话语权这样一个竞争?

谭待:火山引擎已经支持了MCP协议。我觉得,协议统一很重要,以前不同厂商如Google或者其他相关产品,都有不同的插件协议,这使得开发者去适配的成本比较高。如果能做到统一协议,大家的应用开发就会更快,模型调用也会更智能。

我们希望一起拥抱和建设一个开放的协议,就像早期互联网的HTTP和HTML协议一样,这样才能加速整个行业的发展。

问:那您考虑推出类似A2A这种新协议吗?

谭待:我觉得,首先还是要把MCP这个最基础的事情做好,A2A可以看作是MCP的一个扩展。

问:火山引擎做OS Agent方案的原因是什么?

谭待:火山引擎围绕模型提供OS Agent方案,目标是做好相关基础建设。很多时候,实现相关功能需要多模态的支持,如果要下单,调用API,就需要MCP的支持。对于一些长尾需求,可能还需要直接操纵电脑、浏览器、手机等,这就是我们做OS Agent方案的原因。

问:关于AI智能眼镜,想请您透露一下进展。

谭待:我也不是特别清楚。

对火山引擎来说,不管是内部需求还是外部需求,都采用统一的方案来解决。从外部视角看,随着模型能力的提升,以前很多做不了的事情现在都可以实现,比如AI眼镜、AI玩具、智能摄像头、门锁等。

问:目前,字节对于Agent市场发展的看法是什么?

谭待:不能简单说是“押注”。随着AI发展,聊天和信息处理只是其中一小部分,要真正为各行各业带来变革,Agent是必经之路。如果做不好Agent相关工作,就难以实现AI的社会和经济价值。

Agent大概有两种类型,一种是垂直类Agent,另一种是通用型Agent。对于垂直类Agent,火山引擎会基于自身优势领域进行探索,比如之前推出的数据Agent。

对于通用型Agent,更重要的是搭建好基础框架、提供好用的工具,所以我们推出了OS Agent解决方案,借助新的AI云原生组件、SandBox和新模型,让开发者和企业能更轻松地打造自己的通用Agent,这是火山未来的重要发展方向。

问:火山在对内支持和对外扩张上是怎样的比重?接下来在团队扩招上有没有计划?

谭待:从成立之初,我们就坚持技术内外统一,这样既能保障对内服务,也能做好对外支持。通过技术和资源复用,我们能为内外客户提供性价比更高的服务,像我们的MaaS和云服务,性价比优势就源于此。

关于业务扩张,与规模相关的业务,如服务更多客户,需要扩充销售团队等,人员会相应增加;产品研发更注重质量,我们也在思考如何借助AI提升自身产品研发和维护的效率。

问:接下来一两年有保持领先优势的规划吗?您如何定义Agent?

谭待:我们致力于成为AI时代最优秀的云厂商,始终秉持三个理念:持续优化模型,保持竞争力;不断降低成本,包括费用、延迟和提高吞吐率;让产品更易于落地。未来我们会在这三方面持续发力。

目前,很多智算中心主要用于模型训练,但模型只有在应用阶段才能产生经济价值。从今年到未来,模型应用的消耗将远超训练本身。

关于Agent定义,Agent应能完成专业度较高、耗时较长的完整任务,这是从定性角度来看。从技术实现角度,如果没有运用思考模型,缺乏反思和规划能力,也很难被认定为Agent。

今年大家对Agent的定义会更加清晰,或许会像自动驾驶分级(AgentL1、L2、L3、L4)一样,对Agent进行分级,那些所谓的三四千个Agent可能只是L1级别,而真正落地可能需要达到L2++及以上级别。

问:2025年是AI Agent元年,字节这样的大厂和Manus这样的初创企业,谁机会更大?

谭待:机会大小取决于企业的创新能力,而非企业规模,不能以公司大小来判断,持续保持创新能力才是关键。

问:大模型都存在幻觉问题,如果用于数据分析,如何减少或避免幻觉出现?

谭待:每个领域对大模型出现幻觉的接受程度都不同,关键在于如何降低幻觉出现的概率。

首先,模型本身的能力越强,出现幻觉的可能性越低;其次,可以引入知识库来辅助模型,让它在生成内容时有更可靠的参考依据;再者,增加类似验证这样的阶段,持续提升模型在这方面的能力。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章