6月23日,在FORCE原动力大会上,火山引擎推出豆包大模型2.1,同时预告了视频生成模型Seedance 2.5、图像创作模型Seedream 5.0 Pro以及豆包音频生成模型1.0的发布。
豆包大模型2.1在通用Agent、编程能力以及多模态水平上有所提升,包括豆包大模型2.1 Pro和豆包大模型2.1 Turbo,其中豆包大模型2.1 Pro在编程能力上接近Opus 4.7。
价格方面,豆包大模型2.1 Pro统一定价为输入6元、输出30元,缓存命中1.2元,综合使用成本相比Claude Opus 4.6到4.8系列模型降低接近80%。同时,面向高频调用场景的豆包2.1 Turbo同步上线,价格仅为2.1 Pro的一半。

此外,火山引擎还推出了Doubao-Seed-Evolving,面向Coding与Agent的重度用户,将会以每月2至4次的频率快速进行迭代,让开发者可以明显感受到模型的变化。
大会还预告了即将发布的Seedance 2.5、Seedream 5.0 Pro以及豆包音频生成模型1.0,其中,Seedance 2.5将单条视频生成拉长至30秒,Seedream 5.0 Pro新增了圈选编辑和多图层分离能力,豆包音频生成模型1.0则实现了角色音色自动推理和影视级音效一次性生成。Seedance 2.0也做了升级,支持原生4k视频直出。

大会上,火山引擎总裁谭待公布了一组数据:截至今年6月,豆包大模型日均Tokens调用量达180万亿,相比两年前发布时增长超过1500倍,过去一年增速超过10倍。

在公有云市场,火山引擎份额升至49.5%,同时,年消费超1万亿Tokens的企业客户从去年12月的100家翻倍到了200家。

除了模型发布,火山引擎还展示了在智能体开发、产业落地、AI安全、商用拓展等方面的综合进展。
Coding能力追平Opus 4.7 成本低80%
豆包大模型2.1 Pro是本场发布会的第一颗重磅炸弹。
编程评测中,豆包大模型2.1 Pro与Claude Opus 4.7基本持平,在SciCode科学计算评测中拿到59.8分,超过Opus 4.7和GPT-5.5,在NL2Repo仓库级代码生成评测中,豆包大模型2.1 Pro得分47,明显领先GPT-5.5和Gemini 3.1。

现场演示了一个芯片设计场景的硬核案例:豆包大模型2.1 Pro围绕一个16×16 PE的Tile TPU,连续运行18小时、经历9轮迭代,完成了6个核心模块、1300多行RTL代码,并跑通了仿真测试和检测流程,最终通过了手写数字识别验证。这类任务通常需要3到5名资深工程师数周的努力。

Agent能力方面,豆包大模型2.1 Pro在MCP Atlas评测(覆盖36个真实MCP Server、220个工具、1000多个任务)得分超过Opus 4.7和GPT-5.5。

在检验Agent与多模态能力的OS World和Mobile World等评测中,豆包大模型2.1 Pro也位居全球前列。

在Agent能力演示环节,火山引擎展示了一段多Agent协同构建3D虚拟城市的案例。
开发者结合豆包大模型2.1 Pro的多模态能力,让500多个Agent协同作业,在跨工具的完整链路中依次调用建模、渲染、贴图等11种工具,累计触发工具调用上千次,最终在一张大地图上完成了100多栋造型、材质、颜色均不相同的建筑的搭建,并通过多轮自我迭代生成全景成片。

目前,豆包大模型2.1已在火山引擎开放API服务,火山方舟体验中心同步上线,豆包、TRAE、扣子等产品同步接入。
视频、音频、图像模型齐发 Seedance 2.5预计7月上线
视频生成是火山引擎声量最大的赛道,今年2月发布的Seedance 2.0被该团队称为“全球第一个跨过生产质变点的视频生成模型”,这次预告的Seedance 2.5在多个维度上做了升级:单条视频最长30秒,目前市场同类产品最多15到20秒,全球第一。多参考输入支持最多50个全模态素材联合输入,同样是全球最高。

Seedance 2.5的3D白模预演能力是本次视频模型升级中的一个关键功能,据字节跳动CEO梁汝波透露,这个功能灵感出自于一位业内知名导演,他在与火山引擎的合作中提出:科幻片和大场景调度中,3D白模是前期预演的核心工具,能帮团队提前确定空间、机位、走位和镜头运动,但传统制作耗时耗力。

Seedance据此开发了白模预演生成能力,成为行业内率先提供这一功能的视频生成模型。这意味着创作者在前期投入的资产设计和镜头调度,可以被模型直接承接,不用推倒重来。
画质方面,Seedance 2.5生成的AI素材可以直接进入专业影视后期,新增的编辑能力支持局部修改,如微调背景、更换商品和模特等。
图像方面,Seedream 5.0 Pro主推三个能力:
1、交互式精准编辑。用户可以画箭头、圈选区、用自然语言描述空间关系,模型理解意图定位到指定元素修改。
2、多图层分离。可递归拆分图层,拆分后底板自动智能填充。
3、高信息密度排版。单张图可承载整页PPT级别信息,支持英文、西班牙语、阿拉伯语、日语等10余种文字,自动适配各语言排版习惯和文化风格。
音频方面,豆包音频生成模型1.0首次亮相。模型可以根据文本自动推理角色声音特征,一次生成包含情绪表达、方言口音、背景音乐、环境氛围音、拟音特效的完整影视级音轨。
发布会演示了一段古风武侠片,从人物对白到环境雨声、兵器撞击声全部由模型生成,时长近一分钟,音色不漂移、角色声音特征一致。

周星驰正版授权,AI走进全行业
火山引擎在大会上正式预览了AI版权商业化平台,周星驰成为首批合作对象。他以《喜剧之王》《食神》《长江七号》三部经典IP授权入驻,用户可在抖音、即梦、剪映等平台用官方模板进行二创。

除视频创意之外,豆包大模型在各行业的渗透速度同样迅速见。
特斯拉基于豆包大模型打造智能语音车控,覆盖全系车型,接入了端到端实时语音模型。奔驰新款纯电CLA接入豆包大模型,支持自然对话和情绪感知。东风汽车今年4月与火山引擎达成战略合作,围绕智能座舱企业数智化升级等领域展开深度合作。

金融和芯片行业中,中金财富基于HiAgent搭建数字投顾Agent,萃取300余名分析师研究成果和数千名投顾经验,定制金融智能体矩阵。安谋科技与火山引擎围绕EDA混合云展开合作,通过云端弹性算力补充本地资源,利用火山引擎Agent产品推动研发流程自动化。
运输、教育等行业中,顺丰依托AgentKit构建覆盖研发到调度的全场景AI办公助理。新东方用豆包打造AI助教,覆盖口语练习、作文批改、个性化学习。
支柱产业中,中国石油勘探院用上了安全运营Agent,异常告警实现AI自动化值守,运营效率提升10倍。中国移动与火山引擎联合推出移动引擎机密模型服务,面向政务、金融、能源行业提供国产算力一体化的机密模型服务。
HiAgent 3.0全新升级,一键招募数字员工
企业级产品线上,HiAgent 3.0是本次最重要的发布。IDC报告显示,HiAgent在中国智能体开发平台产品力进入领导者象限且位列第一,市场份额17.8%,同样行业第一,超过第二名和第三名总和。
数字员工管理方面引入了一套完整机制:
企业可以在员工市场一键雇佣活动策划等数字员工,把已有的各类智能体快速接入统一管理。数字员工上岗前必须通过考核,系统提供通用考核模板,评估回答准确率、幻觉率、延迟、安全合规等指标,企业也可上传自己的评测集。
通过考核后,调度中枢会基于业务目标自动拆解任务、分发给不同数字员工协同执行。管理者则可以通过数字员工大盘统一查看状态。同时,分布式Harness记录不同Agent的运行轨迹、业务反馈和成功做法,总结到全局经验中,越用越聪明。

企业级AIAgent平台AgentKit新增policy和register两个模块:policy控制Agent行为边界,确保在身份、权限和策略范围内执行;register负责Agent的资产注册和发现治理。

结语:字节把AI全家桶摆上桌面 全行业落地目标清晰可见
豆包大模型2.1 Pro编程能力对标Opus 4.7,价格打2折,Seedance 2.5视频生成30秒直出全球第一,音频模型、图像模型齐齐亮相,字节跳动在FORCE原动力大会上展示了其全模态发展的路径,从质量到价格全方位升级。
此外,在企业管理、产业落地、商业化拓展等方面,都充斥着字节系AI产品的身影,其全模态发展,全行业落地的目标已然清晰可见。
本文来源:智东西