刚刚,姚顺雨首次交卷!腾讯混元3 Preview大模型发布

量子位
腾讯混元发布并开源Hy3 preview模型,总参数295B、激活21B,主打高性价比与实用性,重点强化Agent与Coding能力,在SWE-Bench、Terminal-Bench等代码与搜索智能体评测中表现突出,并在ClawEval等任务中具备竞争力。

入职腾讯之后,姚顺雨交出了首张答卷。

腾讯混元Hy3 preview,混元最新基座模型,刚刚正式官宣并开源,已经上了元宝和WorkBuddy。

模型总参数295B,激活参数只有21B,尺寸不大,定位就是实用性,在真实业务场景里好用。

官方标注的重点能力是Agent和Coding,正好是姚顺雨在OpenAI那几年最深耕的方向,Operator和Deep Research背后都有他,ReAct框架也是他提的。

具体来说,Hy3 preview以较快的速度在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准以及BrowseComp、WideSearch等主流搜索智能体基准中取得了有竞争力的结果。

智能体能力方面,Hy3 preview在ClawEval和WildClawBench等评测中同样表现突出。

快慢思考融合、长上下文理解、指令遵循也都是官方强调的方向,闲聊写作也能玩。

除了公开榜单,腾讯混元还进一步构建了多个内部的评测集,结果Hy3 preview均体现出了强竞争力。

价格方面,在腾讯云大模型服务平台TokenHub上,Hy3 preview输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。

比较各个开源模型的大小与智能体综合表现,Hy3 preview展现出高性价比。

目前,Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线。

元宝和WorkBuddy这两个场景,我们抢先实际体验了一番。

Hy3 preview上线元宝

先从元宝开始,元宝是最直接的对话入口。

我们出了两道题,一道逻辑推理,一个创意写作,想看看基础对话能力到什么水平。

第一题是这样的:

六个人A B C D E F参加一个循环赛,每两人之间恰好比赛一次,赢得1分,输得0分,平局各得0.5分。比赛结束后:A的得分严格高于B,B严格高于C,C严格高于D,D严格高于E,E严格高于F,所有人得分各不相同,且A和F的比赛结果是平局。请问C的得分是多少?给出完整推理过程。

这道题的难点在于“A和F平局”这个条件,第一名和最后一名平局,直觉上说不通,但又不违反任何规则。

六人循环赛总分固定是15分,分数严格递减且各不相同,约束够多,答案唯一,但枚举路径不短,中间容易在分数分配上出错。

结果答案正确,C=3,推理过程也没有问题。

值得说的是它处理“A和F平局”这个条件的方式,没有被这个反直觉的设定绊住,直接从总分15分倒推A只能是4.5,然后F自然锁定为0.5,剩下四人的分配唯一确定。

整个推理链条干净,没有绕弯子,也没有先枚举再验证,看得出是真的在推。

推理过了,再看看写作,给它的任务是这样的:

写一段对话。场景是:一个人正在和自己五分钟后的自己通电话,五分钟后的自己一直在哭,但不肯说为什么。200字以内。

这个设定足够奇特,“不肯说为什么”是个主动约束,想看它怎么处理这个沉默,是绕开它还是真的把这个沉默写进对话里。

结果元宝写得出乎意料地好,“不肯说为什么”这个约束不但没有被绕开,反而成了整段的核心。

“我现在说……就全都完了”这一句把“沉默”变成了真正有重量的东西,暗示说出口这个行为本身会改变某些事。

结尾“看着屏幕上显示的‘5分钟后’,脊背发凉”,用细节收住,没有解释,留白留得干净。

WorkBuddy也被进驻

元宝测的是对话,WorkBuddy换个维度,本地安装本地跑,能直接操作你电脑上的文件和终端,不走云端。布置了三件需要真正做成的事。

第一个任务想测它处理本地文件的能力,场景是真实工作里很常见的那种——

一堆散落的业务数据文件,格式各不一样,没有人告诉你该怎么处理,看你自己能不能整理出个样子来。

我们给它准备了五个文件,销售订单流水、用户日活数据、渠道投放明细、企业客户合同台账、费用月度明细,有txt有csv,命名也是那种英文加日期拼在一起、看了也不知道该用哪个版本的风格,总共约100KB。

这个任务中,它得自己决定读文件的顺序、怎么解析不同格式,最后还得把这些东西组织成一个像样的报告。

prompt是这样的:

扫描我桌面上data文件夹里的内容。这是一家公司散落的业务数据,格式各异、命名混乱。请读取全部文件,整理成一份清晰的业务数据摘要报告,输出为一个可以直接在浏览器打开的HTML文件。

结果,它自己写了一个Python脚本来读取数据,逐一处理完五个文件,txt、csv都没卡住。

脚本跑完,HTML也就有了,在浏览器里打开就能用,有核心指标卡片、有分渠道明细表,样式也干净。

数字上,广告总投入4393.3万、Q3平均DAU 94310、企业客户合同120份总金额2168万,跟原始数据逐一核对,全部对得上,没有张冠李戴,也没有单位搞错。

跨文件的数字也整合进去了,比如广告投放和用户数据放在同一张报告里做了关联。

本地文件测的是处理已有信息的能力,这个任务换个方向,让它自己从零开始找。

这个任务想看的是它搜了几轮、有没有换过关键词、最后给出的判断是从搜到的东西里归纳出来的,还是从脑子里背了一段听起来合理的答案。

帮我做一份关于“AI Agent在企业办公场景落地”的深度研究报告。自己搜集资料,找到真实的产品案例和数据,识别目前落地的主要障碍,给出你认为接下来半年最值得关注的方向。不要只罗列信息,要有自己的判断。

它先把任务自己拆成了4个子任务,然后跑了5轮搜索,中途觉得信息还不够,又自己追加了一轮,最后还在本地建了工作记忆目录,把这次的研究结果存下来。

整个过程18次工具调用、21条过程消息,没有一次等待人来指示下一步。

报告本身也撑得住。引用了Google Cloud、微软财报、第一新声智库等来源,覆盖了7个真实落地案例,信源不是一家的。

更值得说的是它对数据的态度,拿到数字之后会主动质疑,比如对120%复合增长率直接说“更多反映的是采购合同金额而非实际产生的业务价值”。

这种处理方式不像是只做检索总结,更像是真的在做研究。

前两个任务都是信息处理,最后这个换个方向,让它做一个打字练习游戏。

我们要求它输出HTML单文件,浏览器直接打开能玩,随机生成英文单词让用户跟着打,实时显示哪里打对了哪里打错了,计时从第一次按键开始,打完显示准确率和WPM,有重新开始按钮。

功能听起来不复杂,但输入检测、计时逻辑、准确率计算、界面反馈每个环节都可能出问题,打开就能知道好不好用。

做一个打字练习游戏,要求:HTML单文件,浏览器直接打开可以玩;随机生成一段英文单词供用户输入;实时高亮显示输入正确/错误的字符;计时从第一次按键开始;完成后显示准确率和WPM(每分钟字数);有重新开始按钮。不依赖任何外部库,所有代码写在一个HTML文件里。

代码一次出来就能用,打开浏览器直接玩,没有报错,逻辑也是对的:

  • 计时从第一次按键触发,不是页面加载就开始;
  • WPM用的是标准5字符/词算法,实时更新;
  • 准确率按字符逐个比对,打完之后结果面板自动弹出,有动画,重新开始也干净;
  • 词库还分了常用词、技术词汇、日常词汇三个层次,随机抽取,不会每次都一样。

还有一个细节是,界面中的空格显示成了·而不是空白,方便你知道空格在哪,算是主动做了个对用户友好的设计判断。

混元重建的第一步

混元内部把Hy3 preview定调为团队、架构、基础设施全面重建之后交出的第一个版本。

它的尺寸比较小,但定位就是实用性,不追参数规模,把重心压在真实业务场景里能不能跑出效果上。

这个路子和姚顺雨一直在讲的判断是一回事。

他说AI已经进了下半场,光堆规模没用了,得去定义真正有用的任务,让模型在真实业务和复杂场景里反复锤炼。

姚顺雨表示:Hy3 preview是混元大模型重建的第一步,我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈。

与此同时,混元团队也在继续扩大预训练和强化学习的规模,提升模型的智能上限。

同时,团队还将通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。

本文来源:量子位

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章