刚刚，姚顺雨首次交卷！腾讯混元3 Preview大模型发布

量子位

04/23 17:50

腾讯混元发布并开源Hy3 preview模型，总参数295B、激活21B，主打高性价比与实用性，重点强化Agent与Coding能力，在SWE-Bench、Terminal-Bench等代码与搜索智能体评测中表现突出，并在ClawEval等任务中具备竞争力。

入职腾讯之后，姚顺雨交出了首张答卷。

腾讯混元Hy3 preview，混元最新基座模型，刚刚正式官宣并开源，已经上了元宝和WorkBuddy。

模型总参数295B，激活参数只有21B，尺寸不大，定位就是实用性，在真实业务场景里好用。

官方标注的重点能力是Agent和Coding，正好是姚顺雨在OpenAI那几年最深耕的方向，Operator和Deep Research背后都有他，ReAct框架也是他提的。

具体来说，Hy3 preview以较快的速度在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准以及BrowseComp、WideSearch等主流搜索智能体基准中取得了有竞争力的结果。

智能体能力方面，Hy3 preview在ClawEval和WildClawBench等评测中同样表现突出。

快慢思考融合、长上下文理解、指令遵循也都是官方强调的方向，闲聊写作也能玩。

除了公开榜单，腾讯混元还进一步构建了多个内部的评测集，结果Hy3 preview均体现出了强竞争力。

价格方面，在腾讯云大模型服务平台TokenHub上，Hy3 preview输入价格最低1.2元/百万tokens，输入命中缓存价格0.4元/百万tokens，输出价格最低4元/百万tokens。

比较各个开源模型的大小与智能体综合表现，Hy3 preview展现出高性价比。

目前，Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线。

元宝和WorkBuddy这两个场景，我们抢先实际体验了一番。

Hy3 preview上线元宝

先从元宝开始，元宝是最直接的对话入口。

我们出了两道题，一道逻辑推理，一个创意写作，想看看基础对话能力到什么水平。

第一题是这样的：

六个人A B C D E F参加一个循环赛，每两人之间恰好比赛一次，赢得1分，输得0分，平局各得0.5分。比赛结束后：A的得分严格高于B，B严格高于C，C严格高于D，D严格高于E，E严格高于F，所有人得分各不相同，且A和F的比赛结果是平局。请问C的得分是多少？给出完整推理过程。

这道题的难点在于“A和F平局”这个条件，第一名和最后一名平局，直觉上说不通，但又不违反任何规则。

六人循环赛总分固定是15分，分数严格递减且各不相同，约束够多，答案唯一，但枚举路径不短，中间容易在分数分配上出错。

结果答案正确，C=3，推理过程也没有问题。

值得说的是它处理“A和F平局”这个条件的方式，没有被这个反直觉的设定绊住，直接从总分15分倒推A只能是4.5，然后F自然锁定为0.5，剩下四人的分配唯一确定。

整个推理链条干净，没有绕弯子，也没有先枚举再验证，看得出是真的在推。

推理过了，再看看写作，给它的任务是这样的：

写一段对话。场景是：一个人正在和自己五分钟后的自己通电话，五分钟后的自己一直在哭，但不肯说为什么。200字以内。

这个设定足够奇特，“不肯说为什么”是个主动约束，想看它怎么处理这个沉默，是绕开它还是真的把这个沉默写进对话里。

结果元宝写得出乎意料地好，“不肯说为什么”这个约束不但没有被绕开，反而成了整段的核心。

“我现在说……就全都完了”这一句把“沉默”变成了真正有重量的东西，暗示说出口这个行为本身会改变某些事。

结尾“看着屏幕上显示的‘5分钟后’，脊背发凉”，用细节收住，没有解释，留白留得干净。

WorkBuddy也被进驻

元宝测的是对话，WorkBuddy换个维度，本地安装本地跑，能直接操作你电脑上的文件和终端，不走云端。布置了三件需要真正做成的事。

第一个任务想测它处理本地文件的能力，场景是真实工作里很常见的那种——

一堆散落的业务数据文件，格式各不一样，没有人告诉你该怎么处理，看你自己能不能整理出个样子来。

我们给它准备了五个文件，销售订单流水、用户日活数据、渠道投放明细、企业客户合同台账、费用月度明细，有txt有csv，命名也是那种英文加日期拼在一起、看了也不知道该用哪个版本的风格，总共约100KB。

这个任务中，它得自己决定读文件的顺序、怎么解析不同格式，最后还得把这些东西组织成一个像样的报告。

prompt是这样的：

扫描我桌面上data文件夹里的内容。这是一家公司散落的业务数据，格式各异、命名混乱。请读取全部文件，整理成一份清晰的业务数据摘要报告，输出为一个可以直接在浏览器打开的HTML文件。

结果，它自己写了一个Python脚本来读取数据，逐一处理完五个文件，txt、csv都没卡住。

脚本跑完，HTML也就有了，在浏览器里打开就能用，有核心指标卡片、有分渠道明细表，样式也干净。

数字上，广告总投入4393.3万、Q3平均DAU 94310、企业客户合同120份总金额2168万，跟原始数据逐一核对，全部对得上，没有张冠李戴，也没有单位搞错。

跨文件的数字也整合进去了，比如广告投放和用户数据放在同一张报告里做了关联。

本地文件测的是处理已有信息的能力，这个任务换个方向，让它自己从零开始找。

这个任务想看的是它搜了几轮、有没有换过关键词、最后给出的判断是从搜到的东西里归纳出来的，还是从脑子里背了一段听起来合理的答案。

帮我做一份关于“AI Agent在企业办公场景落地”的深度研究报告。自己搜集资料，找到真实的产品案例和数据，识别目前落地的主要障碍，给出你认为接下来半年最值得关注的方向。不要只罗列信息，要有自己的判断。

它先把任务自己拆成了4个子任务，然后跑了5轮搜索，中途觉得信息还不够，又自己追加了一轮，最后还在本地建了工作记忆目录，把这次的研究结果存下来。

整个过程18次工具调用、21条过程消息，没有一次等待人来指示下一步。

报告本身也撑得住。引用了Google Cloud、微软财报、第一新声智库等来源，覆盖了7个真实落地案例，信源不是一家的。

更值得说的是它对数据的态度，拿到数字之后会主动质疑，比如对120%复合增长率直接说“更多反映的是采购合同金额而非实际产生的业务价值”。

这种处理方式不像是只做检索总结，更像是真的在做研究。

前两个任务都是信息处理，最后这个换个方向，让它做一个打字练习游戏。

我们要求它输出HTML单文件，浏览器直接打开能玩，随机生成英文单词让用户跟着打，实时显示哪里打对了哪里打错了，计时从第一次按键开始，打完显示准确率和WPM，有重新开始按钮。

功能听起来不复杂，但输入检测、计时逻辑、准确率计算、界面反馈每个环节都可能出问题，打开就能知道好不好用。

做一个打字练习游戏，要求：HTML单文件，浏览器直接打开可以玩；随机生成一段英文单词供用户输入；实时高亮显示输入正确/错误的字符；计时从第一次按键开始；完成后显示准确率和WPM（每分钟字数）；有重新开始按钮。不依赖任何外部库，所有代码写在一个HTML文件里。

代码一次出来就能用，打开浏览器直接玩，没有报错，逻辑也是对的：

计时从第一次按键触发，不是页面加载就开始；
WPM用的是标准5字符/词算法，实时更新；
准确率按字符逐个比对，打完之后结果面板自动弹出，有动画，重新开始也干净；
词库还分了常用词、技术词汇、日常词汇三个层次，随机抽取，不会每次都一样。

还有一个细节是，界面中的空格显示成了·而不是空白，方便你知道空格在哪，算是主动做了个对用户友好的设计判断。

混元重建的第一步

混元内部把Hy3 preview定调为团队、架构、基础设施全面重建之后交出的第一个版本。

它的尺寸比较小，但定位就是实用性，不追参数规模，把重心压在真实业务场景里能不能跑出效果上。

这个路子和姚顺雨一直在讲的判断是一回事。

他说AI已经进了下半场，光堆规模没用了，得去定义真正有用的任务，让模型在真实业务和复杂场景里反复锤炼。

姚顺雨表示：Hy3 preview是混元大模型重建的第一步，我们希望通过这次开源和发布，获得来自开源社区和用户的真实反馈。

与此同时，混元团队也在继续扩大预训练和强化学习的规模，提升模型的智能上限。

同时，团队还将通过与腾讯众多产品的深度Co-Design，持续提升模型在真实场景中的综合表现，并开始探索特色模型能力。

本文来源：量子位

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

刚刚，姚顺雨首次交卷！腾讯混元3 Preview大模型发布

Hy3 preview上线元宝

WorkBuddy也被进驻

混元重建的第一步

大科技烧7000亿美元，谷歌独自交卷

AI转型加速，腾讯Q1营收同比增9%，净利润大增21%，资本开支达370亿元｜财报见闻

高盛深度：中国AI五大关键辩论

腾讯Hy3 preview 登顶OpenRouter的 API 调用量排行榜

腾讯Hy3 preview上线，姚顺雨加入后的成绩单出炉