杭州95后学霸坐C位，Grok 3登顶App Store！Hinton高徒、多伦多华人博士领衔

新智元

02-21 15:58

185

官宣免费后，Grok火速登顶美区App Store榜首，同时，xAI也放出官方博文，秀了一把模型的数学、代码、ASCII Art演示。最引人瞩目的两位C位华人，均来自多伦多大学，分别和Hinton、Bengio有交集。

昨日官宣免费不过几小时，Grok直接在美区App Store榜一。

马斯克甚至欣喜地表示，这还没有集成语音模式，未来几天即将上线。

付费用户可以提前体验Grok 3语音模式

这场史诗级发布，焦点不仅仅在Grok 3上，还有发布会现场坐在C位的两位华人科学家。

一位是多伦多大学计算机科学助理教授Jimmy Ba，另一位是xAI联创吴怀宇（Tony Wu）。

值得一提的是，吴怀宇是四人当中唯一一个95后，毕业于杭州建兰中学，博士期间在多伦多大学，曾是AlphaGeometry、AlphaStar核心开发者。

Jimmy Ba还是AI大佬Hinton的学生。

Igor Babuschkin、Jimmy Ba、吴怀宇、马斯克

值得一提的是，Grok 3 Beta官方技术博客也终于出炉了，被称为跨入推理智能体时代的AI。

20(/10)万块GPU训出的首款Grok，在推理、数学、编码、世界知识等任务方面，取得了显著提升，成功为Scaling Law续命。

博客详细介绍了Grok 3的各个功能和基准测试结果

xAI最强智能系统

18号，xAI推出了迄今为止最先进的模型Grok 3：它将强大的推理能力与广泛的预训练知识融为一体。

Grok 3在xAI的Colossus超级计算集群上训练，运算能力是现有顶尖模型的10倍，在推理、数学、编程、世界知识和指令遵循任务方面都表现出显著提升。

Grok 3的推理能力通过大规模强化学习（RL）得到提升，使其能够进行持续数秒到数分钟的思考，纠正错误、探索替代方案，并提供准确答案。它在学术基准测试和真实用户偏好方面都表现出色，在Chatbot Arena中获得了1402的Elo评分。

与此同时，xAI还推出了Grok 3 mini，代表着高效推理的新突破。

更深入的思考：测试时计算与推理

Grok 3（Think）和 Grok 3 mini（Think）这两个beta版的推理模型，使用RL进行训练，规模前所未有。因此，CoT推理过程得到提升，实现了高效的高级推理。

RL训练后的Grok 3（Think），学会了完善问题解决策略，还能用回溯来纠正自己的错误、简化步骤，并且会利用预训练中获得的知识。

就像人类面对复杂问题时一样，它会花费几秒到几分钟的时间去推理，还能用多种方法验证答案，评估如何精准满足要求。

比如这个问题「人生的意义是什么？」

Grok 3会花费4秒钟思考，总结说：对生命意义的追问，是人类几百年来的困难，表现形式会因提问者和所看重的东西而大相径庭。

这两个模型虽然仍在训练中，但在多个基准测试中已经展现出卓越的表现。

xAI表示，他们在2月12日（仅7天前）发布的2025年美国数学邀请赛（AIME）上测试了这些模型。

他们使用最高级别的测试时计算参数（cons@64），Grok 3（Think）在这项竞赛中达到了93.3%的正确率，在研究生级别的专家推理测试（GPQA）中达到了84.6%的成绩，在代码生成和问题解决的LiveCodeBench测试中达到了79.4 %。

此外，Grok 3 mini在不需要太多世界知识的科学、技术、工程和数学（STEM）任务中实现了高效推理能力的新突破，在2024年AIME中达到95.8 %的正确率，在LiveCodeBench中达到80.4 %的成绩。

要使用Grok 3的推理能力，只需点击「Think」（思考）按钮即可。

Grok 3（Think）的思维模式完全开放，使用户不仅可以看到最终答案，还可以了解模型的完整推理过程。它的推理能力可以广泛应用于各类问题领域。下面，让我们看看Grok 3的一些推理示例。

代码

在这个任务中，Grok 3被要求用pygame创建一款混合两种经典游戏的的混合游戏，看起来要很漂亮。

思考6分钟后，Grok 3给出了完整的代码实现。

它做出了一个功能完整的2D游戏，代码结构清晰，注释详细，易于理解和修改。游戏结合了经典元素（Breakout 和 Pong），娱乐性拉满。

而视觉效果，是通过粒子和颜色增强呈现的。

所以，Grok 3是怎样满足「让游戏看起来很漂亮」这个要求的呢？

它用五彩斑斓的砖块、砖块破碎时的粒子效果、渐隐粒子等，实现了动态的外观呈现。

另外，Grok 3还有一些更加别具匠心的设计，比如添加弹跳的音效，使用更大的球拍、更快的球增加力道、添加背景渐变等。

ASCII Art

这个任务中要求Grok 3创建一个高保真Frank Lloyd Wright风格住宅的ASCII字符艺术。

Frank Lloyd Wright是一位著名的美国建筑师，以其有机建筑风格著称，作品通常与自然环境融为一体，特征包括水平线条、开放空间和大窗户。

Grok 3思考了3分钟后开始输出它的作品。

可以看出，Grok 3生成的图片通过ASCII字符生动地再现了Frank Lloyd Wright草原风格建筑的经典特征。设计简洁而富有层次感，完美捕捉了草原风格建筑的本质。

图片下方还提供了详细的设计说明和注意事项，解释了每个ASCII字符的象征意义：屋顶用斜线和横线强调水平线条，烟囱位于屋顶左侧增加平衡，墙壁和窗户强化水平延伸，基础线体现有机整合。

24点游戏

这个任务中，Grok 3被要求用4、4、10、10来玩24点游戏，目标是添加加减乘除运算符，得出24。

它需要选出，成功完成这个游戏的第一个运算是什么。

思考3分钟后，它得出了解法：使用((10×10)−4)÷4这个表达式，因此选出答案F。并且，它还进一步进行了验证，排除了其他选项的可能性。

数学

接下来，是一道难度不小的数学题。

这道题给出了一个递归定义，涉及到了正整数n和一系列从集合{1,…,n} 中均匀随机选择的整数m_n,k。

最终，题目要求计算出期望值E(n)，并求出在n趋于无限时，E(n)/n的极限值。

Grok 3思考了4分钟后，确定了自己需要完成的步骤。

首先，需要分析状态空间和转换，然后要定义漂移项和期望值的递推关系，第三步要解决递归，最后一步就是计算极限。

最终，Grok 3给出了最终答案：(1-e^(-2))/2。

超大规模预训练

当不启用推理功能时，Grok 3能够即时提供高质量回答。

在常规模型（非推理模式）中，Grok 3在多项学术基准测试中均达到了SOTA，这些测试包括：研究生级科学知识评估（GPQA）、高级通用知识测试（MMLU-Pro）、数学竞赛解题能力（AIME）等。

同时，Grok 3在图像理解能力测试（MMMU）和视频内容理解任务（EgoSchema）中也展现出卓越表现。

Grok 3的上下文处理窗口可达100万个token，是Grok 2的8倍，这使其能够处理超长文档并响应复杂提示词，同时保持极高的指令执行准确度。

在专门测试长文本RAG能力的LOFT基准测试（支持128k长度）中，Grok 3在12项不同任务的平均准确率上达到了SOTA，充分展示了其卓越的信息检索能力。

Grok 3同时在事实准确性和文风把控方面都取得了显著提升。以代号「chocolate」发布的Grok 3早期版本在LMArena Chatbot Arena排行榜上独占鳌头，其Elo评分在所有评估类别中均超越竞争对手。

目前，xAI正在扩大发展规模，准备利用配备20万个GPU的计算集群来训练更大规模的模型。

Grok智能体：融合推理能力与工具运用

为了理解宇宙，xAI让Grok与现实世界实现交互。通过整合Code Interpreter（代码解释器）和互联网访问能力，Grok 3模型能够主动查询所需的上下文信息，灵活调整处理方法，并通过反馈不断优化其推理能力。

作为实现这一愿景的第一步，xAI推出了他们的首个AI智能体——DeepSearch。

这是一个反应极速的AI智能体，专注于在浩瀚的人类知识库中持续探索真相。

无论是实时掌握最新资讯，解决社交难题，还是开展深度科研工作，DeepSearch都能提供远超普通搜索引擎的体验。它最终会生成一份精炼而全面的总结报告，助你在这个快速发展的世界中把握先机。

两位华人坐镇C位，还有一位杭州95后

Grok 3直播画面中，马斯克与三位技术负责人并肩而坐，一开场，还谦虚地说自己什么也没干。

其中两位华人颇有缘分，Jimmy Ba和吴宇怀均在多伦多大学完成了博士学位。

个人资料显示，Jimmy Ba目前是多伦多大学计算机科学系助理教授，他的学士、硕士学位也是在多伦多大学完成，导师分别是Brendan Frey和Ruslan Salakhutdinov。

博士期间，曾在Geoffrey Hinton指导下完成了学业。

Jimmy Ba还曾获得了2016年Facebook研究生奖学金，2023年诺奖风向标「斯隆研究奖」。

提及个人贡献，Jimmy Ba曾提出了大名鼎鼎的深度学习训练算法Adam优化器，这是一种自适应学习率的优化算法。

这篇发表在2015年的论文，被引数量突破了20万。

另一篇被引最高的论文，是与Hinton一起完成「层归一化」（Layer Normalization），一种深度学习中用于优化神经网络的方法。

另一位吴宇怀，是一位名副其实的95后学霸。

小学一年级就读于新安江一小，后转学到杭州紫阳小学。到了初中，进入杭州建兰中学学习，随后高中又转到加拿大。

他的职业生涯更为丰富，从OpenAI、谷歌DeepMind，到斯坦福博士后研究员、谷歌研究科学家，再到如今xAI联创，走出了不同寻常的人生轨迹。

他曾参与了许多人熟知的AI研发，比如STaR、Minerva、AlphaGeometry、Autoformalization、Memorizing Transformer、AlphaStar等。

吴怀宇也曾与图灵奖得主Bengio有交集，在2016 NrurIPS上，他们与多位合著者共同提出了Multiplicative Integratio架构，共同改善循环神经网络。

论文地址：https://arxiv.org/pdf/1606.06630

除了他们两人，事实上，xAI团队还有不少有名的华人科学家。

联创Greg Yang(杨格)，出生在湖南，本硕就读于哈佛大学数学系，大学时期的导师是数学家丘成桐。在加入xAI前，他是微软的高级研究员，负责AI理论研究。

他的学术生涯充满传奇色彩，在哈佛求学期间，他曾两度休学，一次是为了追求自己的DJ梦想，另一次则是为了深入研究数学。于2018年荣获摩根奖（Morgan Prize）荣誉奖，现研发TensorPrograms理论和扩展神经网络的实践。

他的研究方向深受数学驱动，他曾在社交平台上写道：「Math for AI, and AI for Math!」（数学推动AI，AI反过来也能推动数学）。在AI研究人员眼中，他不仅是一位科学家，更是一位愿意挑战AI理论极限的数学家。

清华校友Zihang Dai（戴子航），前谷歌大脑研究员，获得了清华和CMU的学位。此前，他还在百度美国分公司和蒙特利尔大学的MILA进行过研究实习。

戴子航本科毕业于清华大学计算机科学系，大学期间，连续三年拿下专业第一，并在大三暑假，师从著名计算机视觉专家朱松纯开展研究。2020年博士毕业于卡内基梅隆大学计算机系，随后加入谷歌研究院。

他在自然语言处理（NLP）领域拥有深厚的积累，尤其擅长Transformer架构的优化与创新。他曾在谷歌和百度美区实习，并在多个顶级AI会议上发表论文。

浙大校友Guodong Zhang（张国栋），也是机器学习和人工智能领域的研究者，曾就职于多伦多大学和矢量研究所（Vector Institute），因研究大模型训练、微调、对齐而闻名。

他本科就读于浙江大学信息工程专业，大学时连续三年排名专业第一，拿了三年的国家奖学金，还获得过全国大学生数学建模竞赛一等奖，美国大学生数学建模竞赛一等奖。

大二时，他对人工智能产生了浓厚兴趣，投入到计算机视觉领域的研究中；大三暑假，跟着全球著名计算机视觉专家朱松纯从事相关研究。加入xAI之后，他的研究方向主要聚焦于如何优化AI训练效率，并提升模型的稳定性。

另有网友绘制了一幅xAI成员背景图，可以看华人学者占据近一半比例。

文章来源：新智元，原文标题：《杭州95后学霸坐C位，Grok 3登顶App Store！Hinton高徒、多伦多华人博士领衔》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。