昨日官宣免费不过几小时,Grok直接在美区App Store榜一。
马斯克甚至欣喜地表示,这还没有集成语音模式,未来几天即将上线。
付费用户可以提前体验Grok 3语音模式
这场史诗级发布,焦点不仅仅在Grok 3上,还有发布会现场坐在C位的两位华人科学家。
一位是多伦多大学计算机科学助理教授Jimmy Ba,另一位是xAI联创吴怀宇(Tony Wu)。
值得一提的是,吴怀宇是四人当中唯一一个95后,毕业于杭州建兰中学,博士期间在多伦多大学,曾是AlphaGeometry、AlphaStar核心开发者。
Jimmy Ba还是AI大佬Hinton的学生。
Igor Babuschkin、Jimmy Ba、吴怀宇、马斯克
值得一提的是,Grok 3 Beta官方技术博客也终于出炉了,被称为跨入推理智能体时代的AI。
20(/10)万块GPU训出的首款Grok,在推理、数学、编码、世界知识等任务方面,取得了显著提升,成功为Scaling Law续命。
博客详细介绍了Grok 3的各个功能和基准测试结果
xAI最强智能系统
18号,xAI推出了迄今为止最先进的模型Grok 3:它将强大的推理能力与广泛的预训练知识融为一体。
Grok 3在xAI的Colossus超级计算集群上训练,运算能力是现有顶尖模型的10倍,在推理、数学、编程、世界知识和指令遵循任务方面都表现出显著提升。
Grok 3的推理能力通过大规模强化学习(RL)得到提升,使其能够进行持续数秒到数分钟的思考,纠正错误、探索替代方案,并提供准确答案。它在学术基准测试和真实用户偏好方面都表现出色,在Chatbot Arena中获得了1402的Elo评分。
与此同时,xAI还推出了Grok 3 mini,代表着高效推理的新突破。
更深入的思考:测试时计算与推理
Grok 3(Think)和 Grok 3 mini(Think)这两个beta版的推理模型,使用RL进行训练,规模前所未有。因此,CoT推理过程得到提升,实现了高效的高级推理。
RL训练后的Grok 3(Think),学会了完善问题解决策略,还能用回溯来纠正自己的错误、简化步骤,并且会利用预训练中获得的知识。
就像人类面对复杂问题时一样,它会花费几秒到几分钟的时间去推理,还能用多种方法验证答案,评估如何精准满足要求。
比如这个问题「人生的意义是什么?」
Grok 3会花费4秒钟思考,总结说:对生命意义的追问,是人类几百年来的困难,表现形式会因提问者和所看重的东西而大相径庭。
这两个模型虽然仍在训练中,但在多个基准测试中已经展现出卓越的表现。
xAI表示,他们在2月12日(仅7天前)发布的2025年美国数学邀请赛(AIME)上测试了这些模型。
他们使用最高级别的测试时计算参数(cons@64),Grok 3(Think)在这项竞赛中达到了93.3%的正确率,在研究生级别的专家推理测试(GPQA)中达到了84.6%的成绩,在代码生成和问题解决的LiveCodeBench测试中达到了79.4 %。
此外,Grok 3 mini在不需要太多世界知识的科学、技术、工程和数学(STEM)任务中实现了高效推理能力的新突破,在2024年AIME中达到95.8 %的正确率,在LiveCodeBench中达到80.4 %的成绩。
要使用Grok 3的推理能力,只需点击「Think」(思考)按钮即可。
Grok 3(Think)的思维模式完全开放,使用户不仅可以看到最终答案,还可以了解模型的完整推理过程。它的推理能力可以广泛应用于各类问题领域。下面,让我们看看Grok 3的一些推理示例。
代码
在这个任务中,Grok 3被要求用pygame创建一款混合两种经典游戏的的混合游戏,看起来要很漂亮。
思考6分钟后,Grok 3给出了完整的代码实现。
它做出了一个功能完整的2D游戏,代码结构清晰,注释详细,易于理解和修改。游戏结合了经典元素(Breakout 和 Pong),娱乐性拉满。
而视觉效果,是通过粒子和颜色增强呈现的。
所以,Grok 3是怎样满足「让游戏看起来很漂亮」这个要求的呢?
它用五彩斑斓的砖块、砖块破碎时的粒子效果、渐隐粒子等,实现了动态的外观呈现。
另外,Grok 3还有一些更加别具匠心的设计,比如添加弹跳的音效,使用更大的球拍、更快的球增加力道、添加背景渐变等。
ASCII Art
这个任务中要求Grok 3创建一个高保真Frank Lloyd Wright风格住宅的ASCII字符艺术。
Frank Lloyd Wright是一位著名的美国建筑师,以其有机建筑风格著称,作品通常与自然环境融为一体,特征包括水平线条、开放空间和大窗户。
Grok 3思考了3分钟后开始输出它的作品。
可以看出,Grok 3生成的图片通过ASCII字符生动地再现了Frank Lloyd Wright草原风格建筑的经典特征。设计简洁而富有层次感,完美捕捉了草原风格建筑的本质。
图片下方还提供了详细的设计说明和注意事项,解释了每个ASCII字符的象征意义:屋顶用斜线和横线强调水平线条,烟囱位于屋顶左侧增加平衡,墙壁和窗户强化水平延伸,基础线体现有机整合。
24点游戏
这个任务中,Grok 3被要求用4、4、10、10来玩24点游戏,目标是添加加减乘除运算符,得出24。
它需要选出,成功完成这个游戏的第一个运算是什么。
思考3分钟后,它得出了解法:使用((10×10)−4)÷4这个表达式,因此选出答案F。并且,它还进一步进行了验证,排除了其他选项的可能性。

数学
接下来,是一道难度不小的数学题。
这道题给出了一个递归定义,涉及到了正整数n和一系列从集合{1,…,n} 中均匀随机选择的整数m_n,k。
最终,题目要求计算出期望值E(n),并求出在n趋于无限时,E(n)/n的极限值。
Grok 3思考了4分钟后,确定了自己需要完成的步骤。
首先,需要分析状态空间和转换,然后要定义漂移项和期望值的递推关系,第三步要解决递归,最后一步就是计算极限。
最终,Grok 3给出了最终答案:(1-e^(-2))/2。
超大规模预训练
当不启用推理功能时,Grok 3能够即时提供高质量回答。
在常规模型(非推理模式)中,Grok 3在多项学术基准测试中均达到了SOTA,这些测试包括:研究生级科学知识评估(GPQA)、高级通用知识测试(MMLU-Pro)、数学竞赛解题能力(AIME)等。
同时,Grok 3在图像理解能力测试(MMMU)和视频内容理解任务(EgoSchema)中也展现出卓越表现。
Grok 3的上下文处理窗口可达100万个token,是Grok 2的8倍,这使其能够处理超长文档并响应复杂提示词,同时保持极高的指令执行准确度。
在专门测试长文本RAG能力的LOFT基准测试(支持128k长度)中,Grok 3在12项不同任务的平均准确率上达到了SOTA,充分展示了其卓越的信息检索能力。
Grok 3同时在事实准确性和文风把控方面都取得了显著提升。以代号「chocolate」发布的Grok 3早期版本在LMArena Chatbot Arena排行榜上独占鳌头,其Elo评分在所有评估类别中均超越竞争对手。
目前,xAI正在扩大发展规模,准备利用配备20万个GPU的计算集群来训练更大规模的模型。
Grok智能体:融合推理能力与工具运用
为了理解宇宙,xAI让Grok与现实世界实现交互。通过整合Code Interpreter(代码解释器)和互联网访问能力,Grok 3模型能够主动查询所需的上下文信息,灵活调整处理方法,并通过反馈不断优化其推理能力。
作为实现这一愿景的第一步,xAI推出了他们的首个AI智能体——DeepSearch。
这是一个反应极速的AI智能体,专注于在浩瀚的人类知识库中持续探索真相。
无论是实时掌握最新资讯,解决社交难题,还是开展深度科研工作,DeepSearch都能提供远超普通搜索引擎的体验。它最终会生成一份精炼而全面的总结报告,助你在这个快速发展的世界中把握先机。
两位华人坐镇C位,还有一位杭州95后
Grok 3直播画面中,马斯克与三位技术负责人并肩而坐,一开场,还谦虚地说自己什么也没干。
其中两位华人颇有缘分,Jimmy Ba和吴宇怀均在多伦多大学完成了博士学位。
个人资料显示,Jimmy Ba目前是多伦多大学计算机科学系助理教授,他的学士、硕士学位也是在多伦多大学完成,导师分别是Brendan Frey和Ruslan Salakhutdinov。
博士期间,曾在Geoffrey Hinton指导下完成了学业。
Jimmy Ba还曾获得了2016年Facebook研究生奖学金,2023年诺奖风向标「斯隆研究奖」。
提及个人贡献,Jimmy Ba曾提出了大名鼎鼎的深度学习训练算法Adam优化器,这是一种自适应学习率的优化算法。
这篇发表在2015年的论文,被引数量突破了20万。
另一篇被引最高的论文,是与Hinton一起完成「层归一化」(Layer Normalization),一种深度学习中用于优化神经网络的方法。
另一位吴宇怀,是一位名副其实的95后学霸。
小学一年级就读于新安江一小,后转学到杭州紫阳小学。到了初中,进入杭州建兰中学学习,随后高中又转到加拿大。
他的职业生涯更为丰富,从OpenAI、谷歌DeepMind,到斯坦福博士后研究员、谷歌研究科学家,再到如今xAI联创,走出了不同寻常的人生轨迹。
他曾参与了许多人熟知的AI研发,比如STaR、Minerva、AlphaGeometry、Autoformalization、Memorizing Transformer、AlphaStar等。
吴怀宇也曾与图灵奖得主Bengio有交集,在2016 NrurIPS上,他们与多位合著者共同提出了Multiplicative Integratio架构,共同改善循环神经网络。
论文地址:https://arxiv.org/pdf/1606.06630
除了他们两人,事实上,xAI团队还有不少有名的华人科学家。
联创Greg Yang(杨格),出生在湖南,本硕就读于哈佛大学数学系,大学时期的导师是数学家丘成桐。在加入xAI前,他是微软的高级研究员,负责AI理论研究。
他的学术生涯充满传奇色彩,在哈佛求学期间,他曾两度休学,一次是为了追求自己的DJ梦想,另一次则是为了深入研究数学。于2018年荣获摩根奖(Morgan Prize)荣誉奖,现研发TensorPrograms理论和扩展神经网络的实践。
他的研究方向深受数学驱动,他曾在社交平台上写道:「Math for AI, and AI for Math!」(数学推动AI,AI反过来也能推动数学)。在AI研究人员眼中,他不仅是一位科学家,更是一位愿意挑战AI理论极限的数学家。
清华校友Zihang Dai(戴子航),前谷歌大脑研究员,获得了清华和CMU的学位。此前,他还在百度美国分公司和蒙特利尔大学的MILA进行过研究实习。
戴子航本科毕业于清华大学计算机科学系,大学期间,连续三年拿下专业第一,并在大三暑假,师从著名计算机视觉专家朱松纯开展研究。2020年博士毕业于卡内基梅隆大学计算机系,随后加入谷歌研究院。
他在自然语言处理(NLP)领域拥有深厚的积累,尤其擅长Transformer架构的优化与创新。他曾在谷歌和百度美区实习,并在多个顶级AI会议上发表论文。
浙大校友Guodong Zhang(张国栋),也是机器学习和人工智能领域的研究者,曾就职于多伦多大学和矢量研究所(Vector Institute),因研究大模型训练、微调、对齐而闻名。
他本科就读于浙江大学信息工程专业,大学时连续三年排名专业第一,拿了三年的国家奖学金,还获得过全国大学生数学建模竞赛一等奖,美国大学生数学建模竞赛一等奖。
大二时,他对人工智能产生了浓厚兴趣,投入到计算机视觉领域的研究中;大三暑假,跟着全球著名计算机视觉专家朱松纯从事相关研究。加入xAI之后,他的研究方向主要聚焦于如何优化AI训练效率,并提升模型的稳定性。
另有网友绘制了一幅xAI成员背景图,可以看华人学者占据近一半比例。
文章来源:新智元,原文标题:《杭州95后学霸坐C位,Grok 3登顶App Store!Hinton高徒、多伦多华人博士领衔》