市场直击 02/18 14:34

令人难以置信!AI大神评Grok 3:性能媲美OpenAI最强模型,略优于DeepSeek-R1

在大模型Grok3正式发布后,曾担任特斯拉人工智能和自动驾驶视觉总监的AI大牛Andrej Karpathy在第一时间做了点评,其认为Grok 3大致等于o1-pro ,领先于DeepSeek-R1。

Karpathy表示,Grok 3显然有一个最先进的思维模型,并且在卡坦岛定居者问题上做得很好。很少有模型能够可靠地做到这一点。顶级的 OpenAI 思维模型(例如 o1-pro,每月 200 美元)也能做到这一点,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 的所有模型都没有。

但模型并没有解决“表情符号之谜”问题,即使以 Rust 代码的形式给出了有关如何解码它的强烈提示,Karpathy称其见过的最大进展来自 DeepSeek-R1,它曾经部分解码了消息。

Karpathy认为,DeepSearch大约等于Perplexity DeepResearch 的产品,但还没有达到 OpenAI 最近发布的“深度研究”的水平。

Karpathy表示,就目前短暂上手的体验而言,Grok 3 + Thinking 感觉在 OpenAI 最强模型(o1-pro,200 美元/月)的艺术领域附近,略好于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考虑到团队在 ~1 年前从头开始,这是相当令人难以置信的,达到最先进领域的时间跨度是前所未有的。

但目前得出完整结论还为时过早,需要在在接下来的几天/几周内等待更多的评估。