DeepSeek OCR论文引爆网络！Andrej Karpathy：我很喜欢；马斯克：未来99%都是光子

AI寒武纪

10/21 13:45

DeepSeek OCR论文引发热议。AI大神Karpathy认为像素可能优于文本作为LLM输入，提出四大理由：信息压缩效率更高、像素更通用、支持双向注意力、可淘汰存在安全隐患的Tokenizer。他设想未来文本应先渲染成图像再输入模型。马斯克评论称，从长远看AI模型99%的输入输出将是光子，因宇宙中光子数量占绝对优势，这是唯一可规模化的方案。

刚刚，AI大神Andrej Karpathy表示非常喜欢DeepSeek OCR 论文，原话：

我相当喜欢新的DeepSeek-OCR论文。它是一个很好的OCR模型（可能比dots稍微差一点），是的，数据收集等等，但无论如何都不重要。对我来说更有趣的部分（尤其是作为一个以计算机视觉为核心，暂时伪装成自然语言的人）是像素是否比文本更适合作为LLM的输入。文本标记是否浪费且糟糕，作为输入。

还不知什么情况的看我昨天的文章：DeepSeek王炸：10倍压缩率，97%解码精度！上下文光学压缩登场

Karpathy认为，抛开模型本身不谈，deepseek这篇论文引出了一个更值得深思的问题：对于LLM来说，像素是否是比文本更优越的输入形式？文本Token是否既浪费又糟糕？

他进一步设想，或许所有LLM的输入都只应该是图像。即便是纯文本内容，也应该先渲染成图片再输入给模型

Karpathy给出了支持这一构想的四大核心理由：

1. 更高的信息压缩效率

将文本渲染成图像，可以实现更高的信息压缩，这意味着更短的上下文窗口和更高的运行效率

2. 更通用的信息流

像素是一种远比文本更通用的信息流。它不仅能表示纯文本，还能轻松捕捉粗体、彩色文本，甚至是任意的图表和照片

3. 默认实现强大的双向注意力

像素化的输入可以很自然、很轻松地默认使用双向注意力进行处理，这种处理方式比自回归注意力更为强大

4. 彻底淘汰Tokenizer

Karpathy毫不掩饰自己对Tokenizer的嫌弃。他认为Tokenizer是一个丑陋、独立、非端到端的阶段。它引入了Unicode和字节编码的所有丑陋之处，继承了大量历史包袱，并带来了安全和越狱风险（例如连续字节问题）

他举例说，Tokenizer会导致两个在人眼看来完全相同的字符，在网络内部被表示为两个完全不同的Token。一个笑脸emoji，在模型看来只是一个奇怪的Token，而不是一个由像素构成的、真实的笑脸，这导致模型无法利用其视觉信息带来的迁移学习优势。Tokenizer必须消失，他强调

Karpathy总结道，OCR只是众多视觉到文本（vision -> text）任务中的一种。而传统的文本到文本（text -> text）任务，完全可以被重构成视觉到文本任务，反之则不行

他设想的未来交互模式可能是：用户的输入（Message）是图像，而解码器（Assistant的响应）的输出仍然是文本。因为如何真实地输出像素，或者是否有必要这样做，目前还不明确

核心争议：双向注意力与图像分块

对于Karpathy的观点，AI学者Yoav Goldberg提出了两个疑问：

1.为什么说图像能轻松获得双向注意力，而文本不能？

2.虽然没有了Tokenization，但将输入图像切分成图块（Patches），难道不是一种类似且可能更丑陋的处理方式吗？

Karpathy对此进行了解释。

他回应说，原则上没有任何东西阻止文本使用双向注意力。但为了效率，文本通常都是以自回归的方式进行训练的。他设想，可以在训练中期加入一个微调阶段，用双向注意力来处理作为条件的信息（比如用户的输入消息，因为这些Token不需要模型去生成）。但他不确定在实践中是否有人这样做。理论上，为了预测下一个Token，甚至可以对整个上下文窗口进行双向编码，但这将导致训练无法并行化

最后他补充道，或许这个方面（双向注意力）严格来说并非像素与Token的本质区别，更多是像素通常被编码（encoded），而Token通常被解码（decoded）（借用原始Transformer论文的术语）

马斯克：未来99%是光子

在这场讨论的最后，Elon Musk也现身评论区，并给出了一个更具未来感的判断：

从长远来看，AI模型超过99%的输入和输出都将是光子。没有其他任何东西可以规模化

马斯克的这条评论并非随口一说。他进一步补充了一段堪称硬核的宇宙学科普，来解释为什么他认为“光子”是终极的规模化方案

简单来说，宇宙中绝大多数的粒子都是光子

而这些光子最主要的来源，是宇宙微波背景（CMB）。根据测算，CMB的光子密度约为每立方厘米410个。将这个密度乘以可观测宇宙的巨大体积（半径约465亿光年），可以得出仅CMB贡献的光子数量就达到了一个惊人的数字：约1.5 x 10⁸⁹个

相比之下，所有恒星发出的光子（星光）以及其他来源（如中微子背景、黑洞辐射等）贡献的数量，则完全可以忽略不计

这背后揭示的物理事实是：光子在数量级上拥有无与伦比的优势。这或许就是马斯克认为AI的未来输入输出将由光子主宰的底层逻辑

本文来源：AI寒武纪，原文标题：《DeepSeek OCR论文引爆网络！Andrej Karpathy：我很喜欢；马斯克：未来99%都是光子》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

DeepSeek OCR论文引爆网络！Andrej Karpathy：我很喜欢；马斯克：未来99%都是光子

核心争议：双向注意力与图像分块

马斯克：未来99%是光子

特斯拉“世界模拟器”来了：1天学习人类500年驾驶经验，擎天柱可共用同款“大脑”

盲人复明！马斯克Neuralink联创实现人工视觉里程碑

华尔街见闻早餐FM-Radio | 2025年10月22日

Andrej Karpathy最新万字采访：AGI还需10年，RL其实很糟糕，AGI不会导致经济大爆发