DeepSeek OCR论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来99%都是光子

AI寒武纪
DeepSeek OCR论文引发热议。AI大神Karpathy认为像素可能优于文本作为LLM输入,提出四大理由:信息压缩效率更高、像素更通用、支持双向注意力、可淘汰存在安全隐患的Tokenizer。他设想未来文本应先渲染成图像再输入模型。马斯克评论称,从长远看AI模型99%的输入输出将是光子,因宇宙中光子数量占绝对优势,这是唯一可规模化的方案。

刚刚,AI大神Andrej Karpathy表示非常喜欢DeepSeek OCR 论文,原话:

我相当喜欢新的DeepSeek-OCR论文。它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入。文本标记是否浪费且糟糕,作为输入。

还不知什么情况的看我昨天的文章:DeepSeek王炸:10倍压缩率,97%解码精度!上下文光学压缩登场

Karpathy认为,抛开模型本身不谈,deepseek这篇论文引出了一个更值得深思的问题:对于LLM来说,像素是否是比文本更优越的输入形式?文本Token是否既浪费又糟糕?

他进一步设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型

Karpathy给出了支持这一构想的四大核心理由:

1. 更高的信息压缩效率

将文本渲染成图像,可以实现更高的信息压缩,这意味着更短的上下文窗口和更高的运行效率

2. 更通用的信息流

像素是一种远比文本更通用的信息流。它不仅能表示纯文本,还能轻松捕捉粗体、彩色文本,甚至是任意的图表和照片

3. 默认实现强大的双向注意力

像素化的输入可以很自然、很轻松地默认使用双向注意力进行处理,这种处理方式比自回归注意力更为强大

4. 彻底淘汰Tokenizer

Karpathy毫不掩饰自己对Tokenizer的嫌弃。他认为Tokenizer是一个丑陋、独立、非端到端的阶段。它引入了Unicode和字节编码的所有丑陋之处,继承了大量历史包袱,并带来了安全和越狱风险(例如连续字节问题)

他举例说,Tokenizer会导致两个在人眼看来完全相同的字符,在网络内部被表示为两个完全不同的Token。一个笑脸emoji,在模型看来只是一个奇怪的Token,而不是一个由像素构成的、真实的笑脸,这导致模型无法利用其视觉信息带来的迁移学习优势。Tokenizer必须消失,他强调

Karpathy总结道,OCR只是众多视觉到文本(vision -> text)任务中的一种。而传统的文本到文本(text -> text)任务,完全可以被重构成视觉到文本任务,反之则不行

他设想的未来交互模式可能是:用户的输入(Message)是图像,而解码器(Assistant的响应)的输出仍然是文本。因为如何真实地输出像素,或者是否有必要这样做,目前还不明确

核心争议:双向注意力与图像分块

对于Karpathy的观点,AI学者Yoav Goldberg提出了两个疑问:

1.为什么说图像能轻松获得双向注意力,而文本不能?

2.虽然没有了Tokenization,但将输入图像切分成图块(Patches),难道不是一种类似且可能更丑陋的处理方式吗?

Karpathy对此进行了解释。

他回应说,原则上没有任何东西阻止文本使用双向注意力。但为了效率,文本通常都是以自回归的方式进行训练的。他设想,可以在训练中期加入一个微调阶段,用双向注意力来处理作为条件的信息(比如用户的输入消息,因为这些Token不需要模型去生成)。但他不确定在实践中是否有人这样做。理论上,为了预测下一个Token,甚至可以对整个上下文窗口进行双向编码,但这将导致训练无法并行化

最后他补充道,或许这个方面(双向注意力)严格来说并非像素与Token的本质区别,更多是像素通常被编码(encoded),而Token通常被解码(decoded)(借用原始Transformer论文的术语)

马斯克:未来99%是光子

在这场讨论的最后,Elon Musk也现身评论区,并给出了一个更具未来感的判断:

从长远来看,AI模型超过99%的输入和输出都将是光子。没有其他任何东西可以规模化

马斯克的这条评论并非随口一说。他进一步补充了一段堪称硬核的宇宙学科普,来解释为什么他认为“光子”是终极的规模化方案

简单来说,宇宙中绝大多数的粒子都是光子

而这些光子最主要的来源,是宇宙微波背景(CMB)。根据测算,CMB的光子密度约为每立方厘米410个。将这个密度乘以可观测宇宙的巨大体积(半径约465亿光年),可以得出仅CMB贡献的光子数量就达到了一个惊人的数字:约1.5 x 10⁸⁹个

相比之下,所有恒星发出的光子(星光)以及其他来源(如中微子背景、黑洞辐射等)贡献的数量,则完全可以忽略不计

这背后揭示的物理事实是:光子在数量级上拥有无与伦比的优势。这或许就是马斯克认为AI的未来输入输出将由光子主宰的底层逻辑

本文来源:AI寒武纪,原文标题:《DeepSeek OCR论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来99%都是光子》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章