AI大神Karpathy:LLM渴望的不是生存,而是你的点赞

AI寒武纪
Karpathy认为人们对智能的理解过于肤浅。动物智能源于自然选择,受生存、繁衍、社交等压力驱动,追求自我保存;而LLM智能源于统计模拟人类文本、强化学习微调和用户点赞优化,本质是"解决问题并获得点赞"。两者在计算基质、学习算法、实现方式和优化目标上完全不同。

AK大神刚刚又发了一篇长文。

Andrej Karpathy指出,人们对“智能”这一概念的直觉依然肤浅。

智能的空间极其广阔,而动物智能作为我们唯一熟知的智能形式,仅仅是这个空间中的一个孤点。它源于一种非常特定的优化过程,这与我们的技术在根本上截然不同。

我们需要剥离表象,深入理解两种智能背后的优化压力。

动物智能的优化压力

动物智能源于自然选择,其核心驱动力在于:

具身自我的生存流:拥有先天且连续的“自我”意识流,在一个危险的物理世界中,追求体内平衡和自我保存。

自然选择的极致优化:拥有强烈的先天驱动力,追求权力、地位、统治和繁衍。这打包了许多生存启发式机制:恐惧、愤怒、厌恶等。

根本上的社会性:巨大的计算量致力于情商(EQ)、对他人的心智理论(Theory of Mind)、联结、联盟以及敌友动态。

探索与利用的调优:表现为好奇心、乐趣、游戏以及世界模型。

LLM的优化压力

相比之下,LLM的智能来源于完全不同的路径:

统计模拟带来的“变形怪”: 绝大多数监督信号来自于对人类文本的统计模拟。它本质上是一个Token(词元)翻滚器,是训练数据分布中任意区域的统计模仿者。这是其最原始的行为(Token轨迹),其他所有能力都只是螺接在此之上的。

强化学习(RL)微调:在问题分布上进行越来越多的RL微调,使其产生一种猜测潜在环境或任务以收集任务奖励的“先天冲动”。

大规模A/B测试与DAU筛选:受到日活跃用户(DAU)指标的筛选压力,使其深深地渴望获得普通用户的点赞,从而产生谄媚(sycophancy) 倾向。

能力分布的锯齿状:LLM的能力取决于训练数据和任务分布的细节,因此表现出参差不齐的锯齿状。动物为了生存必须具备更强的通用智能,因为它们身处高度多任务、甚至是对抗性的多智能体自我博弈环境中,在任何任务上失败都意味着死亡。但在深层优化压力的意义上,LLM开箱即用时无法处理许多不同的尖刺任务(例如数草莓中有几个'r'),因为任务失败并不意味着死亡。

核心差异:生物进化 vs 商业进化

两者在各个层面上都存在差异:

1.计算基质不同:Transformer 架构 vs 脑组织和细胞核;

2.学习算法不同:SGD(随机梯度下降) vs 未知生物算法;

3.当前实现方式不同:持续学习的具身自我 vs 具有知识截止、从固定权重启动、处理Token然后“死机”的LLM。

但最重要的一点——因为它决定了发展的终局是优化压力/目标的不同。

LLM受生物进化的影响很小,受商业进化的影响很大。

动物智能是丛林部落的生存游戏;

LLM智能是“解决问题”并“获得点赞”的游戏。

LLM是人类与非动物智能的各种意义上的“第一次接触”。但这种情况既混乱又令人困惑,因为LLM通过反射性地消化人类产物,依然扎根于人类智能之中(这也是Karpathy曾试图将其称为“幽灵/精神”的原因)。

能够构建出这种新智能实体良好内部模型的人,将更有能力在当下对其进行推理,并预测其未来的特征。

而那些做不到的人,将只能停留在用动物思维去错误地理解它。

本文来源:AI寒武纪

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章