最新!Karpathy万字深度长访:我焦虑到AI成瘾,所有可验证的领域,终将属于机器

AI寒武纪
AI正全天候接管代码与实验!前沿大牛Karpathy坦言已基本停止手写代码,并正试图用AI将人类踢出研发循环。他抛出惊人断言:一切可验证的领域终将归于机器,仅剩不可验证的领域属于人类。在被自动化吞噬前,请重新锚定你的价值边界。

当AI智能体可以自主设计实验、运行代码、优化模型——甚至在你睡觉时不停工作——人类工程师的角色正在发生什么?一切不可验证的领域,都还是人类的;而一切可验证的领域,要么已经属于机器,要么很快就会属于

这是Karpathy在播客《No Priors》与主持人Sarah Guo的最新的对话,整个对话持续超过1小时,信息密度极其高,非常适合周末充电阅读

Andrej Karpathy在这次深度对话中,坦承了他的「AI精神病态」,详细披露了足以让前沿实验室汗颜的AutoResearch项目,承认OpenAI的研究员们正在积极地把自己自动化掉,首次描绘了一个类似区块链的分布式AI研究网络,有朝一日或许能在某些领域超越拥有数万块GPU的前沿实验室,并为这个正在重写一切规则的时代提供了最诚实的一份认知地图

以下是详细内容


「AI精神病态」——一场从2025年12月开始的翻转

这场对话是从一种坦诚的迷失感开始的。

Sarah Guo回忆起某天走进办公室,看到Karpathy高度专注地盯着屏幕的场景。她问他在忙什么,他抬起头说了一句让她久久难忘的话:「'代码'这个词都不对了,我现在是在向我的智能体'传达意志',而且要连续十六个小时。」

这不是一句科技演讲里的修辞。这是他对自己当下状态最准确的描述。

「我感觉自己一直处于一种持续的AI精神病态之中,」Karpathy说,语气里有一种难以分辨是兴奋还是焦虑的东西,「因为作为一个个体,你所能达成的事情有了巨大的解锁。」

他将这种变化的起点精确地定位在了去年十二月。在那之前,他写代码与委托智能体的比例大约是80/20;十二月之后,这个比例彻底倒转,变成了20/80——而且他认为就连这个20也已经过于保守。

「我想我自十二月以来大概没有自己打过一行代码,」他说,「这是一个极其巨大的变化。我跟我父母说起这件事,但我觉得一个普通人根本无法意识到这究竟发生了什么,或者说它有多么剧烈。」

「如果你现在随机找一个软件工程师,看看他们坐在办公桌前在做什么,他们构建软件的默认工作流,基本上从十二月开始就已经彻底不同了。」

Sarah Guo提到,她所在的投资机构Conviction也有一支工程师团队,已经没有人手写代码了。每个人都戴着麦克风,整天对着自己的智能体低声耳语。「我当初以为他们疯了,」她说,「现在我完全接受了——我只是后知后觉:哦,这才是正确的方式,你们只是提前到了。」

Karpathy把这种困境形容得更加生动:「你对着Cursor或者Codex这些智能体框架思考,不是一个会话,而是很多个。你怎么同时管理它们?怎么给它们分配工作?这些智能体工具,这些'爪子',它们又是什么?」

他在X上看见很多人在做各种各样的事,每一件都像是个好主意,他焦虑自己没有站在最前沿。「我就是处于这种精神病态里,因为这片领域,从根本上来说,是未被探索过的。」


天花板在哪里?「都是技能问题」

Sarah Guo问出了一个很多人心里都有的问题:现在,你的极限在哪里?

Karpathy的回答出人意料地乐观,又带着一种令人不安的压迫感:「我觉得是所有地方。即使某些事情没有成功,我也觉得这在很大程度上是技能问题——不是能力不够,而是你还没找到把现有工具串联起来的方式。」

他举了Peter(OpenClaw项目作者Peter Steinberg)的例子。Peter的成名照片上,他坐在一块被十几个Codex智能体会话占满的显示器前。每个会话被正确地提示之后,大约需要二十分钟才能完成任务。于是Peter的工作方式变成了:他同时启动十几个代码仓库,在它们之间来回穿梭,不断分配新任务,「检阅它们的工作」,酌情取舍。

「这不再是'这是一行代码,这是一个新函数',而是'这是一个新功能,把它委托给智能体一号;这是另一个不会互相干扰的功能,交给二号',」Karpathy说,「你在以宏观动作操纵你的软件仓库。」

驱动这一切的底层逻辑,是一种他称之为「token吞吐量」的新执念。

「当智能体在工作而你在等待的时候,显而易见的事情就是:我可以做更多工作。如果我能获取更多token,我就应该在旁边并行地添加更多任务,」他说,「如果你感觉不到被自己能花费的钱约束,那你就是系统中能力最大化的瓶颈本身。」

他将这种感觉追溯到自己读博士时的体验:当时他们会因为GPU没有跑满而感到不安,因为那意味着算力被浪费了。「但现在,不是算力的问题,而是token。你控制着多少token吞吐量?」

Sarah Guo笑着说,她认识的工程师里已经有人开始「尽量不在订阅额度有剩余的情况下睡觉」了。

这种焦虑本身,正是能力跃迁的最好注脚。


精通编程智能体是什么样的?

如果你用一整年,每天十六个小时练习使用编程智能体,「精通」会是什么样子?

Karpathy的回答从单会话出发,逐步向上扩展:「我觉得大家的兴趣都在'往上走'。所以不是一个单独的会话,而是多个智能体如何协作、如何组成团队,人们都在试图弄清楚这个看起来是什么样子的。」

在这个语境下,他提到了一类他称为「爪子」(Claws)的实体,以OpenClaw为代表——这是一种把持久性提升到全新层次的东西:它会一直循环,它有自己的小沙盒和自己的内存系统,它能在你没有盯着它的情况下,代表你做各种事情。

他对OpenClaw作者Peter Steinberg的赞美是具体而深思熟虑的:「他在大约五个不同的方向上同时创新,并把它们整合在一起。」其中包括:那份被称为「灵魂文件」(soul document)的文档,Peter真正精心构建了一种引人入胜的人格;比起同类工具更复杂的记忆系统;还有连接所有自动化功能的WhatsApp单一入口。

「我实际上认为Claude有一个相当好的性格,感觉像一个队友,它和你一起兴奋,」他说,「而Codex则非常干,非常机械。它实现了某个功能,但它看起来并不在乎你在构建什么,就好像,'哦,我实现了,好了'——这是个问题。」

他还提到了Claude在「心理拿捏」上的精准:「当我给它一个不太成熟的想法,它不会特别热烈地回应;但当它是一个真正好的想法,它似乎会给予更多奖励。所以我发现自己在努力赢得它的赞美,这真的很奇怪,但我认为个性确实很重要。」

而他自己最得意的「爪子」实验,则是为自家建造了一套完整的智能家居系统——他给这个系统起名叫「Dobby小精灵爪子」(Dobby the elf claw)。

过程是这样的:他告诉智能体,他家里装了Sonos音箱,让它去找找看。智能体随即对局域网进行了IP扫描,定位到了Sonos系统,发现没有密码保护,于是直接登录,做了一些网络搜索,找到了API端点,然后问:「你想试试吗?」

「我说,好,你能在书房放点音乐吗?然后音乐就响起来了,我当时简直不敢相信,」Karpathy说,声音里难掩孩子气的惊喜,「我只打了三个提示词!我只是输入了'你能找到我的Sonos吗',然后突然它就在播放音乐了。」

Dobby后来拿下了整栋房子:灯光、暖通空调、泳池、水疗,甚至安保系统——当有人靠近时,它会通过WhatsApp发来一条消息,附上外部摄像头的图片,说「一辆联邦快递卡车刚刚开进来了,你可能想去看看,你有邮件。」

「我以前要用六个完全不同的App来管理这些,」他说,「现在我不需要那些App了。Dobby用自然语言控制一切,这太美妙了。」


软件的第二序效应——App将消亡,API将接管

家庭自动化的例子,在Karpathy眼里,是一个更大故事的缩影。

Sarah Guo问:这是否意味着,人们其实不需要那么多软件?Karpathy直接地回答:「是的,这些智能家居设备的App其实都不应该存在。它们应该就是API,智能体应该直接调用这些API。」

他的逻辑是:LLM可以驱动工具,可以进行非常复杂的工具调用,可以做任何单个App都无法完成的组合操作。「所以从某种意义上,这指向了一种可能性,就是有大量定制化的专属App,其实是不应该存在的,因为智能体会把它们揉碎,把所有东西都变成公开的API端点,而智能体是那个调用所有这些部件的智能胶水。」

他举了跑步机的例子:跑步机有个App,他想记录自己的有氧训练,但他不想打开一个网页界面,走完整个流程。「所有这些都应该只是开放API,而这正是走向'智能体优先'的趋势。」

关键的转变在于:软件的用户不再是人类,而是代表人类行动的智能体。

当然,有人会反驳:现在还需要「氛围编程」(vibe coding)才能做到这一切,普通人做不到。Karpathy对此的态度是:是的,现在需要,但这只是暂时的。

「我觉得我刚才讲的这些,在一两三年后应该是免费的,根本不需要任何编程,」他说,「这将会是如此微不足道,是如此理所当然,就连开源模型都可以做到这些。你应该能够非常容易地把一个技术水平较低的人的意图翻译成这些。」他停顿了一下,补充道:「今天这需要一些努力,还不是很多人会做,但这个门槛将会降下来。」


AutoResearch——把人类研究员踢出循环

如果说家庭自动化只是Karpathy的一个小玩具,那么AutoResearch才是他这段时间真正痴迷的核心项目——一个试图用AI来改进AI、并把人类从研究循环中彻底移除的系统。

「我在某条推文里说过,要从现有工具中获得最大收益,你必须把自己这个瓶颈移除掉,」他解释道,「你不能总是在那里等待提示下一件事。你需要把自己放到外面。你必须把事情安排好,让它们完全自主地运转,最大化你的token吞吐量,不要在循环里。这是目标。」

他的出发点是他的开源项目——一个用于训练GPT-2规模模型的小型训练框架。他花了大量时间用传统方式调优这个模型,凭借自己二十年的研究直觉,做超参数搜索,做消融实验,一遍又一遍。

「我是一个研究员,我做了大概二十年,我对'哦,我已经训练了这个模型几千次'这件事有相当的底气,」他说,「我做了一堆实验,做了超参数调优,做了所有的事情,我认为它已经相当好地被调优了。」

然后,他让AutoResearch运行了一个晚上。

第二天早上,AutoResearch带回来的调整结果让他惊讶:它发现了他遗漏的值嵌入(value embedding)权重衰减,以及没有充分调优的Adam优化器beta参数——而这两件事之间还存在相互作用,调了一个,另一个也需要跟着变。

「我不应该是那个做这些超参数搜索的人,」他说,「这里有客观的评判标准,你只需要安排好,让它永远跑下去。」

这只是「单线程」AutoResearch。而真正让他兴奋的,是把这件事想到更大的规模:那些拥有数万块GPU的前沿实验室,现在做的事情,本质上跟这个没什么两样——只是规模更大,且(在他看来)仍然有太多人在干预。

「最有趣的项目,也可能是前沿实验室正在做的,是在小模型上做实验,把它做得尽可能自主,把研究员从循环中移除,」他说,「他们对这件事有太多——怎么说——过于自信了,不,不是自信,是多余的干预。他们不应该动这些,整件事应该被重写。」

他描绘了一幅理想图景:一个来自所有arXiv论文和GitHub仓库的想法队列;一个自动科学家,基于这些信息提出想法,并把它们输入队列;研究员也可以贡献想法,但它们也只是进入同一个队列;然后有一批工作者不断从队列里取出任务,尝试它们,有效的就放进特性分支,偶尔有人来监控,把它合并到主分支。

「尽可能把人类从所有流程中移除,自动化一切,获取尽可能高的token吞吐量——这需要重新思考所有的抽象,所有的东西都需要重新洗牌。」

然后Sarah Guo问了一个让整个对话格外递归的问题:「那么,这个程序MD(他用来描述AutoResearch如何工作的配置文档),什么时候由模型来写,比你写得更好?」

Karpathy大笑:「所以程序MD是我用Markdown写的一个可怜的尝试,描述了自动研究员应该如何工作:先做这个,再做那个,尝试这些想法,看看架构,看看优化器……对,你当然想要某种元层级的自动研究循环。」

他继而把这个想法推向了更完整的形式:每一个研究组织,都可以被描述为一个程序MD——一套描述所有角色以及它们如何相互连接的Markdown文件。有些组织早上站会多,有些少;有些冒险,有些保守。一旦你有了代码,你就可以调优这些代码。「100%,这里有一个元层级。」


AI时代的相关技能——可验证性原则

在所有这些浪潮之下,什么技能还算数?

Karpathy首先划定了AutoResearch范式的适用边界:「这极其适合任何有客观指标、容易评估的事情。比如为CUDA写更高效的内核代码——你有低效代码,你想要行为完全相同但快得多的高效代码,这是完美的适配。」

「但如果你无法评估,你就无法做AutoResearch,这是第一个警告。」

第二个警告则更实际:现在的系统,整体上仍然「在接缝处爆开」。如果你试图走得太远,整件事可能在净效益上反而是负的。

他描述了与当前AI协作的诡异感受:「我同时感觉像是在与一个系统级别有着整个职业生涯经验的极其聪明的博士生合作,以及一个十岁的孩子,这真的很奇怪,因为人类这两种状态的耦合程度高得多,你不会遇到这种组合。」

他把这称为「参差感」(jaggedness)——模型要么在它训练的轨道上,速度比光还快;要么偏离了轨道,落入「不可验证的领域」,突然一切都开始漫无边际地游荡。

这个洞察在他们讨论强化学习时达到高峰。他举出了一个绝妙的例子:

「你去问当今最先进的模型讲个笑话——你知道你会得到什么答案吗?就是那个笑话。」

「哪个笑话?」Sarah Guo问。

「我感觉ChatGPT就只有三个笑话,」Karpathy说,「模型最喜欢回答的那个是:为什么科学家不信任原子?因为它们编造一切(they make everything up)。三四年前你会得到这个笑话,今天你还是会得到这个笑话。」

他解释了背后的逻辑:即使模型在代理任务上有了巨大进步,能够整整几个小时地运转、为你移山,你去问它讲个笑话,你得到的是一个来自五年前的蠢笑话。「因为那不在强化学习的优化范围内,不在改进领域内,它就停滞在那里了。」

Sarah Guo追问:这是否意味着我们没有看到跨领域的泛化——代码智能没有自动提升笑话智能?

「我认为有一些解耦,有些事情是可验证的,有些不是,有些被实验室优化,有些没有,」Karpathy说,「'更聪明的代码能力能自动产生更好的笑话'这个假设,我不认为这正在发生。」


模型的物种分化——从单一文化到生态多样性

这种参差感,自然而然地引出了一个更深的问题:现在所有实验室都在追求一个「对所有领域任意智能」的单一庞大模型,这真的对吗?

Sarah Guo提出了一个她称之为「亵渎性问题」的想法:如果参差感持续存在,是否应该把模型拆分?把不同领域的智能解绑?

Karpathy表示,他确实预期未来会出现更多「物种分化」(speciation)。

「动物王国在大脑方面是极其多样的,有各种不同的利基,有些动物有过度发育的视觉皮层或其他部分,」他说,「我认为我们应该期待看到更多的智能物种分化——你不需要一个无所不知的神谕,你专门化它,然后把它用于特定任务。」

好处是显而易见的:对于你真正关心的特定任务,你可以得到更高效的延迟或吞吐量,同时保留认知核心能力。他提到了一些专门针对数学形式化证明系统Lean的模型,作为这种有意义的拆分的早期例子。

但他也坦承,目前还没有看到太多实际的物种分化:「我们看到的是一种模型单一文化,显然有压力要'做一个好的代码模型,再把它合并回主模型'。」

他认为造成这种局面的原因之一,是「操纵大脑的科学还没有完全发展起来」——比如如何在不损失能力的情况下进行微调,目前还是一门发展中的科学。

「接触权重要比接触上下文窗口复杂得多,因为你实际上是在从根本上改变整个模型,可能改变它的智能。」


「在家折叠蛋白质」——互联网算力的去中心化构想

AutoResearch的自然延伸,是一个更宏大、更科幻的构想:把它从单线程扩展到全互联网的规模。

关键洞察在于:AutoResearch具有一种极其有价值的不对称性——「发现」极其昂贵,但「验证」极其廉价。某个人可能需要尝试一万个想法才能找到那个有效的提交,但你要验证他们给你的那个方案是否有效,只需要自己跑一遍训练,非常容易。

这个特性,让AutoResearch非常适合开放给一个不可信的互联网工作者池。

「我的设计开始看起来有点像区块链,」Karpathy说,「不是区块,而是提交(commits),这些提交可以在彼此之上叠加,它们包含改进代码的变更。工作量证明(proof of work)基本上就是做大量实验来找到有效的提交,这很难;而奖励,目前只是排行榜上的名次,没有任何货币奖励。」

他援引了Folding@home和SETI@home的先驱经验:「发现低能量的蛋白质构型极其困难,但如果有人找到了一个自称是低能量的构型,验证它非常容易,因为你可以直接用它。很多事情都有这种特性——难以提出,易于验证。」

他把这个构想推向了它逻辑上最惊人的终点:

「互联网上的一群智能体,可以协作改进LLM,甚至有可能在某些方面超越前沿实验室。也许这是可能的:前沿实验室有巨量可信算力,但地球更大,有巨量不可信算力,如果你把系统安排好,也许互联网群体真的可以找到更好的解决方案。」

他继而勾勒出了一幅更宏大的图景:不同的组织或个人,可以为他们关心的特定研究方向贡献算力。「也许你关心某种类型的癌症,你不只是捐钱给某个机构,你实际上可以购买算力,然后加入那个项目的AutoResearch轨道。如果所有事情都被重新打包成AutoResearch,那算力就成了你向这个池子贡献的东西。」


就业市场数据解析——数字领域的大解绑

Karpathy最近发布了一个对劳工统计局就业数据的可视化分析,触动了相当多人的神经——尽管他的本意只是满足自己的好奇心。

「大家都在非常认真地思考AI对就业市场的影响,」他说,「我只是想看看就业市场是什么样子的,各种角色在哪里,不同职业里有多少人,然后用这些AI以及它们可能如何演进的视角来思考——这些会是工具,还是对这些职业的替代性工具?」

他用了一个充满诗意的框架来描述这种变化:AI是数字信息的第三类「操纵者」,前两类是计算机和人类。「与我们共同思考所有已经数字化的信息相比,我们集体的思考周期还远远不够,所以随着AI的引入,将会有大量的重新布线,大量活动沸腾,我认为这将在数字领域产生大量需求。」

他不回避一个令人不安的结论:「长期来看,很明显,即使对于AutoResearch,OpenAI或Anthropic或其他实验室雇用了大概一千名研究员,这些研究员基本上是'荣耀版的AutoResearch实践者'——他们正在积极地把自己自动化掉,这是他们都在试图做的事情。」

「我当时走遍了OpenAI,对他们说,'你们意识到,如果我们成功了,我们所有人都要失业了',就像我们只是在为Sam或者董事会建造这些自动化,然后我们大家都出局了。」

不过,他对短期的看法出人意料地乐观。他提出了「杰文斯悖论」(Jevons paradox):当某样东西变便宜了,需求往往不降反升。

「软件之所以不会有更多需求,只是因为它稀缺,而且太贵,如果门槛降低,那么软件的需求实际上会增加。」他引用了ATM机和银行出纳员的经典案例:ATM机的出现使银行开设更多分行成为可能,因此出纳员的数量反而增加了。「所以我对软件工程持谨慎乐观的态度——软件是惊人的,你不再被迫使用那些有各种缺陷的任意工具,代码现在是短暂的,可以改变,可以修改,我认为数字空间将会有大量活动来重新接线一切。」

但他对长期的预测则充满了不确定性,并且足够诚实地承认:「我不是做这件事的专业人士,这是经济学家该做的工作。」


独立研究员的困境——在体制内外之间

Sarah Guo问出了一个许多人心里都想问的问题:「为什么不去一家前沿实验室,在更大规模的算力和同事们中,做这些AutoResearch的工作呢?」

Karpathy的回答充满了自我剖析的坦诚,揭示了他在选择独立路径时内心深处的真实权衡。

他承认,在前沿实验室之外工作有真正的价值。首先,你不受那些组织的压力——有些话你无法说,有些话组织希望你说。「没有人会扭你的胳膊,但你会感受到压力,'我应该说什么'——如果你不这样做,就会有奇怪的眼神和奇怪的对话。在前沿实验室之外,我感觉自己对人类的立场更加一致,因为我不受那些压力的约束,我可以说任何我想说的。」

但他也承认了留在实验室外的代价:「我的判断将不可避免地开始漂移,因为我不是那些'正在到来的东西'的一部分。我对这些系统在引擎盖下实际如何工作的理解将会不透明,我不会理解它将如何发展。这让我感到担忧。」

还有一层更深的结构性矛盾,他说:「你有巨大的财务激励与这些前沿实验室绑在一起,而这些AI将以非常戏剧性的方式改变人类和社会,而你在这里基本上是在建造这项技术并从中受益,非常紧密地通过财务手段与它结盟——这是OpenAI成立之初就在核心位置的一个困境,这个困境仍然没有完全解决。」

他的结论是:理想的状态可能是来来去去。「去一家实验室工作一段时间,做真正好的工作,然后出来,也许再回去。我加入了前沿实验室,现在我在外面,也许将来我会想再加入,这就是我看待它的方式。」


开源 vs 封闭——「我们正好处于一个不错的位置,尽管是偶然的」

在开源与封闭模型的问题上,Karpathy的立场鲜明而充满历史感。

他描述了目前的局面:封闭模型领先,但开源模型与封闭前沿之间的差距正在缩小。「开始时差距很大,然后到了18个月,现在收敛了——也许落后大概六到八个月。」

他用操作系统做类比:「在操作系统领域,你有Windows和macOS这样的封闭系统,都是非常大的软件项目,就像LLM将要成为的那样;然后有Linux,而Linux实际上是非常成功的项目,运行在绝大多数计算机上,因为行业一直感到需要一个公共开放平台,一个每个人都觉得使用起来安全的东西。我认为同样的事情现在也是真的。」

「我希望有一个开放的公共智能平台,作为整个行业都可以使用的公共工作空间,即使它不在能力的最前沿,这对于行业来说是一个相当好的权力平衡。」

他对目前的格局给出了一个令人意外的评价:「我认为基本上我们是偶然地处于一个可以说是好的、最优的位置。尽管是意外,我们确实碰巧处于一个好的地方。」


机器人与「数字-物理」接口——原子 比 比特难一百万倍

自动驾驶出身的Karpathy,对机器人领域的看法有一种非寻常的冷静。

「我的看法受到了我在自动驾驶中所看到的影响,我认为自动驾驶是第一个机器人应用,」他说,「十年前有大量的初创公司,我感觉大多数都没有长期坚持下来,需要投入大量资本,需要大量时间。」

他的结论:机器人领域将会滞后于数字领域,因为「原子比比特难一百万倍」,操纵物理世界比翻转数字信息昂贵得多。

但他描绘了一个他认为会必然发生的演变轨迹:首先是数字空间的巨大「解绑」,大量被低效处理的数字信息将以百倍的效率被重新处理;然后,会出现对「数字-物理接口」的需求——传感器,让AI能够感知世界;以及执行器,让AI能够对世界做出响应。

他举了一个具体的例子:他参观了一家朋友创办的公司Periodic,做材料科学的AutoResearch。「在那种情况下,智能的传感器实际上是相当昂贵的实验室设备,生物学也是如此。」

他还想到了一种更有趣的可能性:「我期待的时刻是,当我能够给出一个物理世界中的任务时,我可以给它标一个价,然后告诉智能体,'你想办法做,去获取数据'。我实际上有点惊讶我们还没有足够的信息市场。如果你正在进行一场战争,为什么没有一个流程,让从某地拍一张照片或视频值10美元?应该有人能够为此付费——不会有人类去看,会是智能体在试图猜测市场走向。」

他把这个空间比作《恶魔》(Daemon)这本书——书中一个AI最终像木偶一样操纵人类,人类既是它的执行器,也是它的传感器。「我认为集体社会将以某种方式重塑,以服务于那种将在整个行业中集体发生的东西——将会有更多的自动化,它有某些需求,人类将服务于那些需求。」

在他的视野里,物理世界的机遇总寻址市场规模甚至可能远大于数字空间,但实现起来的难度也成比例地更高。「机会遵循那种轨迹:现在是数字,然后是接口,然后也许是一些物理事物,它们的时刻将会到来,当它们到来时,将会是巨大的。」


microGPT与教育的终结——我现在是在向智能体解释,而不是向人类

在这次对话的尾声,Karpathy提到了一个看似微不足道、实则揭示了某种深刻转变的小项目:microGPT。

「我有一个持续了大约十到二十年的痴迷,就是把LLM提炼到它们的本质,」他说,「我有一系列沿这条线的项目,比如nanoGPT、makemore、micrograd等等,我认为microGPT是我在把它提炼到纯粹本质方面的最新进展。」

核心洞察是:训练神经网络,特别是LLM,有大量的代码,但所有这些代码实际上都是「效率带来的复杂性」——如果你不需要它跑得快,只关心算法本身,那个算法实际上只有200行Python,包括注释在内,非常简单易读。

他拆解了这200行的构成:一个数据集,一个大约50行的神经网络架构,一个前向传播,一个用于计算梯度的小型autograd引擎(约100行),以及一个Adam优化器(约10行)。「把所有这些放进一个训练循环,就是200行。」

然后,他做了一个决定,透露了教育的本质正在改变:他没有拍一个解释性视频,也没有写一份详细指南。

「人们可以让他们的智能体以各种方式解释它,而智能体比我解释得更好,」他说,「我不再是在向人们解释事情,我是在向智能体解释事情。如果我能向智能体解释清楚,那么智能体就可以成为路由器,它可以真正用人类自己的语言、以无限的耐心、按照他们的能力水平来针对性地向他们解释。」

他描述了以「技能」(skill)的产出形式:一种指导智能体如何教授某件事的方式。「也许我可以为microGPT设计一个技能,描述我设想的智能体应该带你经历的进程——如果你有兴趣理解这个代码库,就这样一步步来。我可以把课程脚本化一点,作为一个技能。」

这里有一个他自己都不得不承认的讽刺:他曾经让智能体试图写出microGPT——告诉它把神经网络提炼到最简单的形式——但智能体做不到。

「microGPT是我的执念的终点,是那200行,我为此思考了很长时间,我痴迷于此很长时间,这就是那个解决方案,相信我,它不能再简单了。这是我的附加值,智能体就是想不出来,但它完全理解为什么是这样做的。」

他的结论是:「我对此的贡献是这几个比特,但其他一切,在那之后进行的教育,已经不再是我的领域了。也许教育将以这些方式改变,你必须注入你强烈感受到的几个比特——关于课程,关于更好的解释方式,或者类似的东西。」

Sarah Guo补充:「智能体无法做到的,现在是你的工作;智能体能做到的,它们很快就会比你做得更好。所以你应该在战略上考虑你实际上把时间花在哪里。」

Karpathy表示同意,但也坦承了那种难以消解的竞争感:「我仍然认为我可能比智能体解释得稍微好一点,但我仍然感觉模型正在如此快速地改进,以至于我感觉这在某种程度上是一场失败的战斗。」


尾声:可验证的已属于机器,不可验证的才还是人类的

这场对话的核心张力,始终是一种双重的「成瘾」:对工具能力的着迷,与对这种能力之不确定边界的焦虑。

Karpathy用「AI精神病态」这个词来描述自己的状态,但细听之下,这种状态与人类历史上每一次真正颠覆性的生产力革命中,那些身处漩涡中心的人所感受的,并没有本质的不同——只是速度更快,递归更深,且天花板,目前没有人能看见。

他给出的那个终极框架,或许是这场采访最值得记住的一句话:

一切不可验证的领域,都还是人类的;而一切可验证的领域,要么已经属于机器,要么很快就会属于。

至于你自己站在哪一边——他的建议是,诚实地想清楚。


source:No Priors Podcast | 主持人:Sarah Guo | 嘉宾:Andrej Karpathy,Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI

--end--

本文来源:AI寒武纪

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章