通用人工智能(AGI),其实已经实现了?
最近,来自谷歌研究院和斯坦福HAI的大佬发文称,现在的大预言模型就是通向AGI的正确方向,而且现在最前沿的模型,已经拥有AGI的能力了!
这两位作者都是AI业界大佬,Blaise Agüera y Arcas现在是Google Research副总裁兼研究员,曾经也在微软任职。主要研究领域是人工智能基础研究。
Peter Norvig是一位美国计算机科学家,是斯坦福AI研究所研究员,也是Google Research的工程总监。
不同的人眼里的通用人工智能(AGI)的含义,是完全不一样的。
当前最先进的AI大型语言模型几乎已经实现了大部分对于AGI的畅想。
虽然这些「前沿模型」有许多缺陷:它们会编造学术引用和法庭案例,从训练数据中扩展人类的偏见,而且简单的数学也算不对。
尽管如此,今天的前沿模型甚至能胜任它们没有训练过的新任务,跨越了前几代人工智能和有监督深度学习系统从未达到的门槛。
几十年后,它们将被公认为第一批达到AGI能力的范例,就像现在回头看1945年的ENIAC一样,它就是第一台真正的通用电子计算机。
即使今天的计算机在速度、内存、可靠性和易用性方面都远远超过了ENIAC。但是ENIAC可以使用顺序指令、循环指令和条件指令进行编程,这赋予了它前辈(如差分分析仪)所不具备的通用性。
同样,未来的前沿人工智能也会在今天的基础上不断进步。
但通用性的关键属性呢?
它已经在现实的大语言模型上实现了。
什么是通用人工智能?
早期的AI系统虽然在执行任务的能力上,可以接近或超过人类的水平,但通常只能专注于单一任务。
比如,斯坦福大学Ted Shortliffe在20世纪70年代开发的MYCIN,只能诊断细菌感染并提出治疗建议;SYSTRAN只能进行机器翻译;而IBM的「深蓝」也只会下国际象棋。
后来,经过监督学习训练的深度神经网络模型,如AlexNet和AlphaGo,成功完成了很多早期启发式、基于规则或基于知识的系统,长期无法解决的机器感知和判断任务。
最近,我们看到了一些前沿模型,它们无需进行针对性的训练,就能完成各种各样的任务。
可以说,这些模型在五个重要方面实现了通用人工智能的能力:
- 话题(Topic)
前沿模型是通过数百千兆字节的文本训练而成,这些文本涵盖了互联网上几乎所有讨论过的话题。其中,一些模型还会在大量多样化的音频、视频和其他媒体上进行训练。
- 任务(Task)
这些模型可以执行各种任务,包括回答问题、生成故事、总结、转录语音、翻译语言、解释、决策、提供客户支持、调用其他服务执行操作,以及组合文字和图像。
- 模态(Modalities)
最受欢迎的模型主要处理图像和文本,但有些系统也能处理音频和视频,并且有些与机器人传感器和执行器相连。通过使用特定模态的分词器或处理原始数据流,前沿模型原则上可以处理任何已知的感官或运动模态。
- 语言(Language)
在大多数系统的训练数据中英语所占的比例最高,但大模型却能使用数十种语言进行对话和翻译,即便在训练数据中没有示例的语言对之间也可以实现。如果训练数据中包含了代码,模型甚至可以支持自然语言和计算机语言之间的「翻译」(即通用编程和逆向工程)。
- 可指导性(Instructability)
这些模型能够进行「上下文学习」,也就是根据提示而不是训练数据来进行学习。在「少样本学习」中,一个新任务会配有几个输入/输出示例,然后系统会基于此给出新的输入对应的输出。在「零样本学习」中,会描述一项新任务,但不会给出任何示例(例如,「以海明威的风格写一首关于猫的诗」)。
「通用智能」必须通过多个维度来考虑,而不是从单一的「是/否」命题。
此前,弱人工智能系统通常只执行单一或预定的任务,并为此接受明确的训练。即使是多任务学习,也只能产生弱智能,因为模型仍在工程师设想的任务范围内运行。事实上,开发弱人工智能所涉及的大部分艰巨工作,都是关于特定任务数据集的整理和标注。
相比之下,前沿语言模型可以胜任几乎所有人类可以完成的任务,这些任务可以用自然语言提出和回答,并且具有可量化的性能。
对于通用人工智能来说,上下文学习能力是一项意义重大的任务。上下文学习将任务范围从训练语料中观察到的事物,扩展到了所有可以被描述的事物。因此,通用人工智能模型可以执行设计者从未设想过的任务。
根据「通用」和「智能」这两个词的日常含义,前沿模型实际上在这方面已经达到了相当高的水平。
那么,为什么有人不愿意承认AGI的存在呢?
其原因主要有以下四点:
1. 对于AGI的度量标准持怀疑态度
2. 坚信其他的人工智能理论或技术
3. 执着于人类(或生物)的特殊性
4. 对人工智能经济影响的担忧
如何设定AGI的评价指标
对于通用人工智能(AGI)的门槛到底在哪里,其实存在很大分歧。业界很多专家们都曾试图完全避讳使用这个词。
比如DeepMind的联合创始人Mustafa Suleyman建议使用「人工能力智能(Artificial Capable Intelligence)」来描述这种系统。
他建议通过「现代图灵测试」来衡量这种AI系统——能否在10万美元的启动资金基础上,快速在网上赚取100万美元的能力。
尽管将「有能力」直接等同于「能赚钱」似乎还是一件值得商榷的事情,但是能够直接产生财富的AI系统肯定会在更加深远的层面上影响世界。
当然,大众有充分的理由对某些指标表示怀疑。
比如当一个人通过了复杂的法律、商业或医学考试时,大众就会假设这个人不仅能够准确回答考试中的问题,而且能够解决一系列相关的问题和复杂任务。
自然更不会怀疑这个人会具备普通人类所具有的一般能力了。
LLM能考试,却不能当医生
但是,当训练前沿的大语言模型以通过这些考试时,训练过程通常会针对测试中的确切问题类型进行调整。
尽管模型可以通过这些资格考试,但是目前的前沿模型当然不可能胜任律师或者医生的工作。
正如古德哈特定律所说的,「当一项措施成为目标时,它就不再是一个好的措施。」
整个AI行业都需要更好的测试来评估模型的能力,而且已经取得了不错的进展,例如斯坦福大学的模型评估系统——HELM。
说话流畅=智能高?
另一个非常重要的问题是,不要将语言的流畅性与智能的高低混为一谈。
前几代的聊天机器人,例如Mitsuku(现在称为Kuki),偶尔会通过突然改变主题并重复连贯的文本段落来蒙骗人类开发人员。
而当前最先进的,模型可以即时生成响应,而不需要依赖预设文本,并且它们更擅长把握海量文字的主题。
但这些模型仍然受益于人类的自然假设。也就是说,他们流利、符合语法的回答依然还是来自像人类这样的智能实体。
我们将其称为「昌西·加德纳效应」,以「Being There」(一部后来被改编为电影的讽刺小说)中的角色命名——昌西受到了世人的尊敬甚至是崇拜,仅仅是因为他「看起来像」一个应该受到尊敬和崇拜的人。
忽然涌现的LLM能力
研究人员Rylan Schaeffer、Brando Miranda和Sanmi Koyejo在论文中指出了常见人工智能能力指标的另一个问题:测评指标的难度不是线性的。
比如,对于一个由一系列五位数算术问题组成的测试。小模型几乎都不可能回答对,但随着模型规模的不断扩大,将会出现一个临界阈值,在此阈值之后模型将正确回答大部分问题。
这个现象会让人觉得,计算能力是从规模足够大的模型中突然涌现出来的。
但是,如果测试集中也包括一到四位数的算术题,并且如果评分标准改为只要能算对一些数字就能得分,不一定非要像人类一样算对所有数字才能得分的话。
我们会发现:随着模型大小的增加,模型的性能是逐渐提高的,并不会突然出现一个阈值。
这个观点对超级智能能力或者属性(可能包括意识)可能突然神秘地「涌现」的观点提出了质疑。而「涌现论」确实让大众甚至是政策的制定者产生了某种程度的恐慌。
类似的论点也被用来「解释」为什么人类拥有智能,而其他类人猿就没有智能。
实际上,这种智能的不连续性可能同样是虚幻的。只要衡量智能的标准足够精确,基本上都能看到智力是连续的——「越多就越好」而不是「越多就越不同」。
为什么计算机编程+语言学≠AGI?
在AGI的发展历史上,存在许多相互竞争的智能理论,其中一些理论在一定的领域内得到了认可。
计算机科学本身基于具有精确定义的形式语法的编程语言,一开始就与「Good Old-Fashioned AI」(GOFAI)密切相关。
GOFAI的信条至少可以追溯到17世纪德国数学家戈特弗里德·威廉·莱布尼茨 (Gottfried Wilhelm Leibniz)。
艾伦·纽厄尔(Allen Newell)和司马贺(Herbert Simon)的「物理符号系统假说」进一步具体化这个理论。
假说认为智力可以用微积分来表述,其中符号代表思想,思维由根据逻辑规则的符号变换构成。
起初,像英语这样的自然语言似乎就是这样的系统:
用「椅子」和「红色」这样的符号代表「椅子」和「红色」等概念。
符号系统可以进行陈述——「椅子是红色的」——也可以产生逻辑推论:「如果椅子是红色的,那么椅子就不是蓝色的。」
虽然这种观点看起来很合理,但用这种方法构建的系统往往是很脆弱的,并且能够实现的功能和通用性很有限。
主要是存在两个主要问题:首先,诸如「蓝色」、「红色」和「椅子」之类的术语仅只能被模糊地定义,并且随着所执行的任务的复杂性增加,歧义会变得更加严重。
其次,这样的逻辑推论很难产生普遍有效的结果,椅子确实可能是蓝色的,也可能是红色的。
更根本的是,大量的思考和认知过程不能简化为对逻辑命题的变换。
这就是为什么几十年来,想要将计算机编程和语言学结合起来的努力都没能产生任何类似于通用人工智能的东西的最主要原因。
然而,一些特别专注于对符号系统或语言学的研究人员仍然坚持认为,他们的特定理论是通用智能前提,而神经网络或更广泛的机器学习在理论上无法实现通用智能——特别是如果如果模型们仅仅接受语言训练。
ChatGPT出现后,这些批评者的声音越来越大。
马库斯:在Cue我?
LLM的推理和语言跟人类截然不同
例如,现代语言学之父的诺姆·乔姆斯基(Noam Chomsky)在谈到大型语言模型时写道:「我们从语言学和知识哲学中知道,它们与人类推理和使用语言的方式截然不同。这种差异极大地限制了这些程序的功能,并给它们编码了无法根除的缺陷。」
认知科学家和当代人工智能评论家加里·马库斯(Gary Marcus)表示,前沿模型「正在学习如何听起来和看起来像人类。但他们并不真正知道自己在说什么或在做什么。」
马库斯承认神经网络可能是通用人工智能解决方案的一部分,但他认为「为了构建一个强大的、知识驱动的人工智能方法,我们的工具包中必须有符号操作机制。」
马库斯(和许多其他人)专注于寻找前沿模型(尤其是大型语言模型)的能力差距,并经常声称它们反映了该方法的根本缺陷。
这些批评者认为,如果没有明确的符号,仅仅通过学习到的「统计」方法无法产生真正的理解。
与此相关的是,他们声称没有符号概念,就不可能发生逻辑推理,而「真正的」智能需要这样的推理。
撇开智能是否总是依赖于符号和逻辑的问题不谈,我们有理由质疑这种关于神经网络和机器学习不足的说法,因为神经网络在做计算机能做的任何事情上都非常强大。例如:
- 神经网络可以轻松学习离散或符号表示,并在训练过程中自然出现。
- 先进的神经网络模型可以将复杂的统计技术应用于数据,使它们能够根据给定的数据做出近乎最佳的预测。模型学习如何应用这些技术并为给定问题选择最佳技术,而无需明确告知。
- 以正确的方式将多个神经网络堆叠在一起会产生一个模型,该模型可以执行与任何给定计算机程序相同的计算。
- 提供任意由计算机算出的函数的输入和输出示例,神经网络都可以学会如何逼近这个函数。(比如99.9%的正确率。)
对于批评的声音,都应该区别它是原教旨主义型批评还是积极讨论型的批评。
原教旨主义型批评会说:「为了被认为是通用人工智能,一个系统不仅必须通过这个测试,而且还必须以这种方式构建。」
我们不认同这样的批评,理由是测试本身应该足够——如果不够,测试应该被修改。
另一方面,积极讨论型的批评则认为:「我认为你不能让人工智能以这种方式工作——我认为用另一种方式来做会更好。」
这样的批评可以帮助确定研究方向。如果某个系统能够通过精心设计的测试,这些批评就会消失了。
语言模型通过将图像编码线性投影到语言模型的输入空间来生成图像的标注
近年来,人们设计了大量针对与「智能」、「知识」、「常识」和「推理」相关的认知任务的测试。
其中包括无法通过记忆训练数据来回答但需要概括的新问题——当我们使用测试对象在学习期间没有遇到过的问题来测试他们的理解或推理时,我们要求测试对象提供同样的理解证明。
复杂的测试可以引入新的概念或任务,探索考生的认知灵活性:即时学习和应用新想法的能力。(这就是情境学习的本质。)
当AI批评者努力设计新的测试来测试当前模型仍然表现不佳时,他们正在做有用的工作——尽管考虑到更新、更大的模型克服这些障碍的速度越来越快,推迟几周可能是明智的选择(再次)急于声称人工智能是「炒作」。
人类凭什么是「独一无二」的?
只要怀疑论者仍然对指标不为所动,他们可能不愿意接受AGI的任何事实性的证据。
这种不情愿可能是由于想要保持人类精神的特殊性的愿望所驱动的,就像人类一直不愿意接受地球不是宇宙的中心以及智人不是「生物伟大进化」的顶峰一样。
确实,人类有一些特别之处,我们应该保持他们,但我们不应该将其与通用智能混为一谈。
有些声音认为,任何可以算作通用人工智能的东西都必须是有意识的、具有代理性、能够体验主观感知或感受感情。
但是简单推理一下就会变成这样:一个简单的工具,比如螺丝刀,显然有一个目的(拧螺丝),但不能说它是自己的代理;相反,任何代理显然属于工具制造者或工具使用者。
螺丝刀本身「只是一个工具」。同样的推理也适用于经过训练来执行特定任务的人工智能系统,例如光学字符识别或语音合成。
然而,具有通用人工智能的系统很难被归类为纯粹的工具。前沿模型的技能超出了程序员或用户的想象。此外,由于LLM可以被语言提示执行任意任务,可以用语言生成新的提示,并且确实可以自我提示(「思维链提示」),所以前沿模型是否以及何时具有「代理」的问题需要更仔细的考虑。
假设一下,Suleyman的「人工能力智能」为了在网上赚一百万美元可能采取的许多行动:
它可能会研究网络,看看最近什么东西最火,找到亚马逊商店里的爆款,然后生成一系列类似的产品的图像和制作图,发送给在阿里巴巴上找到的代发货制造商,然后通过电子邮件来完善要求并就合同达成一致。
最后设计卖家列表,并根据买家反馈不断更新营销材料和产品设计。
正如Suleyman指出的那样,最新的模型理论上已经能够完成所有这些事情,并且能够可靠地规划和执行整个操作的模型可能也要即将出现。
这样的AI看起来也不再像一把螺丝刀。
既然已经有了可以执行任意一般智能任务的系统,那么表现出代理性相当于有意识的说法似乎是有问题的——这意味着要么前沿模型是有意识的,要么代理不一定需要意识。
虽然我们不知道如何测量、验证或伪造智能系统中意识的存在。我们可以直接问它,但我们可能相信也可能不相信它的回答。
事实上,「只是问」似乎有点像罗夏墨迹测试:AI感知力的信徒会接受积极的回应,而不相信的人会声称任何肯定的回应要么只是「鹦鹉学舌」。
要么当前的人工智能系统是「哲学僵尸 」,能够像人类一样行事,但「内部」缺乏任何意识或经验。
更糟糕的是,罗夏墨迹测试适用于LLM本身:他们可能会根据调整或提示的方式回答自己是否有意识。(ChatGPT和Bard都接受过训练,能够回答自己确实没有意识。)
由于依赖于无法验证的某种「信仰」(人类和人工智能),意识或感知的争论目前无法解决。
一些研究人员提出了意识的测量方法,但这些方法要么基于不可证伪的理论,要么依赖于我们自己大脑特有的相关性。
因此这些标准要么是武断的,要么无法评估,不具有我们生物遗传特征的系统中的意识。
声称非生物系统根本不可能具有智能或意识(例如,因为它们「只是算法」)似乎是武断的,植根于无法检验的精神信仰。
类似地,比如说感觉疼痛需要伤害感受器的想法,可能会让我们对熟悉的疼痛体验到底是什么进行一些有根据的猜测,但目前尚不清楚如何将这种想法应用于其他神经结构或智力类型。
「当一只蝙蝠是什么感觉?」,这是托马斯·内格尔(Thomas Nagel)在1974 年提出了一个著名的问题。
我们不知道,也不知道我们是否能够知道,蝙蝠是什么样子,或者人工智能是什么样子。但我们确实有越来越多的测试来评估智力的各种维度。
虽然寻求对意识或感知更普遍、更严格的表征可能是值得的,但任何这样的表征都不会改变任何任务的测量能力。那么,目前尚不清楚这些担忧如何能够有意义地纳入通用人工智能的定义中。
将「智能」与「意识」和「感知」分开来看会是更加理智的选择。
AGI会对人类社会造成什么样的影响?
关于智能和代理的争论很容易演变为关于权利、地位、权力和阶级关系的担忧。
自工业革命以来,被认为「死记硬背」或「重复性」的任务往往由低薪工人来完成,而编程——一开始被认为是「女性的工作」——只有当它在工业革命中成为男性主导时,其智力和经济地位才会上升。
20世纪70年代。然而讽刺的是,即使对于GOFAI来说,下棋和解决积分问题也很容易,但即使对于当今最复杂的人工智能来说,体力劳动仍然是一项重大的挑战。
1956年夏天,一群研究人员在达特茅斯召开会议,研究「如何让机器使用语言、形成抽象和概念、解决各种问题,如果AGI以某种方式「按期」实现,公众会有何反应?现在保留给人类,并提高自己」?
当时,大多数美国人对技术进步持乐观态度。在那个时代,快速发展的技术所取得的经济收益被广泛地重新分配(尽管肯定不公平,特别是在种族和性别方面)。尽管冷战的威胁迫在眉睫,但对大多数人来说,未来看起来比过去更加光明。
如今,这种再分配方式已经发生了逆转:穷人越来越穷,富人越来越富。
当人工智能被描述为「既不是人工的,也不是智能的」,而仅仅是人类智能的重新包装时,很难不从经济威胁和不安全的角度来解读这种批评。
在将关于AGI应该是什么和它是什么的争论混为一谈时,人类似乎违反了大卫·休谟的禁令,应该尽最大努力将「是」与「应该」问题分开。
但这是行不通的,因为什么是「应该」的辩论必须要诚实地进行。
AGI有望在未来几年创造巨大价值,但它也将带来重大风险。
到2023年,我们应该问的问题包括——「谁受益?」 「谁受到伤害?」 「我们如何才能最大化利益并最小化伤害?」以及「我们怎样才能公平公正地做到这一点?」
这些都是紧迫的问题,应该直接讨论,而不是否认通用人工智能的现实。
本文来源:新智元,原文标题:《GPT-4就是AGI!谷歌斯坦福科学家揭秘大模型如何超智能》