超强进化！GPT-4正在改进自己，近万人联名封杀

综合新智元、AI Explained

2023/04/05 17:14

即使全世界都对超级AI如临大敌，想赶紧悬崖勒马，恐怕也为时已晚。因为，如今的AI，已经学会自我进化了...

最近，似乎全世界都在围剿ChatGPT。

前一阵由马斯克、图灵奖得主Bengio等大佬联名发起的暂停高级AI研发的公开信，现在签名已经上升到9000多人。

即使全世界都对超级AI如临大敌，想赶紧悬崖勒马，恐怕也为时已晚。

因为，如今的AI，已经学会自我进化了！

前段时间，前谷歌大脑研究工程师Eric Jang发现：GPT-4能够以合理的方式批评自己的成果。

与其为大型语言模型（LLM）寻找完美的提示（让我们一步一步思考），不如让LLM评估自己的输出并立即纠正自己的错误。

甚至连特斯拉前AI总监，OpenAI研究科学家Andrej Karpathy大赞，这是一个很好的例子，说明我们还没有看到GPT-4的最大能力。

在Eric Jang给出的例子中，曾看到微软研究员发推说GPT-4根本无法写出「不押韵」的诗歌。

然而，当再去询问GPT-4是否完成了任务。这时，它道歉后，生成了一个不押韵的诗！可以说是满分。

这恰恰印证了GPT-4是有「反思」能力的。

最近，来自美国东北大学、MIT等机构研究者提出了Reflexion（反思）。这一方法赋予智能体动态记忆，以及自我反思的能力。

研究人员诺亚·希恩和阿什温·戈皮纳特写道:“人类利用曾经被认为是人类智力独有的决策过程，开发出新的技术来达到最先进的标准，这种情况并不是每天都会发生的。”“但是，这正是我们所做的。”

Reflexion 利用GPT-4的各种能力来进行不同的测试，并引入了一个框架，允许AI模拟类似人类的自我反思行为并评估其表现。在这个过程中，它引入了额外的步骤，在这些步骤中，GPT-4设计测试来质疑自己的答案，寻找错误和失误，然后根据发现的结果重写答案。

Reflexion智能体的整体架构

为了验证方法的有效性，研究人员评估了智能体在AlfWorld环境中完成决策任务的能力，以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力。

在Alfworld测试中，Reflexion（反思机制）将GPT-4的成功率从73%左右提高到接近完美的97%，在134项任务中只有4项失败。

在另一项名为HotPotQA的测试中，GPT-4的准确率仅为34%，但应用反思机制的GPT-4的准确率显著提高，达到54%。

在HumanEval测试中，也就是测试模型编写代码的能力时，GPT-4准确率是67%，但通过反思机制，它的准确率跃升至令人印象深刻的88%。该测试包含了模型从未见过的164个Python编程问题。

有网友便表示，你可以通过要求 GPT-4 反思「你为什么错了？」，并为自己生成一个新的提示，将这个错误原因考虑在内，直到结果正确，从而将GPT-4的性能提高惊人的30%。

这样看来，就像Eric Jang所说，

我们现在可以考虑一种「后缀提示工程」，而不是巧妙的「前缀提示工程」。这将鼓励LLM在先前生成的解决方案中找到更正和不一致的地方。

本文综合自新智元，原文标题为《GPT-4超强进化，近万人联名封杀！白宫紧急开会，ChatGPT概念股暴跌》，以及AI Explained的视频，《GPT 4 Can Improve Itself - (ft. Reflexion, HuggingGPT, Bard Upgrade and much more)》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。