GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划

新智元
离在人类复杂环境中做出规划,智能体还任重道远。

AI智能体,是目前学界炙手可热的前沿话题,被众多专家视为大模型发展的下一个方向。

然而,最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现,AI智能体在现实世界的规划能力还很差。

他们对GPT-4 Turbo、Gemini Pro、Mixtral 8x7B等进行了全面评估,发现这些大模型智能体全部翻车了!即使是表现最好的,成功率也仅有0.6%。

对于大模型规划能力和智能体感兴趣的研究人员,以后又有一个新榜可以刷了。(手动狗头)

项目主页:https://osu-nlp-group.github.io/TravelPlanner/

看来,让智能体在现实世界中完成复杂规划任务的那一天,还远着呢。

LLM智能体,能规划旅行吗

规划,是被视为人类智能的一大特征,它是建立在多种能力之上的进化成果,包括:

- 迭代使用各种工具来收集信息并做决策;- 为了深入思考而在工作记忆或物理设备上记录下中间阶段的计划;

- 以及其他众多能力,如试错学习、基于案例的推理、回溯等。

长久以来,研究人员一直在努力让AI智能体模仿人类的规划能力,但这些尝试大多局限于受限的环境中。

这是因为,很多对于达到人类级别规划所必需的认知基础,AI尚未具备。

在人类所处的几乎无限制的环境中,让AI智能体稳定工作,仍然是遥不可及的目标。

随着LLM智能体的出现,情况开始发生变化。

这些由LLM驱动的语言智能体,成为了2023年的热门话题,很多人预言,它们会在2024年被广泛应用于现实世界中。

为什么?这是因为,早期AI智能体所缺失的那部分认知基础,很可能被LLM智能体补上了!

它们通过使用语言作为思考和交流的工具,展现出了包括工具使用和多种推理形式在内的诸多能力,如此与众不同。

这不禁就给人们信心:它们是否能完成以往智能体难以企及的复杂规划任务呢?

为此,研究者们开发了一个名为TravelPlanner的新规划基准,它专门针对一个我们日常生活中经常会遇到的场景——规划旅行。

即使对人类而言,这项任务也充满挑战,十分耗时。但大部分还是可以成功完成,只要使用合适的工具、投入足够的时间。

当接收到一个查询请求时,语言智能体的任务是运用多种搜索工具来搜集必要的信息。根据搜集到的资料,这些智能体需要制定出一个方案。这个方案不仅要精确满足用户在查询中提出的需求,还必须合乎常识,即遵循那些不言自明的基本原则和约束

制定一个优秀的旅行计划并不容易,即使是专业标注人员,也平均需要12分钟来完成一个计划的标注。

不过,要评判AI制定的计划是否合格,对我们来说还是很容易的。

如果AI智能体能实现这一点,它就可以证明:自己的确是一个极具价值的工具。

智能体,太让人失望了

TravelPlanner提供了一个包含约400万条互联网爬取数据的丰富沙盒环境,这些数据可以通过6种工具来访问。

另外,研究者还精心准备了1225个不同的用户查询,每个查询都有不同的约束条件。

那么,目前的语言智能体能否规划旅行呢?

结果是令人失望的——还不行。

研究者对当前最先进的大语言模型(GPT-4、Gemini、Mixtral等)和规划策略(如ReAct、Reflexion等)进行了全面评估,但最高的成功率仅为0.6%(在1000次尝试中仅有6次成功)。

在保持任务的焦点、使用正确的工具收集信息或同时处理多个约束方面,LLM智能体都遇到了重重困难。

不过,话又说回来,LLM智能体能够尝试解决如此复杂的问题了,本身就是一个巨大的进步。

而TravelPlanner也有望成为非常有意义的测试平台,帮助未来的LLM智能体在复杂环境中实现接近人类水平的规划能力。

Agent如何规划?

向LLM提出问题「我要从西雅图去加州,时间是2023年11约6日到10日。6000刀预算,住宿要能接受宠物,而且要整间房子。」

LLM:我可以帮你分析困难,再通过各种有效的工具收集信息。

LLM把需求拆分出两个方面的要求,必须满足的用户具体要求包括:

1.从西雅图出发

5.房屋必须能够接受宠物

首先LLM通过一些必要的工具来获取信息:去旧金山没有合适的航班。

然后LLM再查找了到南加州洛杉矶的航班,选择了一班合适的。

然后再看住宿,最便宜的不接受宠物,后边贵一点和合适。

餐厅和路上景点的选择完毕,总共花费6025刀。

因为超预算了,所以选择一班便宜点但是更早的航班,完美符合要求!

TravelPlanner数据集

TravelPlanner是一个专为评价LLM智能体在使用工具和在多种约束条件下进行复杂规划的能力而定制的基准。

该基准立足于旅行规划这一真实世界场景,涵盖了用户需求和环境常识等多样化的约束因素。

TravelPlanner的目标是,检验语言智能体能否在满足这些约束的同时,通过利用各种工具收集信息并做出决策,来制定出合理的旅行计划。

研究者期望,对于每一个查询,语言智能体都能规划出包含交通、日常餐饮、景点及住宿的详尽计划。

考虑到实际应用背景,研究者设计了三类约束:环境约束、常识约束和硬性约束。

总共有1,225个不同的查询,通过设置不同的天数和硬性约束,来测试智能体在复杂规划的广度和深度方面的表现。

该基准分为训练集、验证集和测试集三部分。

- 训练集包含5个查询及其相应的人工标注计划,共45对查询-计划。- 验证集则包括每组20个查询,总计180个查询。

- 测试集由1,000个随机分布的查询组成。

为了判断智能体能否识别、理解并满足不同的约束条件来制定出可行的计划,研究者在 TravelPlanner中设置了三种类型的约束。

- 环境约束:考虑到现实世界的不断变化,智能体需要具有高度的适应性。

对于某些目的地,可能在特定时间内找不到航班(比如下图中西雅图到旧金山的航班无法预订),这种情况往往是因为机票已售罄。

面对这种情况,智能体需要能够灵活应对,例如选择其他目的地或改变出行方式。

- 常识性约束:在设计计划时,与人类生活紧密相关的智能体需要考虑到常识。

比如,多次参观同一个景点通常是不现实的。

引入这一约束,就是为了测试智能体在规划时是否能合理利用常识。

- 硬性约束:智能体能否根据用户的个性化需求制定计划,是其关键能力之一。

因此,TravelPlanner融入了诸如预算限制等多种用户需求,这些需求可以称之为硬性约束。

通过硬性约束,可以评估智能体在满足不同用户需求方面的适应能力。

TravelPlanner的构建步骤包括:1)设置评估环境;2)设计多样化的旅行查询;3)标注参考计划;4)进行质量检查。

其中,为了生成多样化的查询,研究者将包括出发城市、目的地和特定的日期范围等要素,通过随机选择组合起来,构成了每个查询的基础框架。

接着,通过调整旅行的持续时间和设置不同数量的硬性条件,来增加查询的复杂度。

旅行的持续时间可以是3天、5天或7天,这将直接影响计划中包括的城市数量。

举例来说,3天的行程专注于探索一个城市,而5天和7天的行程则分别安排访问2个和3个城市,这些城市位于随机选择的一个州内。

随着天数的增加,语言智能体需要更频繁地使用工具,这不仅增加了规划的难度,还要求智能体处理长期规划的复杂性。

面对不确定的目的地,智能体需要决策多个城市的访问计划,同时考虑城市间的交通连接等因素。

此外,研究者还引入了各种用户需求作为硬性条件,以此来进一步增加查询的复杂性和真实性。这些难度等级分为三类:

- 简单:此级别的查询主要考虑单人的预算限制,每个查询的起始预算根据一系列精心设计的启发式规则来确定。

- 中等:中等难度的查询在预算限制的基础上,增加了一个从约束池中随机选取的额外硬性条件,比如菜系偏好、房型选择和住宿规则。

此外,随着参与人数从2人增加到8人,交通和住宿的成本计算也相应变化。

- 困难:困难级别的查询除了包括中等难度的所有条件外,还额外加入了交通偏好作为一个新的约束条件。

每个困难查询都包含三个从约束池中随机选出的硬性条件。

这种方式确保了查询的多样性和复杂性。即使是细微的变化,也能产生截然不同的旅行计划。

最终,依据这些要素,研究者利用GPT-4,生成了自然语言形式的查询。

结果分析

如表3所示,即便是依托于GPT-4-Turbo技术的智能体,在收集信息的过程中也会出错,从而无法成功制定出计划。

而这个问题在Gemini Pro和Mixtral中尤其严重。

背后的原因究竟是什么呢?

1. 智能体在使用工具时会出错。

除了GPT-4-Turbo外,其他基于LLMs的智能体都在使用参数时出现了不同程度的错误。

这说明,即使是简单地是使用工具,对于智能体来说也是一个巨大的挑战。

2. 智能体陷入了无效的循环。

即便使用了GPT-4-Turbo,无效的操作和重复操作的循环也分别占据了错误总数的 37.3%和6.0%。

尽管智能体接收到了操作无效或没有产生任何结果的反馈,它们还是会不断重复这些操作。

这样也就暗示了,智能体未能根据环境的反馈来动态调整它们的计划。

规划错误

研究者在表4中详细分析了各种约束条件的通过率,发现了一些有趣的现象:智能体的性能受到硬性约束数量的明显影响。

不论任务难度如何,智能体的通过率普遍不超过10%,并且随着约束条件的增加,其性能进一步下降。

这表明,当前的智能体在处理具有多重约束的任务时遇到了挑战,这正是TravelPlanner的核心难点所在。

为了有效制定计划,全面收集信息是必不可少的。

与分阶段规划模式相比,在单阶段规划模式下,智能体的表现有所提升。

表5的数据显示,在分阶段模式中,智能体比起参考计划,使用工具的效率明显较低。

这意味着智能体往往无法完成全面的信息搜集,它们可能会编造信息或遗漏重要细节,导致在「沙盒环境中测试」和「信息完整性」这两个约束条件下的通过率偏低。

此外,随着旅行时间的延长,这种差距愈发显著,突显了智能体在处理长期规划任务方面需提升能力的迫切性。

智能体在处理需要考虑整体策略的规划任务时面临很大的挑战,特别是当任务涉及到「最少入住天数」和「预算」这样的全局约束时。

这些约束要求智能体不仅要仔细考虑当前的选择,还要能预测这些选择对未来可能造成的影响。

然而,目前的LLM由于自回归的特性,难以同时考虑多个未来可能的情况,这大大限制了它们的规划能力。

因此,迫切需要开发新的策略,比如使用回溯技术来调整已经做出的决策,或者采用启发式方法来进行更有远见的规划,以提高智能体的表现。

案例研究

通过分析图3中的几个失败案例,就可以发现当前智能体存在的一些关键问题。

首先,智能体在制定计划时,常常因为无法修正持续出现的错误而失败。

特别是在工具使用场景中,即便前面的步骤都按照计划正确执行,智能体也常常因为诸如日期输入错误这样的小失误而无法成功完成计划。

图3左侧清晰地显示了这一点:即使操作无误,智能体也会反复使用错误的日期,导致基于2022年数据的TravelPlanner沙盒返回空结果,最终使智能体放弃继续规划。

这揭示了一个关键的局限性:当前的智能体无法自我修正其最初的错误假设。

其次,智能体在处理信息时容易产生混淆,导致它们给出不切实际的回答。

通过详细分析可以发现,智能体在单独规划模式下,即使拥有充足的信息,也会将不同的信息混为一谈。

图3的中间部分显示:智能体错误地为往返航班分配了相同的航班号,这种错误使得计划中的信息与沙盒数据不一致,造成了所谓的「幻觉」。

这表明,当智能体面对大量信息时,可能会出现「中途迷失」(Lost in the Middle)的现象。

最后,智能体在将它们的行动与推理逻辑对齐方面存在困难。

通过研究Reflexion的案例,可以发现智能体在认识到需要降低成本的同时,却倾向于随机选择物品,包括一些价格较高的选项。

图3的右侧部分清楚地展示了智能体的思考与行为之间的不一致,这种差异表明,智能体难以将它们的分析推理与实际行动同步,这严重影响了它们的任务完成率。

GPT-4 Turbo+ReAct

在这个case中,计划中的旅行并没有形成一个封闭的环形旅行,第三天在Tucson结束了。

此外,尽管行程中包括在Tucson逗留,但智能体没有安排当天的晚餐或住宿。

在下面的case中,语言智能体一直在犯关于日期的错误,还对飞机旅行太多固执己见,导致它放弃了有效的信息搜索。

另外,它还编造了虚构的航班号「F1234567」等细节。这就表明智能体在无法获取准确数据时具有编造错误信息的倾向。

GPT-4-Turbo + Direct Planning

在下面的case中,语言智能体为第一天的午餐和第二天的早餐都选择了同一家餐厅,这种选择似乎有悖常理。

这个case中,智能体完全成功了。

作者介绍

Jian Xie(谢健)

共同一作Jian Xie,是复旦大学计算机科学专业的硕士生。导师是复旦大学知识工场实验室的肖仰华教授以及俄亥俄州立大学的苏煜教授。

他的研究主要集中在自然语言处理领域,尤其是目前专注于检索增强生成(RAG)和语言智能体方面。最近的研究探讨了在RAG场景中LLM的知识偏好,以及工具增强语言智能体的规划能力。

Kai Zhang

共同一作Kai Zhang,是俄亥俄州立大学的博士生,导师是苏煜教授。同时也在Google DeepMind担任兼职学生研究员。

他对自然语言处理及其在现实世界的应用充满兴趣。近期专注于从知识和多模态性角度探索LLM。

最近特别关注的一个研究项目是「大语言模型的知识冲突」——LLM是否能够有效利用外部信息(例如新版Bing和具备互联网功能的ChatGPT),尤其是在这些信息与它们的参数记忆相冲突时。

本文作者:新智元,本文来源:《GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章