目前最强的大语言模型必然是OpenAI的GPT-4模型,此前OpenAI的ChatGPT Plus版本为GPT-4模型提供了多个强大的插件供大家使用,包括基于Bing的带网络浏览的Browse、文本生成图片的DALL·E3、高级数据分析功能等。就在几个小时前,OpenAI的部分用户收到了官方的一个非常重磅的更新,即上传任意文档的分析以及整合了所有工具后的GPT-4!这个功能被称为GPT-4(All Tools)!这个工具可以在一次对话中自主选择调用多个不同工具完成用户的输入指令,非常接近AI Agent形态!
- ChatGPT新功能一:上传任意文档分析
- ChatGPT新功能二:整合所有工具,不再需要手动切换
- 为什么整合后的GPT-4像AI Agent?实例证明
- 查询天气并归类,然后生成图片
- 为什么是GPT-4推出这样的整合了各种工具的AI Agent模式
ChatGPT新功能一:上传任意文档分析
此前,OpenAI的ChatGPT Plus用户如果像分析PDF之类的文档,需要单独选择Advanced Data Analysis功能,然后点击上传附件才能分析。如下图所示:
而这个功能说实话并不是很好,尤其是PDF文档的分析,与Anthropic的Claude2相比那真的是有点逊色。不过,官方将这个功能放到Advanced Data Analysis中可能本来就是定位做数据分析而非文档理解的。
此次更新后的第一个功能就是你可以上传任意文档,包括PDFs、数据文件等做分析。按照官方的功能提示,这个应该是比之前支持更多的文档类型。
ChatGPT新功能二:整合所有工具,不再需要手动切换
ChatGPT Plus用户是可以通过GPT-4完成很多任务的,此前都是插件的形式进行切换,如下图所示:
而此次更新的第二个功能是整合工具后的GPT-4不再需要切换即可使用所有的功能。也就是说,GPT-4将根据你给的指令理解你的意图,自动使用不同的工具完成任务!
这个功能意味着GPT-4将比此前更加智能,而且非常像此前大家说的AI Agent的能力。
为什么整合后的GPT-4像AI Agent?实例证明
新的GPT-4将直接根据你的输入自动选择工具完成你的任务,那么这里就涉及了意图理解、任务规划、工具使用等。基本上就类似当前的AI Agent的工作原理,包括此前的AutoGPT、MetaGPT等都是类似的思路。
以网友的实测为例,在新的GPT-4模式下,你可以直接输入如下类似如下内容:让GPT-4查询2023年某个地方的天气,并展示总结这些天气结果,并生成未来类似的天气。
当前已经有网友测试了很多例子。我们这里展示一个最震撼的案例:
查询天气并归类,然后生成图片
该用户跟GPT-4说,让它找一下Altantic的2023飓风季节的数据,然后用信息图展示飓风的级别和大小。再根据所在地生成最像的一个飓风图像。
可以看到,GPT-4准确理解了用户的意图,首先浏览网页查询天气,并做了2次的图片生成工作,第一次是总结天气类型,第二次是生成未来的天气图!
尽管这里是用户提供了一些具体的步骤,但是GPT-4的生成结果是连续调用了多个工具没有中断。想象一下,如果给出一个目标任务,让GPT-4自己根据任务的复杂的规划步骤,并考虑每个步骤使用什么样的工具,那么这就是一个AI Agent形态了!这真的是一个巨大的功能!
为什么是GPT-4推出这样的整合了各种工具的AI Agent模式
除去开源项目,当前主流的大模型供应商其实都没有这样一个整合了多个工具的单模型入口。即输入一个指令,然后模型根据需要自己调用多个工具解决问题。原因主要在于AI Agent需要一个非常强大的大语言模型作为控制器才能运转得好。而这样的大语言模型需要具备如下几个能力:
强大的理解能力:这是基本的能力,尽管很多模型的意图理解都还可以,但是涉及到复杂的意图,那么GPT-4目前是最强大的。
强大的任务规划与分解能力:对于AI Agent来说,理解了意图之后要完成意图需要分解目标,规划任务并能找到合适的路径完成才是最重要的。
尽管说上面两个能力看似很多模型都有,但是实际上只有GPT-4才有一定的商用水平。在一开始GPT-4推出的时候,OpenAI就说过,GPT-4最大的不同是对于复杂任务的理解和解决能力,比GPT-3.5要明显地高。而这也是GPT-4可以推出这样整合模型的一个重要保障!
不过目前DataLearnerAI的工作人员还没有收到该更新,想必又是1-2周的等待了!
文章来源:DataLearner 原文标题:《可能是史上最强大AI Agent!OpenAI重磅更新:整合了多模态、外部访问、数据分析后的GPT-4更像是AI Agent了!》