可能是史上最强大 AI Agent!OpenAI 重磅更新:整合了多模态、外部访问、数据分析后的 GPT-4 更像是 AI Agent 了!

Wallstreetcn
2023.10.29 07:38
portai
I'm PortAI, I can summarize articles.

在一次对话中自主选择调用多个不同工具完成用户的输入指令。

目前最强的大语言模型必然是 OpenAI 的 GPT-4 模型,此前 OpenAI 的 ChatGPT Plus 版本为 GPT-4 模型提供了多个强大的插件供大家使用,包括基于 Bing 的带网络浏览的 Browse、文本生成图片的 DALL·E3、高级数据分析功能等。就在几个小时前,OpenAI 的部分用户收到了官方的一个非常重磅的更新,即上传任意文档的分析以及整合了所有工具后的 GPT-4!这个功能被称为 GPT-4(All Tools)!这个工具可以在一次对话中自主选择调用多个不同工具完成用户的输入指令,非常接近 AI Agent 形态!

  • ChatGPT 新功能一:上传任意文档分析
  • ChatGPT 新功能二:整合所有工具,不再需要手动切换
  • 为什么整合后的 GPT-4 像 AI Agent?实例证明
  • 查询天气并归类,然后生成图片
  • 为什么是 GPT-4 推出这样的整合了各种工具的 AI Agent 模式

ChatGPT新功能一:上传任意文档分析

此前,OpenAI 的 ChatGPT Plus 用户如果像分析 PDF 之类的文档,需要单独选择 Advanced Data Analysis 功能,然后点击上传附件才能分析。如下图所示:

而这个功能说实话并不是很好,尤其是 PDF 文档的分析,与 Anthropic 的 Claude2 相比那真的是有点逊色。不过,官方将这个功能放到 Advanced Data Analysis 中可能本来就是定位做数据分析而非文档理解的。

此次更新后的第一个功能就是你可以上传任意文档,包括 PDFs、数据文件等做分析。按照官方的功能提示,这个应该是比之前支持更多的文档类型。

ChatGPT新功能二:整合所有工具,不再需要手动切换

ChatGPT Plus 用户是可以通过 GPT-4 完成很多任务的,此前都是插件的形式进行切换,如下图所示:

而此次更新的第二个功能是整合工具后的 GPT-4 不再需要切换即可使用所有的功能。也就是说,GPT-4将根据你给的指令理解你的意图,自动使用不同的工具完成任务

这个功能意味着 GPT-4 将比此前更加智能,而且非常像此前大家说的 AI Agent 的能力。

为什么整合后的 GPT-4 像 AI Agent?实例证明

新的 GPT-4 将直接根据你的输入自动选择工具完成你的任务,那么这里就涉及了意图理解、任务规划、工具使用等。基本上就类似当前的 AI Agent 的工作原理,包括此前的 AutoGPT、MetaGPT 等都是类似的思路。

以网友的实测为例,在新的 GPT-4 模式下,你可以直接输入如下类似如下内容:让 GPT-4 查询 2023 年某个地方的天气,并展示总结这些天气结果,并生成未来类似的天气。

当前已经有网友测试了很多例子。我们这里展示一个最震撼的案例:

查询天气并归类,然后生成图片

该用户跟 GPT-4 说,让它找一下 Altantic 的 2023 飓风季节的数据,然后用信息图展示飓风的级别和大小。再根据所在地生成最像的一个飓风图像。

可以看到,GPT-4 准确理解了用户的意图,首先浏览网页查询天气,并做了 2 次的图片生成工作,第一次是总结天气类型,第二次是生成未来的天气图!

尽管这里是用户提供了一些具体的步骤,但是 GPT-4 的生成结果是连续调用了多个工具没有中断。想象一下,如果给出一个目标任务,让 GPT-4 自己根据任务的复杂的规划步骤,并考虑每个步骤使用什么样的工具,那么这就是一个 AI Agent 形态了!这真的是一个巨大的功能!

为什么是 GPT-4 推出这样的整合了各种工具的 AI Agent 模式

除去开源项目,当前主流的大模型供应商其实都没有这样一个整合了多个工具的单模型入口。即输入一个指令,然后模型根据需要自己调用多个工具解决问题。原因主要在于 AI Agent 需要一个非常强大的大语言模型作为控制器才能运转得好。而这样的大语言模型需要具备如下几个能力:

强大的理解能力:这是基本的能力,尽管很多模型的意图理解都还可以,但是涉及到复杂的意图,那么 GPT-4 目前是最强大的。
强大的任务规划与分解能力:对于 AI Agent 来说,理解了意图之后要完成意图需要分解目标,规划任务并能找到合适的路径完成才是最重要的。

尽管说上面两个能力看似很多模型都有,但是实际上只有 GPT-4 才有一定的商用水平。在一开始 GPT-4 推出的时候,OpenAI 就说过,GPT-4 最大的不同是对于复杂任务的理解和解决能力,比 GPT-3.5 要明显地高。而这也是 GPT-4 可以推出这样整合模型的一个重要保障!

不过目前 DataLearnerAI 的工作人员还没有收到该更新,想必又是 1-2 周的等待了!

文章来源:DataLearner 原文标题:《可能是史上最强大 AI Agent!OpenAI 重磅更新:整合了多模态、外部访问、数据分析后的 GPT-4 更像是 AI Agent 了!》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。