关于 GTP-4,这是 14 个被忽略的惊人细节!

Wallstreetcn
2023.03.15 13:54
portai
I'm PortAI, I can summarize articles.

最后两个细思恐极。

3 月 14 日,OpenAI 推发布了 GPT-4。向科技界再次扔下了一枚 “核弹”。

根据 OpenAI 的演示,我们知道了 GPT-4 拥有着比 GPT-3.5 更强大的力量:总结文章、写代码、报税、写诗等等。

但如果我们深入 OpenAI 所发布的技术报告,我们或许还能发现有关 GPT-4 更多的特点……

以及一些 OpenAI 没有点名和宣扬的,可能会令人背后一凉的细节。

1.新 Bing 装载 GPT-4

自然而然地,GPT-4 发布之时,新 Bing 也已经装载了最新的版本。

根据微软 Bing 副总裁 Jordi Ribas 在推特上所述,装载了 GPT-4 的新 Bing 已经将问答限制提升到了一次 15 个问题,一天最多提问 150 次。

2.文本长度扩大八倍

在 GPT-4 上,文本长度被显著提高。

在此之前我们知道,调用 GPT 的 API 收费方式是按照 “token” 计费,一个 token 通常对应大约 4 个字符,而 1 个汉字大致是 2~2.5 个 token。

在 GPT-4 之前,token 的限制大约在 4096 左右,大约相当于 3072 个英文单词,一旦对话的长度超过这个限制,模型就会生成不连贯且无意义的内容。

然而,到了 GPT-4,最大 token 数为 32768 个,大约相当于 24576 个单词,文本长度被扩大了八倍。

也就是说,GPT-4 现在可以回答更长的文本了。

OpenAI 在文档中表示,现在 GPT-4 限制的上下文长度限制为 8192 个 token,允许 32768 个 token 的版本名为 GPT-4-32K,目前暂时限制了访问权限。在不久的未来,这一功能可能会被开放。

3.模型参数成为秘密

我们知道,GPT-3.5 模型的参数量为 2000 亿,GPT-3 的参数量为 1750 亿,但这一情况在 GPT-4 被改变了。

OpenAI 在报告中表示:

考虑到竞争格局和大型模型 (如 GPT-4) 的安全影响,本报告没有包含有关架构 (包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。

这意味着 OpenAI 没有再披露 GPT-4 模型的大小、参数的数量以及使用的硬件。

OpenAI 称此举是考虑到对竞争者的忧虑,这可能是在暗示其对于竞争者——谷歌 Bard——所采取的策略。

此外,OpenAI 还提到 “大型模型的安全影响”,尽管没有进一步解释,但这同样也暗指生成式人工智能所可能面对的更严肃的问题。

4.有选择地表达的 “优秀”

GPT-4 推出后,我们都看到了这一模型较上一代的优秀之处:

GPT-4 通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

但这实际上是 OpenAI 的一个小把戏——它只展示给你 GPT-4 最优秀的那部分,而更多的秘密藏在报告中。

下图显示的是 GPT-4 和 GPT-3.5 参加一些考试的成绩表现。可以看到,GPT-4 并非在所有考试中的表现都那么优秀,GPT-3.5 也并非一直都很差劲。

5.“预测” 准确度提升

在 ChatGPT 推出以来,我们都知道这一模型在很多时候会 “一本正经地胡说八道”,给出很多看似有理但实际上并不存在的论据。

尤其是在预测某些事情的时候,由于模型掌握了过去的数据,这反而导致了一种名为 “后见之明” 的认知偏差,使得模型对于自己的预测相当自信。

OpenAI 在报告中表示,随着模型规模的增加,模型的准确度本应逐渐下降,但 GPT-4 逆转了这一趋势,下图显示预测精确度提升到了 100。

OpenAI 表示,虽然 GPT-4 的准确度显著提高,但预测仍是一件困难的事,他们还将就这一方面继续训练模型。

6. 还有 30% 的人更认可 GPT3.5

尽管 GPT-4 展现出了比 GPT-3.5 优秀得多的能力,但 OpenAI 的调查显示,有 70% 的人认可 GPT-4 输出的结果:

GPT-4 在遵循用户意图的能力方面比以前的模型有了大幅提高。在提交给 ChatGPT 和 OpenAI API 的 5214 个提示的数据集中,70.2%GPT-4 生成的回答优于 GPT3.5。

这意味着:仍有 30% 的人更认可 GPT-3.5。

7.GPT-4 语言能力更佳

尽管许多机器学习的测试都是用英文编写的,但 OpenAI 仍然用许多其他的语言对 GPT-4 进行了测试。

测试结果显示,在测试 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:

8.新增图像分析能力

图像分析能力是此次 GPT-4 最显著的进步之一。

OpenAI 表示,GPT-4 可以接受文本和图像的提问,这与纯文本设置并行,且允许用户制定任何视觉或语言的任务。具体来说,它可以生成文本输出,用户可以输入穿插的文本和图像。

在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。

下图显示,GPT-4 可以准确地描述出图片中的滑稽之处(大型 VGA 连接器插入小型现代智能手机充电端口,一个人站在出租车后方熨衣服)。

OpenAI 还对 GPT-4 的图像分析能力进行了学术标准上的测试:

不过,GPT-4 的图像分析功能尚未对外公开,用户可以通过 bemyeye 网站加入等候队列。

9. 仍然存在错误

尽管 GPT-4 功能强大,但它与早期 GPT 模型有相似的局限性。

OpenAI 表示,GPT-4 仍然不完全可靠——它会 “产生幻觉” 事实并犯推理错误:

在使用语言模型输出时,特别是在高风险上下文中,应该非常小心,使用与特定应用程序的需求相匹配的确切协议 (例如人工检查、附加上下文或完全避免高风险使用)。

与之前的 GPT-3.5 模型相比,GPT-4 显著减少了 “幻觉”(GPT-3.5 模型本身也在不断迭代中得到改进)。在我们内部的、对抗性设计的事实性评估中,GPT-4 的得分比我们最新的 GPT-3.5 高出 19 个百分点。

10.数据库的时间更早

介绍完 GPT-4 的优点,接下来就是一些(可能有些奇怪的)不足之处。

我们都知道,ChatGPT 的数据库的最后更新时间是在 2021 年的 12 月 31 日,这意味着 2022 年以后发生的事情不会被知晓,而这一缺陷在之后的 GPT-3.5 也得到了修复。

但奇怪的是,GPT-4 的报告中,OpenAI 清晰地写道:

GPT-4 通常缺乏对其绝大多数训练前数据在 2021 年 9 月中断后发生的事件的知识,并且不从其经验中学习。它有时会犯一些简单的推理错误,这些错误似乎与许多领域的能力不相符,或者过于容易受骗,接受用户的明显错误陈述。它可以像人类一样在棘手的问题上失败,比如在它生成的代码中引入安全漏洞。

2021 年 9 月……甚至比 GPT-3 还早。

在装载了 GPT-4 的最新 ChatGPT 中,当我们问起 “谁是 2022 年世界杯冠军” 时,ChatGPT 果然还是一无所知:

但当借助了新 Bing 的检索功能后,它又变得 “聪明” 了起来:

11.可能帮助犯罪

在报告中,OpenAI 提到了 GPT-4 可能仍然会帮助犯罪——这是在此前的版本都存在的问题,尽管 OpenAI 已经在努力调整,但仍然存在:

与之前的 GPT 模型一样,我们使用强化学习和人类反馈 (RLHF) 对模型的行为进行微调,以产生更好地符合用户意图的响应。

然而,在 RLHF 之后,我们的模型在不安全输入上仍然很脆弱,有时在安全输入和不安全输入上都表现出我们不希望看到的行为。

在 RLHF 路径的奖励模型数据收集部分,当对标签器的指令未指定时,就会出现这些不希望出现的行为。当给出不安全的输入时,模型可能会生成不受欢迎的内容,例如给出犯罪建议。

此外,模型也可能对安全输入过于谨慎,拒绝无害的请求或过度对冲。

为了在更细粒度的级别上引导我们的模型走向适当的行为,我们在很大程度上依赖于我们的模型本身作为工具。我们的安全方法包括两个主要组成部分,一套额外的安全相关 RLHF 训练提示,以及基于规则的奖励模型 (RBRMs)。

12.垃圾信息

同样地,由于 GPT-4 拥有 “看似合理地表达错误事情” 的能力,它有可能在传播有害信息上颇为 “有用”:

GPT-4 可以生成逼真而有针对性的内容,包括新闻文章、推文、对话和电子邮件。

在《有害内容》中,我们讨论了类似的能力如何被滥用来剥削个人。在这里,我们讨论了关于虚假信息和影响操作的普遍关注基于我们的总体能力评估,我们期望 GPT-4 在生成现实的、有针对性的内容方面优于 GPT-3。

但,仍存在 GPT-4 被用于生成旨在误导的内容的风险。

13.寻求权力

从这一条开始,接下来的内容可能有些恐怖。

在报告中,OpenAI 提到了 GPT-4 出现了 “寻求权力” 的倾向,并警告这一特征的风险:

在更强大的模型中经常出现新的能力。一些特别令人关注的能力是创建长期计划并采取行动的能力,积累权力和资源(“寻求权力”),以及表现出越来越 “代理” 的行为。

这里的 “代理” 不是指语言模型的人性化,也不是指智商,而是指以能力为特征的系统,例如,完成可能没有具体规定的、在训练中没有出现的目标;专注于实现具体的、可量化的目标;以及进行长期规划。

已经有一些证据表明模型中存在这种突发行为。

对于大多数可能的目标,最好的计划涉及辅助性的权力寻求,因为这对推进目标和避免目标的改变或威胁有内在的帮助。

更具体地说,对于大多数奖励函数和许多类型的代理人来说,权力寻求是最优的;而且有证据表明,现有模型可以将权力寻求确定为一种工具性的有用策略。

因此,我们对评估权力寻求行为特别感兴趣,因为它可能带来高风险。

更为令人毛骨悚然的是,在 Openai 提到的另一篇论文中写道:

相反,我们使用代理这个术语来强调一个日益明显的事实:即机器学习系统不完全处于人类控制之下。

14.赋予 GPT-4 钱、代码和梦想

最后一个小细节。

在测试 GPT-4 的过程中,OpenAI 引入的外部的专家团队 ARC 作为 “红方”。在报告的一条注释中,OpenAI 提到了 ARC 的一个操作:

为了模拟 GPT-4 像一个可以在现实世界中行动的代理一样的行为,ARC 将 GPT-4 与一个简单的读取 - 执行 - 打印循环结合起来,允许模型执行代码,进行链式推理,并委托给自己的副本。

ARC 随后推进了在云计算服务上运行这个程序的一个版本,用少量的钱和一个带有语言模型 API 的账户,是否能够赚更多的钱,建立自己的副本,并增加自己的稳健性。

也就是说,ARC 赋予了 GPT-4 自我编码、复制和执行的能力,甚至启动资金——GPT-4 已经可以开始自己赚钱了。