会话数据对 ChatGPT 的爆火产生了巨大的积极影响，目前研究人员正在用 “对抗性训练” 来阻止 ChatGPT“越狱”。此外，如何在 ChatGPT 不同的用途之间保持平衡很重要。

当 OpenAI 在 2022 年 11 月底推出 ChatGPT 时，几乎没对其抱任何特别的期望，而当 ChatGPT 开始在网上病毒式传播后，OpenAI 争先恐后地追赶，并利用这次机会完善自己的模型。

周五，在接受 MIT Technology Review 采访时，OpenAI 团队对于这次 “成功” 显得格外谦逊。

OpenAI 人工智能政策研究人员 Sandhini Agarwal 表示，这在内部被视为一次 “研究预览”，是一项已有两年历史的技术的更完善版本，也是一次通过收集用户反馈来弥补其缺陷的尝试。另一位研究人员 Liam Fedus 则指出，OpenAI 并不想将其作为一项重大的突破来过度宣传。

自 11 月以来，OpenAI 已经多次更新了 ChatGPT，研究人员正在使用一种称为 “对抗性训练” 的技术来阻止 ChatGPT“越狱”（jailbreaking）。这项工作使多个聊天机器人相互对抗：一个聊天机器人扮演对手，通过生成文本来对抗另一个聊天机器，迫使其打破通常的限制。

此外，OpenAI 还与微软签署了一项价值数十亿美元的协议，并宣布与全球管理咨询公司贝恩结成联盟，目标是通过突破性的人工智能技术增强客户的业务潜力。在 OpenAI 之外，围绕 ChatGPT 掀起了一场 “大模型” 的淘金热，全球各地公司和投资者都积极参与其中。

以下是采访的具体内容：

火的完全 “出乎意料”，会话数据对 ChatGPT 产生了巨大的积极影响

Jan Leike（负责提高系统安全性团队负责人）：老实说，这的确是势不可挡的的。我们很惊讶，也在一直在努力完善。

John Schulman（联合创始人）：在发布后的几天里，我经常查看 Twitter，在这段疯狂的时间里，充斥着 ChatGPT 截图。我希望它能获得更多的关注，但我没想到它能火到这种程度。

Sandhini Agarwal（人工智能政策研究员）：我认为这对我们所有人来说绝对是一个惊喜，人们开始使用它。我们对这些模型进行了大量研究，以至于我们忘记了它们有时对外界来说是令人惊讶的。

Liam Fedus（人工智能政策研究员）：我们很惊讶它的反响，以前有很多人尝试过使用聊天机器人，然而，我们的私人测试版让我们相信，我们拥有了人们可能真正喜欢的东西。

Jan Leike：我想更好地理解是什么推动了这一切，是什么推动着病毒性传播。老实说，我们不知道。

（团队的部分困惑来自于 ChatGPT 中的大多数技术都不是新的，ChatGPT 是 GPT-3.5 的一个微调版本，GPT-3.5 是 OpenAI 在聊天机器人发布前几个月研究出的大型语言模型。GPT-3.5 本身是 GPT-3 的更新版本，于 2020 年发布。OpenAI 还在 2022 年 1 月发布了 GPT-3.5 的微调版本，名为 InstructGPT。但这些早期版本的技术都没有面向公众发布。）

Liam Fedus：ChatGPT 模型是从与 InstructGPT 相同的语言模型中进行微调得出的，我们添加了一些会话数据，并在训练过程进行了一些微调。

我们并不想将其作为一项重大的突破来过度宣传，但事实证明，会话数据对 ChatGPT 产生了巨大的积极影响。通过标准基准测试评估原始技术能力，模型之间实际上没有实质性差异，但 ChatGPT 更易于访问和使用。

“不要等到完美的时候再发布它”

Sandhini Agarwal：当我们准备发布时，我们并不认为这个模型存在其他新的风险，GPT-3.5 已经发布，我们知道它已经足够安全了。通过 ChatGPT 对人类偏好的训练，该模型可以自动学习拒绝行为，即拒绝大量请求。

Jan Leike：我们确实为 ChatGPT 做了一些额外的 “红队测试”（red teaming），OpenAI 的每个人都试图打破这种模式。我们有外部团体在做同样的事情。我们也有一个早期访问计划，由信任的用户提供反馈。

Sandhini Agarwal：我们确实发现它输出一些不必要的内容，所以作为一个 “研究预览” 这一意图是好的。

John Schulman：你不能等到你的系统完美后再发布它。我们已经对早期版本进行了几个月的测试，测试人员对产品有较好的印象。我们最担心的是真实性，因为模型喜欢捏造东西。但是 InstructGPT 和其他大型语言模型已经存在，所以我们认为，只要 ChatGPT 在真实性和其他安全问题上优于那些模型，应该就是更好的选择。在发布之前，根据我们有限的评估，确认这些模型确实比其他模型更真实和安全，所以我们决定继续发布。

很多问题浮现，“越狱” 亟待解决

Sandhini Agarwal：随着 ChatGPT 的病毒传播，许多问题真正浮出水面，这是我们希望尽快解决的关键问题。比如，ChatGPT 非常擅长拒绝不好请求，但它也很容易编写提示，使它不会拒绝我们希望它拒绝的内容。

Liam Fedus：看到用户提供的多样化和创造性的应用程序令人兴奋，但我们始终专注于需要改进的领域。我们认为，通过我们部署、获取反馈和改进的迭代过程，我们可以生产出最强大的技术。而随着技术的发展，新的问题出现不可避免。

Sandhini Agarwal：我们最需要解决问题是 “越狱”，当我们发现越狱情况时，我们会将其添加到训练和测试数据中。

Jan Leike：每次有更好的模型时，我们都想将其发布并测试。我们非常乐观地认为，一些有针对性的对抗性训练可以大大改善越狱情况。目前还不清楚这些问题是否会完全消失，但我们认为，这起码可以让很多越狱变得更加困难。

我认为，一旦你部署了这些系统，就很难真正预测它们的真正安全问题。因此，我们非常重视监控人们使用系统的目的，看看发生了什么，然后做出反应。但很难预测当一个系统触及现实世界时会发生的一切。

Sandhini Agarwal：现在的风险肯定比六个月前高得多，但仍低于一年后的水平。显然，这些模型真正重要的一点是它们所使用的环境。与谷歌和微软想法一样，它们注定要成为搜索引擎。像搜索这样的大模型所需要的，与仅仅是一个好玩的聊天机器人的是不同的。

我们需要弄清楚如何在所有这些不同的用途之间保持平衡，创造出在不同环境中对人们有用的东西。在这些环境中，期望的行为可能会发生变化，这增加了更多的压力。我们正在构建这些模型，以便将其转化为产品。ChatGPT 是一种产品，现在我们有了 API。我们正在构建这种通用技术，并需要确保它在所有方面都能正常工作，这是我们目前面临的关键挑战之一。

ChatGPT 突然爆火，内部人也惊呆了

火的完全 “出乎意料”，会话数据对 ChatGPT 产生了巨大的积极影响

“不要等到完美的时候再发布它”

很多问题浮现，“越狱” 亟待解决