为了控制、引导超级智能对齐问题,OpenAI 组建了一支人工智能对齐团队 Superalignment。同时该团队也是对 OpenAI 现有工作的补充,可提升 ChatGPT 等产品的安全性,在 4 年内解决超级智能对齐问题。
7 月 6 日, OpenAI 在官网宣布,将组建一支由 Ilya Sutskever(OpenAI 联合创始人兼首席科学家)和 Jan Leike 领导的人工智能对齐团队,用来引导、控制超级智能,同时提升 ChatGPT 等产品的安全性。
OpenAI 表示,4 年之内将解决这些难题,并将目前 20% 的算力用于该项目。
超级智能将是人类发明的最具影响力的技术之一,可以帮助我们解决世界上许多难题。但超级智能的巨大力量也可能非常危险,并导致人类失去控制权,甚至灭绝人类。虽然超级智能还很遥远,但 OpenAI 认为,10 年之内就很有可能实现。
目前,OpenAI 还没有一个明确的解决方案来引导或控制超级人工智能。当下可控制的人工智能技术,例如,根据人类反馈进行强化学习,依赖于人类监督的 AI 能力等。
但人类无法可靠地监督,比我们聪明多的 AI 系统, 因此,我们目前的对齐技术无法扩展到超级智能,需要新的科学技术突破。
4 年内解决超级智能对齐问题
为了控制、引导超级智能对齐问题,OpenAI 组建了一支由 Ilya Sutskever(OpenAI 联合创始人兼首席科学家)和 Jan Leike 领导的人工智能对齐团队——Superalignment。
超级智能对齐从根本上来说是一个机器学习问题,所以,OpenAI 寻求全球优秀的机器学习人才加入这个团队共同实现这一伟大目标。
同时该团队也是对 OpenAI 现有工作的补充,可提升 ChatGPT 等产品的安全性,包括非法滥用、经济破坏、虚假信息、偏见和歧视、数据隐私和其他可能出现的问题。
OpenAI 的方法
建立一个大致达到人类水平的自动对齐系统。然后,可以使用大量算力来扩展工作,并调整超级智能。
1、开发可扩展的训练方法:为了针对人类难以评估的任务提供训练方法,可以通过人工智能系统来协助评估,其他人工智能系统 (可扩展的监督)。此外,OpenAI 希望了解和控制其模型,将监督应用到无法监督的任务(泛化)上。
2、验证生成的模型:为了验证系统的一致性,OpenAI 将自动搜索有问题的行为 (稳定性)和有问题的内部结构(自动可解释性)。
3、对整个对齐管道进行压力测试:可以通过故意训练未对准的模型,来测试整个安全流程,并确认技术检测到最差的未对准类型(对抗性测试)。
OpenAI 预计,随着对超级智能对齐了解越来越多,研究重点将会发生重大变化,可能会增加全新的研究领域。未来,会分享更多有关技术研究路线图的信息。
关于 AI 对齐
AI 对齐是指,使人工智能系统的目标和行为,与人类价值观和目标保持一致。这是 AI 安全和伦理中的一个重要环节。
AI 对齐问题涉及到如何设计和实施人工智能系统,以便它们执行的任务或做出的决策能够反映出设计者或用户的意图和价值观。这个问题在高级 AI(例如,通用人工智能或超级人工智能)中更为重要。
因为这些 AI 可能具有极大的自主性和能力,如果它们的目标与人类的目标不一致,可能会带来严重的后果。
解决 AI 对齐问题需要在伦理、决策理论、机器学习等多个领域进行深入的研究。例如,需要研究如何在没有明确指示的情况下,让 AI 推断出人类的价值观,以及如何设计可以安全地学习和改进其行为的 AI 系统。
本文来源:AIGC 开放社区,原文标题:《OpenAI:4 年内控制超级智能,提升 ChatGPT 等安全》