“我们正在进入人类历史上全新的时代。我们站在这个门槛前,正在穿过这扇门,以后再也不会一样了。永远都不会。
特伦斯·谢诺夫斯基(Terrence Sejnowski)是杰弗里·辛顿(Geoffrey Hinton)之外,另一位深度学习奠基人、先驱人物。最近,他们私下交流了许多次关于 AI 威胁论的看法。
38 年前,两人齐心合作,研发了玻尔兹曼机(Boltzmann Machines),这是一种用于模式识别的神经网络。上世纪 80 年代,在深度学习经历了漫长的寒潮与黯淡后,它的出现为极少数相信 “连接主义”、“神经网络” 和 “深度学习” 的研究人员,带来了一丝曙光。
“我们就是 AI 的莱特兄弟。” 谢诺夫斯基说。
辛顿与谢诺夫斯基都出生于 1947 年。辛顿出生于加拿大,专长是人工智能和心理学;而谢诺夫斯基出生于美国,更擅长物理学和神经科学。两人有一个共同的内心力量:对大脑充满兴趣。
“我们有同样的直觉,”谢诺夫斯基说,“这个直觉是,视觉、语音识别、语言问题等都是极其困难的问题,必须解决;而唯一证明这些问题可以解决的存在就是,大自然已经解决了这些问题。为什么不深入研究一下?”
在很长一段时间里,深度学习都不是人工智能的主流学派。彼时的统治者是 MIT 人工智能实验室的马文·明斯基(Marvin Minsky),他曾尖锐指出深度学习的重大缺陷,并围绕自己对人工智能的见解构建了一套体系。绝大部分科学家都是他的追随者,信奉 “符号主义”。
这是势力悬殊的两个学派。“符号主义” 是一种基于逻辑推理和编程规则的学派,将人类思维视为通过符号和语言进行推理的过程,就像人类使用字母和单词构建句子来表达思想;而 “连接主义” 则更像是逆向工程大脑,通过模拟神经元之间的连接和权重调整来处理信息。
后来,辛顿成为 AI 教父级人物、深度学习之父,以 4400 万美金将自己的公司卖给 Google 后出任 Google 科学家,而他的学生 IIya Sutskever 参与创立了如今炙手可热的 OpenAI。
谢诺夫斯基则是美国四院(国家科学院、国家医学院、国家工程院、国家艺术与科学学院)院士,也是全美在世仅三位的四院院士之一,他有一档知名的慕课《学习如何学习》(Learning How To Learn),并出版了一本全球销量超 300 万的书籍《深度学习》(The Deep Learning Revolution)。
二人维持了一生的友谊。
左:特伦斯·谢诺夫斯基
右:杰弗里·辛顿
近期,辛顿骤然从 Google 辞职,公开呼吁 AI 的可能性危险。他表示,过去几个月让他改变了对人类大脑与数字智能的看法。“毛毛虫提取养分,转化为蝴蝶。人们已经提取了数十亿认知的精华,GPT-4 就是人类的蝴蝶。” 以此暗示数字智能可能是比大脑更智慧的智能体。
而谢诺夫斯基对此表现得更乐观一些。
“我很高兴杰弗里有所担心,因为至少有人在担心。” 今年 5 月,腾讯新闻对话了现年 76 岁的特伦斯·谢诺夫斯基,他再三拿莱特兄弟发明飞机类比,认为如今正处在这样的时刻。“我们刚刚起飞,不知道如何控制这架飞机,我们需要弄清楚如何控制它。这将是未来 10 年的方向。”
对话中,他谈到神秘莫测的大脑、AI 派系对决颇有冲击力的一幕、人工智能的潜在危险,以及大语言模型的未来演进方向等话题。他认为,大脑中还有几十个被这些大型语言模型忽略的部分,几乎可以肯定它们会在未来 10 年内被加入进来,如人类的情感、长期记忆。
他判断,未来,“每家公司都会建立自己的模型”。
我们就站在人类历史一个全新的起点上,谢诺夫斯基感叹道:“我们正在穿过这扇门,以后再也不会一样了。”
以下是对谢诺夫斯基的访谈,略有删减。
01 谈大脑:它比任何人类创建的神经网络模型更强大
腾讯新闻:你好,谢诺夫斯基先生。我这样称呼你对吗?Mr. Sejnowski。
谢诺夫斯基:你可以直接称我为 Terry。
腾讯新闻:好的,Terry。你是什么时候决心要成为一名科学家,尤其是什么时候想要成为一名神经网络、深度学习和人工智能方向科学家的?
谢诺夫斯基:我对大脑一直抱有浓厚的兴趣和好奇。在本科和研究生阶段,我主修物理,因为我认为在所有科学领域,物理学的理论力量最具挑战性。大脑高度复杂,物理工具对训练很有帮助。
在深入研究前,我意识到若是真想了解大脑,必须了解关于神经科学的知识,即大脑的生物基础。我旋即转向神经科学,在哈佛大学医学院神经生物学系进行了博士后研究。在那儿,我认识到要理解大脑,不能仅仅将其视为物理或生物问题,因为大脑具有学习和思考的能力,这是计算的用武之地。
我创立了一个名为 “计算神经科学” 的领域,最近荣获神经科学领域的格鲁伯奖(The Gruber Prize)。现在这个学派发展迅速。
这个话题与我们今天要讨论的内容相关,我们发现大型语言模型和人脑之间存在许多相似和差异之处。我们可以进行许多有价值的讨论。
腾讯新闻:在你漫长的科研生涯中,一个闪耀瞬间便是与杰弗里·辛顿教授一起研发了玻尔兹曼机,你当时有意识到这个机器会成为人工智能教科书上重要的一笔吗?
谢诺夫斯基:那是我生命中最激动人心的时刻之一。和杰弗里一起工作,是令人兴奋的机会。杰弗里有强烈的计算直觉,我们在背景上补充而契合。他的背景是人工智能和心理学,我的则是物理学和神经科学,我们完美地融合在一起,保持着持久的友谊。
正如你所指出,玻尔兹曼机具有里程碑意义。它证明了马文·明斯基和西摩尔·帕普特(Seymour Papert)是错误的。明斯基和帕普特在 1969 年关于《感知器》(Perceptrons: An Introduction to Computational Geometry)的著名书籍中对感知器的局限性提出了很好的证明,他们的观点是没有人能将感知器的学习规则推广到具有多层和多个隐藏层的多层感知器。但杰弗里和我发现,如果扩展架构,我们就可以展示出一种优雅的学习算法。
这个算法和架构之所以美妙,是因为它非常优雅。它受到了我背景中物理学启发,我很喜欢它。它就像是一个热力学证明,证明我们有一个学习算法。但与反向传播(Backpropagation)不同的是,它是全局的。你不需要通过反向传播计算误差,你只需要计算输入和输出在两种不同条件下的相关性。一种是当输入存在,另一种是当输入消失。我们称之为 “休眠阶段”。所以当你计算相关性减弱,对于小型网络很有效,它需要达到平衡,你必须计算平均相关性。它需要更多的计算,所以实际上效率不高。
腾讯新闻:相比更早的神经网络之一感知机(Perceptrons),玻尔兹曼机在哪些方面使深度学习变得更好了?依旧不足的是什么?
谢诺夫斯基:玻尔兹曼机的美妙之处首先体现在它可以容纳许多隐藏层,就像深度学习可以使用隐藏层一样。从 80 年代开始,它就已经是深度学习网络了。只是当时我们并没这样称呼它,但你可以构建更深层次的结构。
另一个值得注意的是,玻尔兹曼机既可用于监督学习,当然大部分工作是使用反向传播完成,也可以用于无监督学习。它能学习概率分布,不仅仅是学习将输入进行分类的映射关系,还能在高维空间中发展出内部的概率分布。
局限性嘛,就像我之前说的,它需要更多计算资源,计算成本高。而且,当你有多个隐藏层时,随着层数增加,它需要更长时间才能在输入向上传递并回传到底层。整个网络必须成为一个单一协调的整体。这在物理学中被称为相干性(Coherence)。就像在接近临界点时,比如水和蒸汽之间的相变(Phase Transition,指一种相态朝另外一种相态转变的过程),有一些特殊现象发生,整个系统变得相干。我们发现玻尔兹曼机必须实现全局的相干性。
这个算法非常有潜力,杰弗里花了很多精力来展示它可以逐层构建。它仍然是一个可行的算法,只是需要更多计算资源支持。
腾讯新闻:那些年,很少有人相信神经网络和基于神经网络的深度学习对于人工智能真正可行,认为这不过是自负者的玩笑。当杰弗里·辛顿第一次找到你提出合作意愿时,他是怎么对你说的?你为什么选择相信他?
谢诺夫斯基:1979 年,我们在圣地亚哥的一个小研讨会上结识。当时,并没有像你描述的那样引起太多关注。实际上,几乎没人注意我们。
换句话说,在全球范围,关注这个领域的人非常少。那次会议上,只有十几个人。我们是研究人员,从事与其他人不同的研究。我们很高兴能一起工作,因为我们有同样的直觉。这个直觉是,视觉、语音识别、语言问题等都是极其困难的问题,必须解决,而唯一证明这些问题可以解决的存在就是,大自然已经解决了这些问题。因此,我们的观点是,为什么不深入研究一下?让我们看看自然为我们做了什么,并尝试逆向工程大脑。
当你这样做时,你不想复制大脑的技术,因为它在能源使用和规模方面比我们先进得多。即使是今天的神经网络也无法接近大脑的一小部分。
但是,你可以从大脑中获取一些通用原则。我们试图提取这些原则,来创建人工大脑版本。
当时人工智能领域缺乏的最重要的原则是,你可以学习权重,可以通过示例来学习解决问题。这确实是大脑适应世界的一种重要方式。大脑可以学习语言、运动、物理和社交技巧。换句话说,这些都不是像编写计算机程序一样在你内部编程的东西。
大脑中的天生部分是体系结构和突触可塑性的机制,这些允许大脑在出生时具有接近成年所需的连接的生物机制,然后通过学习优化这些连接。这些就是原则:大规模的连接,许多单元之间的连接,并有学习算法。
尽管我们在 80 年代使用的学习算法如今仍在使用,但之后发生的是,由于摩尔定律的发展,神经网络的规模以惊人速度扩大,无论是单元的数量还是参数的数量,现在已达到万亿级别,与大脑相比仍然非常小,因为大脑大约有 10 的 14 次方、10 的 15 次方和 10 的 12 次方的连接,仍然多出约一千倍的连接和参数。
腾讯新闻:人类的大脑给你们的研究工作带来了哪些灵感?你曾经说:“我们确信我们已经弄清楚了大脑是如何工作的。” 那么,人类的大脑是如何工作的?
谢诺夫斯基:我不想给你一种我们已经理解了大脑如何工作的印象。它仍然是一个巨大的谜团。我们对大脑了解甚少。这就是为什么我从事神经科学,大脑比任何人类创建的神经网络模型更强大。
在我写作的《深度学习》一书中,我有一个完整章节展示了卷积网络(ConvNet)的架构。卷积网络是 2012 年在 NIPS 会议(神经信息处理系统大会,是一个关于机器学习和计算神经科学的国际会议)上取得重大突破的一种网络,杰弗里展示了通过这种网络可以将图像数据集上的错误率降低 20%,这相当于向未来前进了 20 年。
所以,如果你看一下卷积神经网络,它的架构在信号经过不同层的方式上,与灵长类动物视觉系统的架构相似。在视觉输入中,存在一种卷积架构进行预处理,还有许多其他机制,如归一化、分组等等,这些机制在视觉皮层中都存在,视觉皮层大约有 12 层,按顺序处理信息。这是一个卷积神经网络受到视觉架构启发的案例。
现在正发生的是,很多关于转换器(Transformer)的发现,例如用于自然语言处理的转换器以及从分析这些网络中出现的循环网络等其他架构,帮助我们理解它们的工作原理,并为分析神经数据提供了工具、技术和方法。
因此,与上个世纪相比,AI 和神经科学之间的合作进展非常快。以前的研究进展缓慢、痛苦而复杂,记录一个神经元的活动很困难。但现在我们有了同时记录数十万个神经元的工具和技术,这让我们能更全面地了解不同神经元如何协调工作。
令人兴奋的是,现在工程师和神经科学家之间的交流,正在加速我们对大脑如何工作以及如何改进人工智能的理解。
02 谈派系对决 质问明斯基:你是魔鬼吗?
腾讯新闻:人工智能领域一直存在深度学习的反对派,也就是所谓 AI 建制派(比如马文·明斯基),他们是怎么想的?今天来看,你们这些相信 “连接主义”、“深度学习”、“神经网络” 的少数者学派,相比相信 “符号主义” 的大部分 AI 建制派,底层对于世界认知的最大不同是什么?
谢诺夫斯基:20 世纪,计算机的性能有限,它们只能有效地处理逻辑问题。因此,人工智能是基于编写包含符号并操作符号的逻辑规则的。回顾起来,那些编写规则并尝试解决困难问题的程序员们,错误之处在于没有真正意识到自然界解决这些问题有多困难。
视觉是复杂和困难的,大脑细胞处理它们如此高效,以至于感觉起来就像很容易的事。你看出去,就能看到物体,这有什么困难呢?
这里有一个 DARPA 拨款的真实故事。DARPA 是美国的国防高级研究项目管理局,是军方的研究部门。20 世纪 60 年代,麻省理工学院的人工智能实验室获得了一大笔拨款,用来建造能打乒乓球的机器人。他们获得了这笔拨款,但后来意识到他们忘记申请资金来编写视觉程序。于是,他们索性将这个项目分配给研究生作为暑期项目,因为它看上去似乎很容易。(这不可思议)
2006 年,达特茅斯召开了人工智能大会 50 周年纪念会议,我见到了明斯基。我问他这个故事是不是真的。我听说过这个故事,但感觉有点夸张色彩。
结果他反驳道,你得知的事实是错的,“我们没有把它交给研究生,而是分配给了本科生”。这个看上去容易解决的问题,最终被证明是 “陷阱”,吞噬了整整一代计算机视觉研究人员的青春。
回顾起来,他们是尽力而为,根据当时的计算机条件做到最好。但问题是,随着问题变得越来越复杂,如果你试图通过编写计算机程序来解决它,程序会变得越来越庞大,这需要极大的人力投入。编写程序异常昂贵,无论是付给程序员的成本,还是程序行数达到数百万行时的成本,都会让你觉得它无法扩展。
这就是当时人工智能面临的问题:无法扩展。即使你给了他们数十亿美元,并让他们编写数十亿行的计算机程序,他们仍然无法解决问题。解决方案如此笨重。
他们当时并不知道。实际上,我们只需要一个隐藏层的小型网络,就可以证明我们能解决感知机无法解决的问题。但我们不知道的是,当你拥有 10 个隐藏层时会发生什么。我们不知道,因为我们无法模拟这个过程,它太复杂,计算量太大。
终于,在等待了 30 年后,现在我们知道了。计算机的速度提高了数百万倍,现在我们可以开始解决现实世界的问题了。
现在人们认为我们是对的,但当时人们认为这可能是死胡同。因为在 80 年代和 90 年代,它无法解决困难的问题。然而,我们不在乎。我们只是愉快地继续前进,看看我们能走多远。
另外一个问题是,那时我们概念框架中真正缺失的是对世界复杂性的低估。世界是一个高维的地方,信息量惊人。
以视觉为例,你有一个百万像素的相机,而你的视网膜有 1 亿像素,这是极为丰富的信息。信息以火箭喷射的速度涌入。如果你降低维度,就会丢失信息。你无法压缩它,它是不可逆的。符号的美妙之处在于,你可以将一个复杂的物体的单词压缩成一个符号。比如,杯子是一个符号,你可以写下这个小小的符号,它代表的不仅仅是这个杯子,而是所有杯子。这非常强大。但问题是,如果你要识别一个杯子的图像,这并没有帮助,因为杯子有各种形状和尺寸。你可以从不同角度看到它们。这是高维问题。世界是高维的。
直到我们能将网络扩展到拥有数万亿个参数的规模,我们才能开始将世界的复杂性融入网络中,使其能识别物体、识别语音,现在甚至是自然语言。它不仅能够识别,还能够生成。就像一个循环。
这真的令人兴奋和有趣。记得我刚才谈到的相变吗?我们从一个状态转变到另一个状态。你从液体变为蒸汽,或者你将高温下未磁化的铁降温,它会变成磁铁。
网络在不断变大的过程中也存在相变。换句话说,在某个点之前,你无法在物体识别和图像上取得多大进展,性能非常差。但一旦网络达到一定规模,随着它的变大,性能会越来越好。
解决语言问题也经历了另一个相变,需要更大的网络,依此类推。我们正在发现的是,随着网络变得越来越大,它们能够做更加复杂的事情,并且表现得越来越聪明。这又是一个意料之外的发现,你需要一定的复杂度。
这就是我们取得巨大进步的原因:我们能扩展计算能力。现在人们正构建专用硬件,以进一步扩展规模。它会不断发展。这只是个开始。
就像莱特兄弟,他们是最早进行人类飞行的人。当时有一个类比,人们认为如果你想造飞机,从观察鸟类是学不到任何东西的,因为它们的翅膀不同。大卫•麦卡洛(David McCullough)写了一本莱特兄弟的传记,非常精彩。他们花了很多时间观察鸟,不是观察鸟拍打翅膀的时候,而是它们滑翔的时候。
自然是解决复杂问题的无穷思想源泉。我们只需要成为一个善于观察的人,看到并理解透过细节看到的自然所使用的原则。那时的我、杰弗里和其他人都试图在全新的大规模的架构中看到这一点。
现在我们退后一步,谈谈计算机。直到最近,唯一的选择是冯·诺依曼体系结构(也称普林斯顿结构,是一种将程序指令存储器和数据存储器合并在一起的存储器结构),其中有一个处理器、一个内存和一堆编程指令。这种架构强大,因为你可以通过这种方式解决复杂问题,进行算术运算,处理大量数据,并进行排序和搜索。毫无疑问,我们取得了巨大的进步,因为这些计算机使我们能模拟其他架构。
然而,并行架构如果使用程序是非常难组织的。现在的超级计算机都是并行的,拥有数十万个核心,协调所有这些核心非常困难。我刚刚访问过德克萨斯州的一个超级计算机中心,他们说困难在于光速并非无限。光速大约是每纳秒 1 英尺。当然,纳秒是千兆赫兹。因此,核心之间的电线变得至关重要。
自然界也面临同样的问题。神经元之间存在时间延迟,而自然界已经解决了这个问题。这正是我目前正在研究的问题:自然是如何解决这个问题的?当我们构建大规模并行架构并继续扩大规模时,我们能否考虑这一点。从自然界中,我们还有很多东西要学。
腾讯新闻:我看到一本书中记录,你曾经当面质问明斯基:“你是魔鬼吗?”(Are you the devil?)你真的对他说过那句话吗?
谢诺夫斯基:他是个非常聪明的人,聪明的人也会犯错误。我不怪他。
当他做出决定朝某个方向发展时,那是当时可行的选择,他尽力而为。但是,不幸的是,很多神经网络领域的人因为他的书(《感知器》),还有他的影响力……你知道,他在筹集资金方面非常有权势,他是麻省理工学院人工智能实验室的负责人,也是该实验室的创始人。他的学生都去了斯坦福大学、卡内基梅隆大学等知名大学找到了很好的工作。因此,他围绕自己对人工智能的愿景创建了一个完整的领域。
我参加了那次 50 周年纪念会。对我来说很明显的现象是,每个取得进展的人之所以取得进展,不是因为老式的编写程序,而是因为他们利用了大型数据集,无论是在视觉还是语言方面。比如,解析句子。
明斯基的一名学生说他无法使用符号处理进行解析,但当他拥有了一个大规模的解析句子语料库后,他就能够分析单词的统计数据,以及出现在成对和成组的常用单词。没想到,明斯基站起来说:“你真丢人。你失败了,因为你在做应用程序。你不是在研究通用人工智能(AGI)。”
我当时坐在听众席上。我认为他心胸狭窄,我为他的学生感到遗憾。这家伙,我愿意说他是一个先驱,但他在阻碍我们前进。所有学生都想往前走,我们正致力于这些应用,这是一个很好的方式,因为你能理解这些问题的复杂性。
我很愤怒。最后每个人,包括明斯基,发表了一个关于他们对会议看法的简短演讲。有观众提问环节。
我举手发问。
我当着众人的面问道:“明斯基博士,有一些神经网络界的人认为你是魔鬼,因为你阻碍了几十年的进展。你是魔鬼吗?”
我不得不说,我通常不是那样的人。我是相当温和的人,我不经常像那样直接面对某个人,但我真的觉得他必须被揭露出来。我生气并不是因为他说了什么,而是他对待学生的方式。你的学生就像你的家人。而这正是他所做的,虐待他的学生。我不喜欢那样。无论原因如何,我问了他这个问题:“你是魔鬼吗?”
他明显感到不悦。我就像突然间按动了他的按钮,他滔滔不绝地说起各种事情,一直不停地说。
最后我制止了他。我说:“明斯基,我问了你一个是或否的问题。你是魔鬼还是不是?”(I asked you a yes/ no question. Are you or are you not the devil?)
他结结巴巴地说了一些废话,然后停下来。他说:“是的,我是魔鬼。”(语气激动,突然咆哮着说:Yes, I'm the devil.)
我不得不说,这对他不公平,但事实是他就是魔鬼。
观众对这场对决感到震惊。有几个人事后找到我向我表达感谢,他们说这是每个人都在想的事,对他的行为感到悲伤。
但不管怎样,这些都已经是历史了。
总之,这不是他一个人的问题。整个领域都围绕着一个不起作用的范式被禁锢了。整个领域经历了兴衰起伏,但这反映出它在取得进展。有时候取得了一点进展,看起来很有希望,于是就出现一个兴盛;当你意识到它实际上没有解决所有问题,就会有一个衰退。
顺便说一下,这对于所有科学和工程领域都是真实存在的,是不断重复的过程。没有例外。在短暂的时期内,你通过一个新理论或新范式取得进展,看看能达到什么程度。当达到极限时,你必须等待下一个突破。这是自然的。每个科学领域都一遍又一遍地经历同样的过程。那是事物的本质。
03 谈 ChatGPT 和大模型 它不是人类,是外星人
腾讯新闻:今天 AI 的爆发,是否超出了你最乐观的预期?以 ChatGPT 为代表的大语言模型的出现,是否带来了深度学习的新范式?
谢诺夫斯基:是的,绝对是在许多关键方面。你已经提到了其中一个关键点,那就是大多数神经网络都不是生成型的,它们只是单纯的前馈分类网络。唯一的例外是生成对抗网络(GAN),它在生成能力方面非常有趣,比如给它一些面部图像,它可以生成新的面部图像。这就是一个生成型网络的例子,但它是由两个网络组成的。一个网络用于生成,另一个网络用于选择,即判断生成的图像是真实的还是生成的。它们之间就像是两个网络的对抗,在生成和判断方面变得越来越好。
现在,我认为这些生成模型的真正突破在于它们使用了自我监督,而不是标记数据。处理对象时,你需要给数据打标签,这就是有监督学习,但这样做非常耗费资源,因为你需要人工进行标注,以获得准确的数据。而通过自我监督,你可以直接使用数据本身,它实际上是一种无监督学习,因为没有任何标签。美妙之处在于,你只需要训练它预测下一个单词或句子。因此,你可以给它提供来自各个领域的句子,这就提供了更多训练数据。如果训练数据是无穷的,就不再有约束了。
以前是,随着网络越来越大,你需要更多数据。而这限制了网络的规模。如果你有一个小数据集,你只能使用小型网络。但现在没有限制了,人们可以不断扩大网络规模,我们将看到它能走多远。
这真的改变了一切,开始出现一些意想不到的事,我从未预料到。
让我惊讶的是,它们能用英语对话。我知道它们也可以用其他语言,但你知道,它们所说的英语是完美的。它们不会像大多数人一样犯语法错误。当我说话时,我会犯各种各样的语法错误。我们都会犯,因为我们不完美。但它们怎么能在语法上做得那么好呢?没有人真正知道。这是一个深奥的谜题。
这也是对诺姆·乔姆斯基(Noam Chomsky,美国语言学家、哲学家,被誉为现代语言学之父)的反例,他声称你唯一能创造出使用语法机器的方法是使用他的理论。是的,他是语法天才,但这从未奏效过。计算语言学的整个领域都尝试过,但没有成功。他的理论行不通。
腾讯新闻:ChatGPT 为什么这么聪明?
谢诺夫斯基:我告诉你吧,这个问题引发了一场很大的争议,非常大。知识分子们喜欢互相争论,而当前的大辩题就是这个,它激起了各种观点之间的差异。
一部分认为这些大型语言模型并不理解它们所说的内容。它们不像我们一样能理解,也不具备智能。这些人会使用侮辱性的词汇,比如说它们是随机的鹦鹉(stochastic parrots)——事实上,鹦鹉很聪明,将它们与鹦鹉比较,这是对它们的赞扬。
另一部分人认为,哦天哪,它们不仅仅是聪明,而是比我更聪明,因为它们知道的东西太多了。它们拥有我所没有的知识基础。
还有人认为,它们不仅聪明,而且有感知能力。也就是说,它们可以像人类一样思考,拥有人类的心智。这是两个极端,中间有各种观点。
这是非常罕见的情况。一个突然出现在我们面前的东西,我们对它丝毫摸不着头脑,就像外星人突然从地球外的某个地方出现,并开始用英语和我们交谈一样。
你明白我的意思吗?这就是现在正在发生的。唯一我们绝对确定的是,它不是人类,而是外星人。那它到底是什么?我们创造了某种看起来具备智能特征的东西,它确实了解很多事,但它也存在一些问题。
首先,它会编造事情。他们称之为幻觉。有时它给出一些看似合理的事物,但实际上它们是虚构的。
另一个问题是,由于它展现了如此多不同的观点,包括你不同意的人的观点,它有时会说一些冒犯你的话。人类也会说一些冒犯我的话,对吧?哦,也许这是在模仿我们。
我有一篇论文提出了镜像假设,它是在模仿我们,就像人类在与 ChatGPT 交谈时,不仅仅是问它一个问题,而是以一种参与的方式进行交流。比如,《纽约时报》的凯文·鲁斯(Kevin Roose)和 ChatGPT 进行了两个小时交谈,这令人震惊。这种互动对他来说是情感上的,因为它实际在模仿他,以某种方式反映出自己的需求、思维和脑海中的东西。
你不能责怪 GPT-3,它们没有父母,没有人帮它们经历强化学习的过程。这个过程是大脑中负责强化学习的部分,位于皮层以下,被称为基底神经节。这是大脑学习行动序列以达到目标的部分。而这一部分需要来自世界的反馈,了解什么是好的,什么是坏的。这种强化学习系统是 Alphago 程序的核心部分之一。
Alphago 有两部分。它有一个深度学习网络,用于棋盘和位置的模式识别,还有一个强化学习引擎,为所有位置分配价值。所以它们是需要这两个方面的。而这些大型语言模型则没有价值函数,这是其中缺失的一部分。
实际上,这是其中一个特点,我们可以观察大脑,思考大脑是如何克服这些问题的。大脑拥有这个庞大的基底神经节。而且,这对于通过实践学习如何做事情也很重要,比如演奏小提琴或运动。我们出生时并不具备协调能力。婴儿需要很长时间来学习,他们将东西放入嘴巴,敲击东西,但最终他们能站起来走路,抓住物品,并四处奔跑和做事情。但要在某项运动上表现出色,需要专门的练习,你必须玩很多次,越玩越好。
这是大脑中绝对必要的一部分,而这些大型语言模型却缺失了这一点。真是可怜。
04 谈 AI 威胁论 我和辛顿是 AI 界的莱特兄弟
腾讯新闻:一些人现在感觉害怕,他们认为我们可能创造了一个怪物。包括辛顿看上去也有些担忧。你如何看待辛顿决定辞去 Google 的职务?他甚至对自己一生在 AI 方面的工作表示了一些遗憾。
谢诺夫斯基:我非常了解杰弗里。我们就这个问题进行了很多讨论。重要的是我们要考虑最坏的情况。
当新技术突然被发现、创造出来时,它可以被用于好的和坏的方面,会有人将其用于社会的善意,也会有人将其用于不良目的。最坏的情况是什么?如果坏人使用它,他们能对我们的文明造成真正的伤害吗?我们需要认真考虑这点。如果我们不这样做,我们将陷入麻烦之中。
预防最坏情况的方法首先是理解可能发生的情况。但我们还没有达到那个阶段。我们真的不知道它会走向何方。没有人知道。因此,我们必须谨慎行事。
杰弗里是在谨慎行事,他说,让我们等一等,好吗?
现在是这样,你不能不加以管制,就像对待其他所有事物一样,生活的各个方面、每一项技术都受到管制。例如,你在超市购买食品,你如何确保通过购买食物不会被毒害?我们有食品和药品管理局(FDA),他们会检测食物,确保对你没有害处。规章制度不断演变,就像食品不断演变一样,所以你必须不断地进行测试。
腾讯新闻:那么我们应该做些什么?
谢诺夫斯基:现在很多人都在认真思考这个问题。我是 NIPS 基金会主席,这个会议在我负责的过去 30 年里,从最初只有几百人参加,每年都以惊人速度扩大,如今已形成一个庞大的社区。社区会清楚地知道存在的问题、不足之处、公平性问题、可靠性问题和潜在威胁。
最终它们必须受到监管。但问题是,如何在不抑制研究的情况下进行监管?如果一群人希望暂停,认为我们应该限制网络规模,让任何网络都不能超过某个规定的大小,例如拥有一万亿个参数的 GPT-4,这是荒谬的。你限制的应该是能力,而不是大小,就像限制说没有人应该比 6 英尺更高一样,是荒谬的。我们必须制定合理的规则,允许受控的增长,并在过程中进行测试,以了解是否有新问题出现。
实际上,问题之一是我们不知道 AI 的潜力有多大。这是我们没有预先设定的事物,例如计算机编程的能力或写诗的能力。因此,我们有很多工作要做,必须进行测试和批准。在我们让它们在社会中自由运行之前,应该有一些批准流程。
总之,我不担心。我很高兴杰弗里有所担心,因为至少有人在担心。他非常聪明,他会找出我们是否有需要担心的事。但我真的认为我们还处于刚刚起步的阶段。
我们就是 AI 的莱特兄弟。我们刚刚起飞,不知道如何控制这架飞机,我们需要弄清楚如何控制它。这将是未来 10 年的方向。腾讯新闻:为什么你和辛顿关于 AI 威胁问题上持有不同观点?
谢诺夫斯基:我不否认它们的危险性,显然存在着危险。问题只是我们该怎么应对呢?
极端观点是直接关闭它。哦,我们不想要它了,把它放回盒子里。它太危险,我们就不做了。
在上个世纪,物理学家们创造了威力巨大的原子弹,可以摧毁城市。我们有成千上万个可以摧毁城市的氢弹。你必须对其监管。于是,拥有核弹的国家之间达成了一项协议,我们要确保对正在进行的研究监管,以确保没有人会开发出某种能摧毁整个世界的新型超级炸弹,并且在超过一定程度前,我们将相互协商。换句话说,人类有办法对事物进行调控。
看看互联网,你可以想象,如果互联网刚出现,有人说,嘿,这里潜在的问题是每个人都会发布可怕的东西,会造成虚假新闻或各种混乱,我们就停止吧。
没有人这样说。想想如果他们决定停止,不让互联网发展,我们还能享受到多少好处?我生活中有太多依赖于互联网的东西了。
05 谈 AI 的情感与终点 一切都将在你的有生之年发生转变
腾讯新闻:目前,深度学习模型需要大量的数据才能获得良好的性能。你认为我们如何才能减少对大数据集的依赖以实现更高效的学习?
谢诺夫斯基:我认为这个问题很重要。
大型语言模型是巨大的,因为有大量数据存在。但现在有很多人正在构建针对小数据集的较小模型。因此,可能会有一些小型语言模型,但重点是会有很多特定目的的模型存在。每家公司都会拥有自己特定目的的模型,用于处理自己的数据集,而无需依赖云端,也不需要其他人监听。现在很多公司禁止在公司使用 GPT,毕竟不想泄露商业机密。
因此,这意味着最终这些模型可能不会很小,但关键是现在构建一个模型非常昂贵,需要耗费数百万美元的成本和数月的时间,以及大量的计算资源。但在未来,计算机的价格将会越来越便宜,所以人们可以建立自己的模型。
在未来的 10 年内,每家公司都将建立自己的模型。这是一个预测。
腾讯新闻:ChatGPT 有感情吗?
谢诺夫斯基:嗯,它具备替代情感。它阅读了各种人们表达情感的小说,可以模拟情感。它知道情感是什么,它理解情感。我认为它可以在你与它互动时在你身上引发情感。这就是我所说的镜像假设,它会捕捉你的情感。如果你生气了,它会察觉到并反映给你。
它没有内在情感。但是,我们对大脑中的情感了解很多,就像我们能通过在基底节放入修复 GPT 学习序列等方式一样,我们也可以加入情感。将情感加入其中会比加入语言更容易。
顺便说一句,大脑中还有很多被这些大型语言模型忽略的部分,比如长期记忆。你明天是否记得我们的讨论?GPT-3 并不记得,GPT-4 也不会从一天到另一天记忆连续。
我们知道负责这一功能的大脑区域称为海马体。那么为什么不模拟海马体呢?这样就能获得长期记忆。
大脑中还有几十个被这些大型语言模型忽略的部分,几乎可以肯定它们会在未来 10 年内被加入进来。随着加入更多这些大脑部分,我们实际上有 100 个大脑部分专门负责各种亚皮质功能,而现在我们只有皮质部分。它实际上是一个简化版的人类,就好像我们只有非常高层次的部分,而没有低层次的感觉运动功能,它没有任何感知器官,也没有任何运动输出。但这是可以实现的。我们有机器人,我们可以给它一个身体,给它摄像头。而且,这一切都在进行中。我有朋友在从事这方面的工作。所以,这只是更多努力和时间的问题。
腾讯新闻:什么是深度学习永远无法做到的?
谢诺夫斯基:这是一个无法知晓的问题。没有人能够证明一件无法完成的事情,原因在于它还在不断演进。即使现在它做不到,也并不意味着下一代不能做到。
就像我说的,这是一个规模的问题。每一次规模的增加都带来了新的能力。所以现在,如果有人确切地告诉你,它不能实现通用人工智能,那么请等待明天。这是不断变化的。
这一直是人工智能领域的问题,每当你取得一些成就时,人们会说,哦,现在只是模式识别,不是真正的智能。但在某个时刻,你会到达一个程度。
拜托,它将会创造,将会添加所有的能力,将会拥有大脑的所有这些部分,以至于它会拥有我们所谓的通用人工智能。虽然现在还没有,但没有任何规则或法律可以阻止它的实现。腾讯新闻:人类只是智能演进的一个过渡阶段吗?
谢诺夫斯基:哦,奇点,人们谈论这个,但是现在还为时过早。
这可能是一种情景,但未来总是比任何人想象得更有趣。我从来没有想象过互联网对世界的影响,也无法想象这些大型语言模型将对世界产生的影响。现在为时过早。
我并不是说我们要盲目前进。我们必须谨慎,必须进行监管。如果我们不自己做,政府会替我们做。
我们正在进入人类历史上全新的时代。我们站在这个门槛前,正在穿过这扇门,以后再也不会一样了。永远都不会。
这太惊人了。一切都将在你的有生之年发生转变。
本文作者:张小珺,来源:腾讯科技,原文标题:《对话 AI 奠基人谢诺夫斯基:一切都将在你的有生之年发生转变》