聖塔菲學者：AI 大語言模型真的理解人類語言嗎？

有學者認為，AI 只是圖書館，而不是真正的智能體。人類知道 “撓癢癢” 會讓我們笑，是因為我們有身體。大模型可以使用 “撓癢癢” 這個詞，但它顯然從未有過這種感覺。

導語

儘管大語言模型表現出近似人類的理解能力，但 AI 系統真的可以像人類一樣理解語言嗎？機器理解的模式必須和人類理解相同嗎？近日，聖塔菲研究所前所長克拉考爾和研究員梅拉尼·米歇爾在 PNAS 發表文章，探討大型預訓練語言模型（LLMs）是否能夠以類似人類的方式理解語言及其所編碼的物理和社會情境。

本文分別討論贊成和反對的觀點，並進一步探討了更廣泛的智能科學的關鍵問題。作者認為，進一步拓展人工智能與自然科學的交叉研究，有望拓展多學科的審視角度，總結不同方法的優勢邊界，應對交叉認知理念的融合挑戰。

關鍵詞：人工智能，大語言模型，心智模型

----

什麼是 “理解”？這個問題長期以來一直吸引着哲學家、認知科學家和教育家們的關注。對 “理解” 的經典研究幾乎都是以人類和其他動物為參照。然而，隨着大規模人工智能系統，特別是大型語言模型的崛起，AI 社區中出現了熱烈的討論：機器現在是否可以理解自然語言，從而理解語言所描述的物理和社會情境。

這場討論不僅僅侷限在自然科學的範疇；機器理解我們世界的程度和方式決定了我們在多大程度上能夠相信 AI 與人類交互任務中的穩健和透明行為能力，包括 AI 駕駛汽車、AI 診斷疾病、AI 照顧老年人、AI 教育兒童等等。同時，當前的討論展現了一個智能系統進行 “理解” 的關鍵問題：如何判別統計相關性和因果機制？

儘管 AI 系統在許多具體任務中表現出似乎智能的行為，但直到最近，人工智能研究界依然普遍認為機器無法像人類那樣理解它們所處理的數據。

例如：人臉識別軟件不理解面部是身體的一部分、面部表情在社交互動中的作用、"面對"不愉快的情境意味着什麼，或者做鬼臉的方式方法。同樣，語音轉文字和機器翻譯程序不理解它們處理的語言，自動駕駛系統也不理解駕駛員和行人在規避事故時的微表情和肢體語言。因此，這些 AI 系統常常被認為是脆弱的，缺乏 “理解” 的關鍵證據是，它們不可預測錯誤、泛化能力缺乏魯棒性[1]。

大語言模型真的理解語言嗎？

然而，過去幾年情況發生了轉變，一種新型的 AI 系統在研究界廣受歡迎併產生了影響，改變了一些人對機器理解語言的前景和看法。這些系統被稱為大型語言模型（LLMs）、大型預訓練模型或基礎模型 [2]，它們是具有數十億到數萬億參數（權重）的深度神經網絡，被 “預訓練” 於數 TB 的巨大自然語言語料庫上，包括大量網絡快照、在線圖書和其他內容。在訓練期間，這些網絡的任務是預測輸入句子中的隱藏部分，這種方法被稱為 “自監督學習”。最終的網絡是其訓練數據中的單詞和短語之間相關性的複雜統計模型。

這些模型可以用來生成自然語言，進行特定語言任務的微調 [3]，或進一步訓練以更好地匹配 “用户意圖”[4]。例如，OpenAI 的著名 GPT-3[5]、更近期的 ChatGPT[6] 和 Google 的 PaLM[7] 這樣的 LLMs 能夠產生驚人的類人文本和對話；此外，儘管這些模型並沒有以推理為目的開展訓練，一些研究認為它們具有類人的推理能力 [8]。

LLMs 如何完成這些壯舉對於普通人和科學家來説都是個謎。這些網絡內部的運作方式大都不透明，即使是構建它們的研究人員對於如此巨大規模的系統也只有些許直觀感受。神經科學家 Terrence Sejnowski 這樣描述 LLM 的出現：“奇點降臨，似天外來客，忽紛沓而來，語四國方言。我們唯一清楚的是，LLMs 不是人類……它們的某些行為看起來是智能的，但如果不是人類的智能，又是什麼呢？”[9]

儘管最先進的 LLMs 很令人印象深刻，它們仍然容易出現不像人類的脆弱性和錯誤。然而，這樣的網絡缺陷在其參數數量和訓練數據集規模擴大時顯著改進 [10]，因而一些研究者認為 LLMs（或者其多模態版本）將在足夠大的網絡和訓練數據集下實現人類級別的智能和理解能力，出現了一個 AI 新口號：“規模就是一切”[11, 12]。

上述主張是 AI 學界在 LLMs 討論中的一個流派。一部分人認為這些網絡真正理解了語言，並且能夠以一種普遍的方式進行推理（雖然 “尚未” 達到人類水平）。例如，谷歌的 LaMDA 系統通過預先訓練文本，再微調對話的方式構造了一個談吐流暢的對話系統 [13]，某 AI 研究者甚至認為這樣的系統 “對大量概念具備真實理解能力”[14]，甚至 “朝着有意識的方向邁進”[15]。

另一位機器語言專家將 LLMs 視為通向一般人類水平 AI 的試金石：“一些樂觀研究者認為，我們見證了具有一定普遍智能程度的知識注入系統誕生”[16]。另一些人士認為，LLMs 很可能捕捉到了意義的重要方面，而且其工作方式近似於人類認知的一個引人注目的解釋，即意義來源於概念角色。”[17]。反對者被掛上 “AI 否認主義” 標籤 [18]。

另一方面，有人認為儘管像 GPT-3 或 LaMDA 這樣的大型預訓練模型的輸出很流利，但仍然不能具備理解能力，因為它們沒有世界的經驗或思維模式；LLMs 的文本預測訓練只是學會了語言的形式，而不是意義 [19-21]。

最近一篇文章認為：“即使從現在開始一直訓練到宇宙熱寂，單憑語言訓練的系統永遠也不會逼近人類智能，而且這些系統註定只能擁有膚淺的理解，永遠無法逼近我們在思考上的全面性”[22]。還有學者認為，把 “智能”、“智能體” 和 “理解” 等概念套用在 LLMs 身上是不對的，因為 LLMs 更類似於圖書館或百科全書，是在打包人類的知識存儲庫，而不是智能體 [23]。

例如，人類知道 “撓癢癢” 會讓我們笑，是因為我們有身體。LLMs 可以使用 “撓癢癢” 這個詞，但它顯然從未有過這種感覺。理解撓癢癢不是兩個詞之間的映射，而是詞和感覺之間的映射。

那些持 “LLMs 無法真正理解” 立場的人認為，我們驚訝的不是 LLMs 流暢程度本身，而是流暢程度隨模型規模的增長超乎直覺這件事情。任何將理解或意識歸因於 LLMs 的人都是 “伊萊扎效應（Eliza effect）” 的受害者 [24]。“伊萊扎效應” 是指我們人類傾向於將理解和代理能力歸因於具有即使是微弱的人類語言或行為跡象的機器，得名於 Joseph Weizenbaum 在 1960 年代開發的聊天機器人 “Eliza”，儘管非常簡單，仍然欺騙了人們相信它理解了他們 [25]。

2022 年對自然語言處理領域活躍學者的一項調查亦佐證了這場討論的觀點分歧。其中一項調查內容是詢問受訪者是否同意以下關於 LLMs 是否在原則上理解語言的説法：“一些僅在文本上訓練的生成模型（即語言模型），在給定足夠的數據和計算資源的情況下，可以在某些非平凡意義上理解自然語言。” 480 人的答案几乎一半（51％）對一半（49％）[26]。

支持者佐證當前 LLMs 具備理解能力的重要依據是模型能力表現：既包括對模型根據提示詞生成文本的主觀質量判斷（儘管這種判斷可能容易受到 Eliza 效應的影響），亦包括在用於評估語言理解和推理能力的基準數據集客觀評價。例如，評估 LLMs 的兩個常用基準數據集是通用語言理解評估（GLUE）[27] 及其後繼者 SuperGLUE[28]，它們包括大規模的數據集和任務，如 “文本藴含”（給定兩個句子，第二個句子的意思是否可以從第一個句子推斷出來？），“情景含義”（在兩個不同的句子中，給定的詞語是否有相同的意義？）和邏輯回答等。

OpenAI 的 GPT-3（具有 1750 億個參數）在這些任務上表現出人意料之外的好 [5]，而 Google 的 PaLM（具有 5400 億個參數）在這些任務上表現得更好 [7]，能夠達到甚至超越人類在相同任務上的表現。

機器理解必須重現人類理解嗎？

這些結果對 LLMs 的理解有何啓示？從 “泛化語言理解”，“自然語言推理”，“閲讀理解” 和 “常識推理” 等術語的選擇不難看出，上述基準數據集的測試暗含機器必須重現人類理解方式的前提假設。

但這是 “理解” 必須的嗎？並非一定如此。以 “論證推理理解任務” 基準評估為例 [29]，在每個任務示例中，都會給出一個自然語言的 “論據”，以及兩個陳述句；任務是確定哪個陳述句與論據一致，如下例所示：

論點：罪犯應該有投票權。一個在 17 歲時偷了一輛車的人不應該被終身剝奪成為完整公民的權利。

推斷 A：盜竊汽車是一項重罪。

推斷 B：盜竊汽車不是一項重罪。

BERT 在這項基準任務中獲得了近似人類的表現 [31]。或許我們能夠由此得出結論，即 BERT 可以像人類一樣理解自然語言。但一個研究小組發現，在推斷語句中出現的某些線索詞（例如 “not”）能夠輔助模型預測出正確答案。當研究人員變換數據集來避免這些線索詞出現時，BERT 的表現性能變得和隨機猜測無異。

這是一個明顯的依靠捷徑學習（shortcut learning）的例子——一個在機器學習中經常被提及的現象，即學習系統通過分析數據集中的偽相關性，而不是通過類人理解（humanlike understanding），來獲得在特定基準任務上的良好表現 [32-35]。

通常情況下，這種相關性對於執行相同任務的人類來説表現得並不明顯。雖然捷徑學習現象在評估語言理解和其他人工智能模型的任務中已經被發現，但仍可能存在很多未被發現的 “捷徑” 存在。像谷歌的 LaMDA 和 PaLM 這種擁有千億參數規模、在近萬億的文本數據上進行訓練的預訓練語言模型，擁有強大的編碼數據相關性的能力。

因此，用於評估人類理解能力的基準任務或許對這類模型評估來説並不適用 [36-38]。對於大規模 LLMs（以及 LLMs 可能的衍生模型）來説，通過複雜的統計相關性計算能夠讓模型繞開類人理解能力，獲得近乎完美的模型表現。

雖然 “類人理解” 一詞沒有嚴格的定義，但它本質上並不是基於當下 LLMs 所學習的這類龐大的統計模型；相反，它基於概念——外部類別、情況和事件的內部心智模型，以及人類自身的內部狀態和 “自我” 的內部心智模型。對於人類來説，理解語言（以及其他非語言信息）依賴於對語言（或其他信息）表達之外的概念的掌握，並非侷限於理解語言符號的統計屬性。

事實上，在認知科學領域的過往研究歷史中，一直強調對概念本質的理解以及理解力是如何從條理清晰、層次分明且包含潛在因果關係的概念中產生的。這種理解力模型幫助人類對過往知識和經驗進行抽象化以做出穩健的預測、概括和類比；或是進行組合推理、反事實推理；或是積極干預現實世界以檢驗假設；又或是向他人闡述自己所理解的內容。

毫無疑問，儘管有些規模越來越大的 LLMs 零星地表現出近似人類的理解能力，但當前的人工智能系統並不具備這些能力，包括最前沿的 LLMs。有人認為，這種理解能力能夠賦予人類純統計模型無法獲得的能力。

儘管大模型展現出了非凡的形式語言能力（formal linguistic competence）——即產生語法流利、類人語言的能力，它仍然缺乏基於概念理解的類人功能語言能力（humanlike functional language abilities）——即在現實世界中正確理解和使用語言的能力。有趣的是，物理學研究中也有類似的現象，即數學技法的成功運用和這種功能理解能力之間的矛盾。

例如，一直以來關於量子力學的一個爭議是，它提供了一種有效的計算方法，而沒有提供概念性理解。

關於概念的本質理解一直以來是學界爭論的主題之一。對於概念在多大程度上是領域特定的和先天的，而不是更通用的和習得的 [55-60]，或者概念在多大程度上是基於具象隱喻的，並通過動態的、基於情境的模擬在大腦中呈現 [64]，又或者概念在何種條件下是由語言 [65–67]、社會學習 [68–70] 和文化支撐的 [71–73]，研究人員在這些方面存在分歧。

儘管存在以上爭論，概念——就像前文所述的那樣以因果心智模型的形式存在——一直以來被認為是人類認知能力的理解單元。毫無疑問，縱觀人類理解能力的發展軌跡，不論是個人理解還是集體理解，都可以抽象為對世界進行高度壓縮的、基於因果關係的模型，類似於從托勒密的行星公轉理論到開普勒的橢圓軌道理論，再到牛頓根據引力對行星運動的簡明和因果關係的解釋。

與機器不同的是，人類似乎在科學研究以及日常生活中都有追求這種理解形式的強烈內驅力。我們可以將這種動力描述為需要很少的數據，極簡的模型，明確的因果依賴性和強大的機械直覺。

關於 LLMs 理解能力的爭論主要集中以下幾個方面：

1）這些模型系統的理解能力是否僅僅為一種類別錯誤？（即，將語言符號之間的聯繫混淆為符號與物理、社會或心智體驗之間的聯繫）。簡而言之，這些模型系統永遠無法獲得類人的理解能力嗎？

或者，相反地，2）這些模型系統（或者它們近期的衍生模型）真的會在缺乏現實世界經驗的情況下，創造出對人類理解來説至關重要的大量的基於概念的心智模型嗎？如果是的話，增大模型規模是否會創造出更好的概念？

或者，3）如果這些模型系統無法創造這樣的概念，那麼它們難以想象的龐大的統計相關性系統是否能產生與人類理解功能相當的能力呢？又或者，這是否意味着人類無法達到的新形式的高階邏輯能力成為可能？從這一角度上看，將這種相關性稱為 “偽相關性” 或質疑 “捷徑學習” 現象是否仍然合適？將模型系統的行為視為一系列新興的、非人類的理解活動，而不是 “沒有理解能力”，是否行得通？

這些問題已不再侷限於抽象的哲學探討，而是涉及到人工智能系統在人類日常生活中扮演的越來越重要的角色所帶來的能力、穩健性、安全性和倫理方面的非常現實的擔憂。

雖然各派研究者對於 “LLMs 理解能力” 的爭論都有自身的見解，但目前用於獲得理解洞察力的基於認知科學的方法不足以回答關於 LLMs 的這類問題。事實上，一些研究人員已經將心理測試應用於 LLMs，這些測試最初是用來評估人類理解和推理機制的。

發現 LLMs 在某些情況下確實在心理理論測試 [14, 75] 中表現出類似人類的反應，以及在推理評估中表現出類似人類的能力和偏好 [76–78]。雖然這種測試被認為是評估人類通用能力的替代性測試，但對人工智能模型系統來説可能並非如此。

一種新興的理解能力

正如前文所提到的，LLMs 有一種難以解釋的能力，可以在訓練數據和輸入中學習信息符號之間的相關性，並且可以使用這種相關性來解決問題。相比之下，人類似乎應用了反映他們現實世界經驗的被壓縮的概念。當把為人類設計的心理測試應用於 LLMs 時，其解釋結果往往依賴於對人類認知的假設，而這些假設對於模型來説可能根本不正確。

為了取得進展，科學家們需要設計新的基準任務和研究方法，以深入瞭解不同類型的智能和理解機制，包括我們已經創造的 “異類的、類似思維實體”（exotic, mind-like entities）[79] 的新形式，或許我們正在踏上通往挖掘 “理解” 本質的正確道路上 [80, 81]。

隨着關於 LLMs 理解能力的討論聲音越來越多，以及更多有能力的模型系統的出現，這一切似乎都在強調未來有必要加強對於智能科學的研究，以便對人類和機器的更廣泛理解概念進行理解。正如神經科學家 Terrence Sejnowski 所指出的，“專家們對 LLMs 智能的分歧表明，我們基於自然智能的傳統觀念是不夠充分的。[9]

” 如果 LLMs 和其他模型成功地利用了強大的統計相關性，也許也可以被認為是一種新興的 “理解” 能力，一種能夠實現非凡的、超人的預測能力。比如 DeepMind 的 AlphaZero 和 AlphaFold 模型系統 [82, 83]，它們似乎分別為國際象棋和蛋白質結構預測領域帶來了一種來自 “外星” 的直覺形式 [84, 85]。

因此可以這樣説，近年來在人工智能領域出現了具有新興理解模式的機器，這或許是一個更大的相關概念動物園（zoo of related concepts）中的新物種。隨着我們在追求智能本質的過程中所取得的研究進展，這些新興的理解模式將不斷湧現。正如不同的物種適應於不同的環境一樣，我們的智能系統也將更好地適應於不同的問題。

依賴大量的歷史的編碼知識（encoded knowledge）的問題（強調模型性能表現）將繼續青睞大規模的統計模型，如 LLMs，而那些依賴有限知識和強大因果機制的問題將更青睞人類智能。未來的挑戰是開發出新的研究方法，以詳細揭示不同智能形式的理解機制，辨別它們的優勢和侷限性，並學習如何整合這些不同的認知模式。

參考文獻從略

本文作者：Melanie Mitchella, David C. Krakauera，範思雨、張驥翻譯，文章來源：集智俱樂部，原文標題：《聖塔菲學者：AI 大語言模型真的理解人類語言嗎？》

原文地址：https://www.pnas.org/doi/10.1073/pnas.2215907120

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。