
NVIDIA's biggest risk lies in a corner that few people pay attention to!

GPU 與高算力需求 Transformer 架構 “互相成就”。然而如果在不遠的未來,AI 世界依賴的 Transformer 被對算力需求並不高的架構取代,那會對 “賣鏟人” 英偉達構成威脅嗎?
今年的英偉達確實 “猛”,不遺餘力拼算力似乎已經成了科技巨頭們的共識,部分原因在於,不少大模型都以對算力需求較高的 Transformer 為架構,而如果在不斷迭代的過程中,Transformer 逐步被對算力需求少的架構取代,這是否也將成為英偉達的 “潛在風險”?
投資了 OpenAI 勁敵 Cohere 的著名風險投資家、Radical Ventures 合夥人 Rob Toews,在 9 月 3 日發佈的專欄文章指出,Transformer 在訓練時支持並行化,與 GPU 的 “爆火” 時間點吻合。GPU 擁有更多流處理器,適合對密集數據進行並行處理和併發計算,非常適合且支持基於 Transformer 的計算工作流負載。
毫無疑問,Transformer 的架構非常強大,徹底改變了 AI 界,但缺點也明顯,當文章長度變長,計算複雜度就變得非常高,同時,隨着模型規模不斷擴大,所需計算量呈指數級增加,這兩點都讓 Transformer 的算力需求激增。
Toews 指出,為了彌補 Transformer 存在的問題,包括 Hyena、Monarch Mixer、BiGS、MEGA 等提出了用 Subquadratic 方法來降低運算複雜度,減少算力需求。
Toews 直言,儘管這些架構距離挑戰 Transformer 的 “王座” 仍有較大差距,但不可否認的是,AI 發展過程中新鮮的事物接連出現,不斷更新換代的過程中,或許沒有什麼是永遠屹立不倒的。
當算力需求激增之時,從某種程度上説,誰手握英偉達 GPU,誰就掌握了 AI 時代最硬的 “硬通貨”。而如果在未來 Transformer 被對算力需求不高的架構取代,那對最大 “賣鏟人” 英偉達來説將構成一定威脅。
Transformer 的龐大計算成本
2017 年 6 月 12 日,《Attention is All You Need》論文橫空出世,讓大模型領域變天的 Transformer 架構出現了。截至 9 月 4 日,Transformer 誕生超過 6 週年,而這篇論文被引用高達 87345 次。
分析指出,基於 Transformer 不斷擴展的大模型們,都是以處理性能和功耗方面的高昂成本為代價。因此,雖然人工智能的潛力可能是無限的,但物理和成本卻是有限的。
為什麼 Transformer 對算力的要求如此之高?
Toews 解釋稱,主要有以下兩個原因:1.注意力(attention)機制的計算複雜度,2.越發龐大的模型規模:
Transformer 的基本原理是使用自注意力機制來捕獲序列數據中的依賴關係,無論它們的距離有多遠。
注意力機制需要將序列中每個詞與其他所有詞進行配對比較,這導致運算量隨序列長度的平方增長,即計算複雜度為 O(n^2)。這種平方級複雜度使得隨着文本長度增加,所需計算成本急劇上升。
與此同時,Transformer 架構可以更好地擴展大模型,所以研究者不斷基於 Transformer 訓練更大規模的模型。目前主流的語言模型參數量達到了數百億級甚至萬億級,需要大量算力支持。隨着模型規模的擴大,所需算力呈指數級上漲。
谷歌母公司 Alphabet 首席財務官 Ruth Porat 在財報電話會上表示,由於需要投資 AI 基礎設施,資本支出將比去年的創紀錄水平 “略高”。
微軟最新報告顯示,該公司季度資本支出超出預期,首席財務官 Amy Hood 稱原因為加大 AI 基礎設施建設。
微軟在今年年初又向 OpenAI 砸了 100 億美元,為了支撐起大語言模型訓練所需的龐大計算資源費用。成立僅 18 個月的初創公司 Inflection 也融資超過 10 億美元用於構建 GPU 集羣,以訓練其大語言模型。
英偉達 GPU 在市場的 “哄搶” 中陷入產能瓶頸。最新的 H100 芯片早已全部賣空,現在下單要等 2024 年第一季度甚至第二季度才能排上隊。
Toews 指出,上述種種都不難看出,基於 Transformer 的模型對計算資源的需求之大,以至於當前的人工智能熱潮引發了全球 GPU 供應短缺,硬件製造商無法跟上激增的需求。
Transformer 面臨的難題
同時,Toews 指出,Transformer 處理的句子長度受限,已有的方法大多使用截斷的方式,這會導致信息損失,因此如何實現長文本的預訓練是目前的一大難題。
而這場 AI 軍備競賽註定還將持續下去,如果 OpenAI、Anthropic 或任何其他公司繼續使用 Transformer 架構,那麼它們模型的文本序列長度會受限。
Toews 指出,人們已經進行了各種嘗試來更新 Transformer 架構,仍然使用注意力機制,但能夠更好地處理長序列。然而,這些改進後的 Transformer 架構(如 Longformer、Reformer、Performer、Linformer 和 Big Bird)通常會犧牲部分性能,因此未能獲得採用。
Toews 強調,沒有一樣事物會是完美的,歷史的發展也不會停下腳步,儘管 Transformer 在現在佔據絕對的優勢地位,但它也並非沒有缺點,而這些缺點為新的架構打開了大門。
“王位” 挑戰者出現了?
Toews 認為,現在尋找可以替代"Transformer"的架構成了最有潛力的領域,而其中的一個研究方向是用一種新的函數替代注意力機制。包括 Hyena、Monarch Mixer、BiGS、MEGA 等提出了用 Subquadratic 方法來降低運算複雜度,減少算力需求。
Toews 強調,斯坦福和 Mila 的研究人員提出了一種名為 Hyena 的新架構,具有代替 Transformer 的潛力,它是一種無注意力、卷積架構,可以匹配注意力模型的質量,同時可以降低計算成本。在次二次多項式 NLP 任務上表現出色:
據稱,Hyena 可達到與 GPT-4 同等的準確性,但使用的算力比後者減少了 100 倍。這是第一個能夠在總 FLOPS 減少 20% 的情況下與 GPT 質量相匹配的無注意力架構,具有成為圖像分類的通用深度學習運算符的潛力。
Toews 表示,需要注意的是,最初的"Hyena"研究是在相對小的規模下進行的。最大的"Hyena"模型具有 13 億個參數,而 GPT-3 有 1750 億個參數,而 GPT-4 據説達到 1.8 萬億個參數。因此針對"Hyena"架構的一個關鍵測試將是,在將其擴展到當前"Transformer"模型規模的情況下,它是否能繼續表現出強大的性能和效率提升。
Toews 認為,而液態神經網絡是另一個具有取代 “Transformer” 潛力的架構。麻省理工學院的兩名研究人員從微小的秀麗隱杆線蟲(Caenorhabditis elegans)中汲取靈感,創造了所謂的 “液態神經網絡”(liquid neural networks)。
據稱,液態神經網絡不僅速度更快,而且異常穩定,這意味着系統可以處理大量的輸入而不至於失控。
Toews 認為這種較小的架構意味着液態神經網絡比"Transformer"更加透明且更易於人類理解:
畢竟,對於人類來説,更容易解釋具有 253 個連接的網絡發生了什麼,而不是擁有 1750 億個連接的網絡。
當架構不斷改進,逐漸減少了對算力的依賴,是否也意味着會對未來英偉達的營收產生影響?
