
AI 要被卡脖子了?訓練大模型的數據或在 2026 年耗盡

一場數據爭奪戰正在拉開序幕。
就在不久前,分析師們還公開猜測,人工智能(AI)是否會導致面向創意人士的軟件開發商 Adobe 衰落。像 Dall-E 2 和 MidTrik 這樣的新工具,可以根據提示文本生成相應的圖片,它們似乎讓 Adobe 的圖像編輯功能變得多餘。就在今年 4 月,金融新聞網站 Seeking Alpha 還發表了題為《人工智能會是 Adobe 殺手嗎?》的文章。
但在現實中,事實距離分析師們的假設尚遠。Adobe 利用其數以億計的庫存照片數據庫構建了自己的人工智能工具套件,名為 Firefly。該公司高管達納·拉奧 (Dana Rao) 表示,自 3 月份發佈以來,Firefly 已被用於創建超過 10 億張圖像。通過避免像競爭對手那樣在互聯網上挖掘圖像,Adobe 避開了目前困擾着整個行業的、日益加深的版權糾紛。自 Firefly 推出以來,Adobe 股價已經上漲了 36%。
一場數據爭奪戰正在拉開序幕
Adobe 幹翻所謂 “末日殺手” 的勝利表明,在快速發展的人工智能工具市場上爭奪主導地位具有更廣泛的意義。為最新一波所謂的 “生成式人工智能” 提供動力的超大模型依賴於海量的數據。此前,模型構建者多數時候從互聯網抓取數據(通常是未經許可的)。現在,他們正在尋找新的數據來源來維持這種瘋狂的訓練模式。與此同時,擁有大量新式數據的公司正在權衡如何最好地從中獲利。一場數據爭奪戰正在拉開序幕。
人工智能模型的兩個基本要素就是數據集和處理能力,系統在數據集上接受訓練,模型通過處理能力檢測這些數據集內外部之間的關係。在某種程度上,這兩大基本要素可以相互替代:一個模型可以通過吸收更多數據或增加更多處理能力加以改進。然而,在專業人工智能芯片短缺的情況下,後者正變得越來越困難,這導致模型構建者加倍專注於尋找數據。
研究機構 Epoch AI 認為,對數據的需求將會急劇增加,以至於可用於訓練的高質量文本可能會在 2026 年耗盡。據悉,谷歌和 Meta 這兩家科技巨頭的最新人工智能模型已經接受了超過 1 萬億個單詞的訓練。相比之下,在線百科全書 Wikipedia 上的英語單詞總數約為 40 億個。
重要的不僅僅是數據集的大小。數據越好,利用其進行訓練的模型表現也會越好。數據初創公司 Scale AI 的拉塞爾·卡普蘭 (Russell Kaplan) 指出,基於文本的模型的理想訓練對象是篇幅夠長、文筆良好、事實準確的作品。輸入這些信息的模型更有可能產生類似的高質量輸出。
同樣,當被要求一步一步地解釋它們的工作時,人工智能聊天機器人會給出更好的答案,這也增加了對教科書等資源的需求。專用的信息集也變得更有價值,因為它們允許對模型進行 “微調”,以適應更小眾的應用。微軟在 2018 年以 75 億美元收購了軟件代碼存儲庫 GitHub,並利用其開發了一種編寫代碼的人工智能工具。
數據版權官司激增,AI 公司忙着籤授權協議
隨着對數據需求的增長,獲取數據缺變得越來越棘手,內容創作者現在要求對被人工智能模型吸收的材料給與補償。在美國,已經有許多針對模型構建者發起的侵犯版權案件。包括喜劇演員莎拉·西爾弗曼 (Sarah Silverman) 在內的一羣作家,正在起訴人工智能聊天機器人 ChatGPT 開發商 OpenAI 和 Facebook 母公司 Meta。此外,一羣藝術家也同樣起訴了 Stability AI 和 Midjourney,這兩家公司致力於開發文本轉圖像的工具。
所有這一切導致的結果是,隨着人工智能公司競相獲取數據源,出現了一連串的交易。今年 7 月,OpenAI 與美聯社簽署了一項協議,以獲取該機構的新聞檔案。最近,該公司還擴大了與圖片庫提供商 Shutterstock 的協議,Meta 也與後者達成了協議。
8 月初有報道稱,谷歌正在與唱片公司環球音樂 (Universal Music) 進行談判,希望後者授權藝術家的聲音以用於幫助開發歌曲創作人工智能工具。資產管理公司富達 (Fidelity) 表示,許多科技公司曾與該公司接洽,要求獲取其財務數據。有傳言稱,人工智能實驗室正在接洽英國公共廣播公司(BBC),以獲取其圖像和電影檔案。另一個受關注的目標是 JSTOR,這是一個學術期刊的數字圖書館。
這些信息持有者正在利用他們更大的議價能力。論壇 Reddit 和備受程序員歡迎的問答網站 Stack Overflow 都提高了訪問其數據的成本。這兩個網站都特別有價值,因為用户會給喜歡的答案 “點贊”,幫助模型知道哪些是最相關的內容。社交媒體網站 X(前身為推特) 已經採取措施,限制機器人抓取該網站信息的能力,現在任何想要訪問其數據的人都要付費。X 老闆埃隆·馬斯克 (Elon Musk) 正計劃利用這些數據建立自己的人工智能業務。
因此,模型構建者正在努力提高他們已經擁有的數據的質量。許多人工智能實驗室僱傭大量的數據註釋者來執行標記圖像和評級答案等任務。其中一些工作很複雜,甚至需要招聘擁有生命科學專業的碩士或博士求職者。但其中大部分工作都很普通,而且正在外包給肯尼亞等國的廉價勞動力。
人工智能公司也通過用户與他們工具的互動來收集數據。其中,許多工具都有某種形式的反饋機制,由用户指出哪些輸出是有用的。Firefly 的文本轉圖像生成器允許用户從四個選項中做出選擇。谷歌的聊天機器人巴德 (Bard) 同樣提供了三個答案。
當 ChatGPT 回覆查詢時,用户可以給它豎起大拇指點贊。這些信息可以作為輸入反饋到底層模型中,形成創業公司 Contextual AI 聯合創始人杜威·基拉 (Douwe Kiela) 所説的 “數據飛輪”。他補充説,衡量聊天機器人回答質量的一個更強的信號是,用户是否複製文本並將其粘貼到其他地方。分析這些信息有助於谷歌迅速改進其翻譯工具。
開拓新領域,企業客户內部數據成香餑餑
然而,有一個數據來源在很大程度上仍未被開發,即存在於科技公司企業客户內部的信息。許多企業往往在不知不覺中擁有大量有用的數據,從呼叫中心記錄到客户支出記錄等。這些信息特別有價值,因為它可以幫助微調特定商業目的模型,比如幫助呼叫中心的工作人員回答客户的問題,或者幫助業務分析師找到提振銷售的方法。
然而,利用這種豐富的資源並不容易。諮詢公司貝恩的分析師羅伊·辛格 (Roy Singh) 指出,從歷史上看,大多數公司很少關注那些將被證明對訓練人工智能工具最有用的龐大但非結構化的數據集。這些數據通常分佈在多個系統中,隱藏在公司服務器中,而不是在雲端。
解鎖這些信息將有助於企業定製人工智能工具,以更好地滿足他們的特定需求。亞馬遜和微軟這兩家科技巨頭現在都提供工具,以幫助其他企業更好地管理非結構化數據集,谷歌也是如此。數據庫公司 Snowflake 的克里斯蒂安·克萊納曼(Christian Kleinerman)説,隨着客户希望 “打破數據孤島”,該領域正在蓬勃發展。
初創公司也正在蜂擁至這個新領域。今年 4 月,專注於人工智能的數據庫公司 Weaviate 融資 5000 萬美元,估值達到 2 億美元。僅僅一週後,其競爭對手 PineCone 就以 7.5 億美元的估值籌集了 1 億美元資金。本月早些時候,另一家數據庫初創公司 Neon 也獲得了 4600 萬美元的融資。顯然,對數據的爭奪才剛剛開始。
本文來源:騰訊科技,原文標題:《AI 要被卡脖子了?訓練大模型的數據或在 2026 年耗盡》
