谷歌 PaLM 2 細節曝光:3.6 萬億 token,3400 億參數

華爾街見聞
2023.05.19 00:19
portai
I'm PortAI, I can summarize articles.

谷歌上週發佈的大型語言模型 PaLM 2 使用的訓練數據幾乎是其前身的五倍,使其能夠執行更高級的編碼、數學和創意寫作任務。

谷歌最新大語言模型PaLM 2,更細節內幕被曝出來了!

據 CNBC 爆料,訓練它所用到的 token 數量多達3.6 萬億

這是什麼概念?

要知道,在去年穀歌發佈 PaLM 時,訓練 token 的數量也僅為 7800 億。

四捨五入算下來,PaLM 2 足足是它前身的近 5 倍

(token 本質是字符串,是訓練大語言模型的關鍵,可以教會模型預測序列中出現的下一個單詞。)

不僅如此,當時谷歌發佈 PaLM 2 時,只是提到 “新模型比以前的 LLM 更小”。

而內部文件則是將具體數值爆料了出來——3400 億個參數(初代 PaLM 是 5400 億)。

這表明,谷歌通過技術 “buff 加持”,在參數量更小的情況下,讓模型可以更高效地完成更復雜的任務。

雖然在已經維持了數月的 AIGC 大戰中,谷歌一直 “全軍出擊”,但對於訓練數據的大小或其他細節信息,卻是遮遮掩掩的態度。

而隨着這次內部文檔的曝光,也讓我們對谷歌最 in 大語言模型有了進一步的瞭解。

PaLM 2 要在廣告上發力了

關於谷歌上週發佈 PaLM 2 的能力,我們就不再詳細的贅述(可點擊此處瞭解詳情),簡單總結下來就是:

  • 接受了 100 多種語言的訓練,在語言理解、生成和翻譯上的能力更強,更加擅長常識推理、數學邏輯分析。

  • 數據集中有海量論文和網頁,其中包含非常多數學表達式。

  • 支持 20 種編程語言,如 Python、JavaScript 等常用語言。

  • 推出了四種不同 size:“壁虎” 版、“水獺” 版、“野牛” 版和 “獨角獸” 版(規模依次增大)。

至於使用方面,谷歌在發佈會中就已經介紹説有超過 25 個產品和應用接入了 PaLM 2 的能力。

具體表現形式是 Duet AI,可以理解為對標微軟 365 Copilot 的一款產品;在現場也展示了在 Gmail、Google Docs、Google Sheets 中應用的能力。

而現在,CNBC 從谷歌內部文件中挖出了其在 PaLM 2 應用的更多計劃——進軍廣告界

根據這份內部文件,谷歌內部的某些團隊現在計劃使用 PaLM 2 驅動的工具,允許廣告商生成自己的媒體資產,併為 YouTube 創作者推薦視頻。

谷歌也一直在為 YouTube 的青少年內容測試 PaLM 2,比如標題和描述。

谷歌在經歷了近 20 年的快速發展後,現在已然陷入了多季度收入增長緩慢的 “泥潭”。

也由於全球經濟大環境等原因,廣告商們也一直在在線營銷預算中掙扎。

具體到谷歌,今年大多數行業的付費搜索廣告轉化率都有所下降。

而這份內部文件所透露出來的信號,便是谷歌希望抓住 AIGC 這根救命稻草,希望使用生成式 AI 產品來增加支出,用來增加收入並提高利潤率。

據文件顯示,AI 驅動的客户支持策略可能會在 100 多種谷歌產品上運行,包括 Google Play 商店、Gmail、Android 搜索和地圖等。

訓練數據缺乏透明度,越發被熱議

不過話説回來,包括谷歌在內,縱觀大多數大語言模型玩家,一個較為明顯的現象就是:

對模型、數據等細節保密。

這也是 CNBC 直接挑明的一個觀點。

雖然很多公司都表示,這是因為業務競爭所導致的,但研究界卻不這麼認為。

在他們看來,隨着 AIGC 大戰的持續升温,模型、數據等需要更高的透明度

而與之相關的話題熱度也是越發的激烈。

例如谷歌 Research 高級科學家 El Mahdi El Mhamdi 便於二月份辭職,此舉背後的原因,正是因為他覺得公司缺乏透明度。

無獨有偶,就在 OpenAI CEO Sam Altman 參與聽證會期間,便 “反向” 主動提出立法者進行監管:

如果這項技術出了問題,那就可能會是大問題……我們希望合作,防止這種情況發生。

截至發稿,對於 CNBC 所爆料的諸多內容,谷歌方面暫未做出回應。

本文作者:金磊,來源:量子位,原文標題:《谷歌 PaLM 2 細節曝光:3.6 萬億 token,3400 億參數》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。