Track Hyper | Meta Joins the Competition in Edge AI Models

站在高通的肩膀上，端側 AI 應用，指日可待？

ChatGPT 雖好，奈何閉源，而且使用門檻太高（不友好），因此 C 端商業化難以大規模落地。

但在 7 月 18 日，Meta 攜手微軟和高通，掀翻牌桌：微軟旗下雲服務 Azure 為 Meta AI 新一代開源大模型 Llama 2 提供雲服務；同時，Llama 2 還能在高通芯片上運行，實現智能端側 AI 能力。

華爾街見聞注意到，OpenAI 剛於 7 月 22 日宣佈，下週將發佈 ChatGPT 安卓 App。這相當於直面 Meta AI 的端側大模型 C 端應用挑戰。

若端側 AI 大模型真能實打實落地，那麼以智能終端為代表的消費電子創新春天，將有望再次來臨。

Meta 和微軟、高通想幹嘛

開源大模型本身，已屢見不鮮，算不上新奇。

Llama，簡單説，這是一個純文本（只接受文本輸入）的語義訓練大模型，稱為 “Llama-Chat” 可能更為準確。Llama 的特點在於開源（GPT 和 PaLM 閉源）和免費，初版於今年 2 月發佈，訓練時間是今年 1-7 月。整個過程用了 330 萬個 GPU 小時，硬件用英偉達 A100-80GB GPU，能耗 350W-400W，訓練總成本最高達到 4500 萬美元。

Llama2 全局批量規格（上下文長度）是 4M tokens，比初代 Llama 提高 1 倍，與 GPT-3.5 等同，參數規模最高 700 億（另包括 70 億、130 億和 340 億三種參數變體），訓練語料規模為 2 萬億 tokens。其中，700 億參數規模的以 GQA（分組查詢注意力機制：Grouped-Query Attention）提高推理可擴展性。

什麼是 token？

這是大模型處理與生成語言文本的基本單位。可以這麼理解，用於訓練的 tokens 越多，AI 智能水平也相應越高。

照例做個對比：谷歌新一代大模型 PaLM 2，訓練語料規模 3.6 萬億 tokens；GPT-3 是 3000 億，GPT-4 據推測可能也突破了數萬億。

就 AI 能力看，Llama2 與 GPT-4 仍有差距，也比不上 Google 的 PaLM2。Llama 2 性能難撼 OpenAI 的市場地位，通過免費商用，Meta 卻有望利用開源生態實現彎道超車。

這裏有必要做進一步解釋閉源模型的缺點。

最受關注的問題就一個：安全性。

用 ChatGPT 對話模型訓練時，由於閉源，因此對話內容的數據，實際上相當於進了一個黑盒。

當涉及隱私或敏感信息，比如金融數據、個人隱私或商業產品秘密等信息，通過 ChatGPT 對話模型，很可能會在其他訓練過程中成為 “公共信息” 而遭遇泄露。比如，著名的 “ChatGPT Grandma Exploit”，就直接公開了微軟的 Windows 11 的有效序列號。

在 B 端，這種黑盒效應的後果或許更嚴重。

相當多的企業，並不會限於調取標準 LLM 能力，他們會根據自己的業務需求，做 LLM 數據集的專有場景定製，以解決特定問題。但由於閉源黑盒問題，這些特定場景的業務數據很難保證私有用途。一旦泄露，很可能這些企業的業務會有重大損失，或優勢地位不再。

此次 Meta 與微軟和高通聯手部署端側模型，其意義遠超模型升級。若結合高通在今年 2 月首次推出端側 AI 模型能力演示，不難想像，消費電子——尤其是智能移動終端（手機，也包括 IoT）新一輪技術創新浪潮風暴，已在快速醖釀。

Meta AI 與微軟的主要合作內容，是向 Llama 2 的全球開發者提供 Azure 雲服務。也就是説，未來基於 Windows 系統，應用者都能用 Llama 2 的 AI 能力。這就大幅降低了 C 端應用 AI LLM 的門檻，無需用户自己配置軟件環境。

據微軟透露，Llama 2 已針對 Windows 做了優化，能直接在 Windows 本地實現部署進而運行。

一旦微軟推出基於 Llama 2 模型的 Windows 操作系統更新（Windows 目前是全球市場佔有率最高的操作系統），那麼全球用微軟視窗操作系統的 PC 用户，就能一鍵實現端側 AI 模型的 AGI 能力，個性化的 AI 應用浪潮將風起雲湧。

端側和混合 AI，孰重？

Meta AI 與高通的合作更具有想象空間。

華爾街見聞從高通獲悉，高通和 Meta 正在合作優化 Meta Llama 2 大語言模型直接在終端側的執行，這個過程無需僅依賴雲服務，就能在智能手機、PC、VR/AR 頭顯和汽車等終端上運行 Llama 2 一類的生成式 AI 模型。這將支持開發者節省雲成本，併為用户提供更加私密、可靠和個性化的體驗。

高通計劃支持基於 Llama 2 的終端側 AI 部署，以開發全新的 AI 應用。這將支持 B 端公司、合作伙伴和開發者構建智能虛擬助手、生產力應用、內容創作工具和娛樂等用例。這些運行在驍龍芯片上的終端側實現的新 AI 體驗，可在沒網絡連接的區域、甚至是飛行模式下工作。

高通計劃從 2024 年起，在搭載驍龍平台的終端上支持基於 Llama 2 的 AI 部署。現在開發者可以開始使用高通 AI 軟件棧（Qualcomm AI Stack）面向終端側 AI 做應用優化。高通 AI 軟件棧是一套支持在驍龍平台上更高效處理 AI 的專用工具，讓輕薄的小型終端也能支持終端側 AI。

與部分應用技術公司在端側嘗試單點 AI 模型應用不一樣，高通在此領域的佈局極具深度。

今年 2 月，高通第二代驍龍 8 移動平台已可支持參數超過 10 億的 AI 模型運行，做了全球首次端側運行超過 10 億參數模型（Stable Diffusion）的演示。

對於端側能有效支持的模型規模，高通全球副總裁兼高通 AI 負責人侯紀磊認為，在廣泛的用例中有很多基於 10 億參數為單位，從 10 億到 100 億便能涵蓋相當多數的生成式 Al，並可提供優異效果。

6 月中旬，高通也曾演示了 ControlNet 圖像生成圖像模型。這個模型擁有 15 億參數，可完全在手機上運行。ControlNet 是一項生成式 AI 解決方案，被稱為語言 - 視覺模型（LVM），能通過調整輸入圖像和輸入文本描述，更精準地控制生成圖像。

在這項演示中，高通只用不到 12 秒即可在移動終端上生成 AI 圖像，無需訪問任何雲端，便能提供高效、有趣、可靠且私密的交互式用户體驗。

據侯紀磊透露，未來數月內，高通有望支持參數超過 100 億的模型在終端側運行，2024 年將能支持參數超過 200 億的模型。此外通過全棧式 Al 優化，未來也將進一步縮短大模型的推理時間。

高通在做端側 AI 大模型部署時的技術創新主要包括：高通 AI 模型增效工具包（AIMET）、高通 AI 軟件棧和高通 AI 引擎。此外，高通 AI 研究的另一項全球首創的技術，即在移動終端上的 1080p 視頻編碼和解碼過程。

神經網絡編解碼器用途十分廣泛：可針對特定視頻需求做定製，通過生成式 AI 的優勢對感知質量做優化，可擴展至全新模態，在通用 AI 硬件上運行。但同時，這也後悔帶來難以在計算能力有限的終端上應對的諸多挑戰。為此，高通設計了神經網絡視頻幀間壓縮架構，支持在終端上做 1080p 視頻編碼。

高通在端側部署 AI 模型的技術雖然進展很快，但高通認為，混合 AI 才是 AI 的未來：混合 AI 架構在雲端和邊緣終端間分配並協調 AI 工作負載，雲端和邊緣終端如智能手機、汽車、個人電腦和物聯網終端協同工作，能實現更強大、更高效且高度優化的 AI。

節省成本是混合 AI 在未來佔據主流的主要推動因素。

舉例來説，據估計，每次基於生成式 AI 的網絡搜索查詢（Query），成本是傳統搜索的 10 倍。混合 AI 將支持生成式 AI 開發者和提供商利用邊緣終端的計算能力降低成本。混合 AI 架構或終端側 AI 能在全球範圍帶來高性能、個性化、隱私和安全等優勢。

若高通的判斷更符合未來 AI 應用的發展方向，那麼雲計算和端側 AI 計算必然會實現融合，而端側 AI 模型以何種形式（系統級還是單個節點？）實現持續落地，其間也充滿新的行業或商業模式的全新技術創新空間。無論如何，以 IoT 或智能手機為代表的消費電子，新一輪技術創新浪潮，已近在眼前。