Track Hyper | AI Large Models Sprinting Towards Intelligent Mobile Endpoints

榮耀的意外、華為的努力和高通的默進。

智能手機革命性的技術突破停滯已久。GPT 出現後，業界逐漸達成共識：在智能終端（包括手機）落地端側大模型，將再次拉開激動人心的重大創新的大幕。

在上海 MWC 2023 期間，榮耀 CEO 趙明宣稱，榮耀將在智能手機端推動部署端側大模型，以此作為榮耀新一輪產品技術攻堅的起點。但在 7 月 12 日，趙明沒有披露其新一代摺疊屏 Magic V2 端側 AI 大模型的相關信息。

目前，端側大模型的呈現形式均為軟件。華爾街見聞了解到，榮耀 AI 大模型也將呈以軟件形式，很可能被整合在 MagicOS 8.0 版本中。

不同於榮耀提出的在智能手機端部署 AI 大模型的能力着眼於未來，今年 2 月，高通已首次在 Android 智能手機上部署 Stable Diffusion 模型，十多秒即能生成 AI 圖像。

高通產品管理高級副總裁兼 AI 負責人 Ziad Asghar 認為，大模型將迅速重塑人機交互方式。

高通先行：洞察個體需求

7 月 12 日，榮耀發佈新一代旗艦機 “Magic V2”。在此之前的 6 月 29 日，榮耀 CEO 趙明曾公開宣稱，Magic V2 將具有革命性的越級體驗。榮耀希望以此與行業一起，打破蘋果一家獨大局面。趙明同時表示，榮耀將率先將 AI 大模型引入端側。

但在 7 月 12 日，趙明對 Magic V2 的技術特性或產品特徵等信息的闡述，着重的是該機型的厚度（9.9mm）和重量（231 克），卻並未涉及端側 AI 大模型。此舉與趙明此前對 Magic V2 的端側 AI 大模型吹風形成鮮明對比。若是細品趙明在 6 月 29 日的説法——“未來將率先把 AI 大模型引入端側”，趙明或許意有所指。據華爾街見聞了解，未來榮耀要發佈的 MagicOS 8.0 版，在部署 AI 大模型方面，很可能就會有所動作。

榮耀的 AI 大模型在端側到底具有什麼樣的能力，這是個什麼樣的軟件矩陣（包括編譯/解碼器、算力平台、能耗控制、參數數量和開發工具等），目前不得而知。

從行業層面看，高通已在今年 2 月首次在智能手機上實現了 AI 模型部署。到今年 5 月，高通部署的 Stable Diffusion 模型參數已增至 10 億 +。

Stable Diffusion 是一個從文本到圖像的生成式 AI 擴散模型，能基於任何文本輸入，在數十秒內創作出逼真圖像。

目前 AI 繪畫最火的模型是 Midjorney 和 Stable Diffusion，但目前 Midjourney 模型沒有開源。Stable Diffusion 由 StabilityAI 公司於 2022 年提出，論文和代碼都已開源。Stable Diffusion 是 Diffusion 的改進版，主要作用是解決 Diffusion 模型的速度問題。

關於文字怎麼生成圖片，技術原理解釋起來過於複雜。簡單來説，從 Stable Diffusion 最初的名字 “Latent Diffusion Model（LDM）” 看，本質是壓縮了圖片的像素，尺寸變小，再通過編譯器（為何提及榮耀端側大模型包含了什麼樣的編譯器？）將擴散壓縮後的圖片還原成原始尺寸，其餘的過程和 Diffusion 模型差不多類似。

在壓縮圖片的過程中，提升了文本轉化成圖片的速度，這是 Stable Diffusion 的主要功能。

回到高通在安卓手機中部署的 Stable Diffusion 模型。實現文本轉圖像，只是大模型在端側實現部署時，就像宇宙的一粒塵埃，這只是智能手機未來革命性的應用體驗的一個極小的 “元素”。

通過部署端側大模型的數字助手，將成為一種超越想象的存在。未來的用户，將有幸通過智能手機操控一切商業服務，包括餐飲、各類訂票、專業諮詢、娛樂、攝影攝像、撰稿、辦公、參與金融活動等等。

這就真能實現高通這位 AI 負責人 Ziad Asghar 説的那樣，“大模型有能力真正重塑我們與應用交互的方式”。

只有真正在端側部署 AI 大模型，智能終端的 “智能” 一詞，才能名副其實。

趙明説，“端側 AI 大模型的使命就是更好地理解用户：知道我幾點睡覺，知道我喜歡吃什麼，能解決我的即時需求，相當於擁有洞察我需求的能力。”

做到擁有對使用者的個性需求洞察，原因是每部智能手機包含的個人應用數據，與能理解文字、影音和圖像等多模態輸入的大語言模型結合，最終智能手機的數字形式（比如虛擬數字人）就能極為精準地掌握使用者的偏好。更重要的是，這樣強悍的個性化體驗，還能建立在保護個體隱私的基礎上。

怎樣解決端側 AI 模型短板

目前，尚無哪家技術公司能真正全面部署端側 AI 大模型。

高通和華為成為了先行者。兩者的區別在於高通更加系統，從底層技術入手，比如利用高通 AI 軟件棧（Qualcomm AI Stack）執行全棧 AI 優化；而華為則更側重具體的應用體驗，但相比高通，華為的探索以其具象，從而顯得更具有節點嘗試特徵。

從技術角度看，高通在智能手機中部署 Stable Diffusion 模型，實際上是將 Stable Diffusion 模型整合在手機的混合 AI 架構中，進而將之作為量化、編譯和硬件加速優化等 AI 技術，以此支撐高度智能的應用體驗。

榮耀未來若真的在 MagicOS 8.0 中部署端側 AI 大模型，也將是這個技術原理。

實際上，通過自然語言（NLP）搜索，華為 P60 已能以之匹配出與描述相符的照片。這一功能，也是端側 AI 大模型龐大強悍能力中的一個極小的應用點。

這個應用體驗的實現，背後有華為多模態大模型技術和模型小型化處理技術的支撐。華為將自然語言智能搜圖模型整合進了鴻蒙系統（HarmonyOS），實現與眾不同的精準自然語言手機圖庫搜索體驗。

相比華為，高通的端側 AI 大模型部署，更側重系統性的特徵。

比如，高通的全棧 AI 研究，是指優化跨應用、神經網絡模型、算法、軟件和硬件。針對 Stable Diffusion，高通從 Hugging Face（開源模型庫公司，旗下明星開源庫是 “Transformers”）的 FP32 1-5 版本開源模型入手，通過量化、編譯和硬件加速推動優化，使其能在搭載第二代驍龍 8 移動平台的手機上運行。

在智能終端部署 AI 大模型，必須要解決性能和能耗問題。

首先，通過讓大模型在高通專用 AI 硬件上高效運行，並降低內存帶寬消耗，量化不僅能提高性能，還可降低功耗。這些包括諸如自適應舍入（AdaRound）等高通 AIMET 量化技術，能在更低精度水平保持模型的準確性，而無需做重新訓練。

其次，以高通 AI 模型增效工具包（AIMET）訓練後量化，可實現將大模型從 FP32 壓縮為 INT8。這是基於高通 AI Research 創造的技術所開發的工具，目前已集成進 Qualcomm AI Studio 中。

這部分能力由量化完成，其作用是將大模型在精度不變的情況下，從浮點數轉變成整數，節省計算時間，以及在確保模型性能的同時，壓縮整體規模，使之更容易部署在終端。

此外，AI 模型能以最高性能和最低功耗高效運行的關鍵，在於編譯器。AI 編譯器將輸入的神經網絡轉化為能在智能應用終端上運行的代碼，同時針對時延、性能和功耗做持續優化。

值得一提是高通 5G 移動平台驍龍 8 Gen2 首度集成的 AI 專用 Hexagon 處理器，採用了獨立的專用供電系統，支持微切片推理、INT4 精度和 Transformer 網絡加速等，能在提供更高性能的同時，降低能耗和內存佔用。這也是高通 AI 軟件棧的組成部分。

這些技術能應用於構成 Stable Diffusion 的所有組件模型，即基於 Transformer 的文本編碼器、VAE 解碼器和 UNet。這對於讓大模型在終端上的順利運行至為重要。

高通的全棧 AI 優化，最終實現了通過 Stable Diffusion 模型在智能手機上的運行，能達成 15 秒內執行 20 步推理，並生成一張 512x512 像素的圖像。這是在智能手機上最快的推理速度，能媲美雲端時延，且用户文本輸入完全不受限制。

無論是大模型公司，還是像高通這樣的終端軟硬件技術公司，抑或者是榮耀和華為一類的智能終端商，當行業實現上下游協同，共同推動將 AI 大模型在端側實現泛在部署，最終將真正引發新一輪智能終端的技術創新浪潮，切實擔起趙明所稱的在智能終端帶來革命性的應用體驗重任。