Google releases its first native multimodal embedding model, Gemini Embedding 2

谷歌 DeepMind 於 3 月 10 日推出首個原生多模態嵌入模型 Gemini Embedding 2，可將文本、圖像、視頻、音頻及文檔統一映射至單一嵌入空間。模型支持超 100 種語言，首次引入原生語音嵌入能力，無需語音轉文字中間環節。採用 MRL 技術支持靈活壓縮向量維度，兼顧性能與存儲成本。

3 月 10 日，谷歌 DeepMind 推出 Gemini Embedding 2，這是該公司首個原生多模態嵌入模型，將文本、圖像、視頻、音頻及文檔統一映射至單一嵌入空間，標誌着 AI 嵌入技術邁入全模態融合的新階段。

Gemini Embedding 2 支持超 100 種語言的語義理解，並在文本、圖像及視頻任務的基準測試中超越現有主流模型，同時引入了此前嵌入模型所欠缺的語音處理能力。

該模型現已通過 Gemini API 及 Vertex AI 進入公開預覽階段，開發者可即時接入。

對於企業用户而言，該模型的發佈直接降低了構建多模態檢索增強生成（RAG）、語義搜索及數據分類系統的技術門檻，有望簡化此前需跨模態分別處理的複雜數據管道。

全模態統一：從文本擴展至五類媒體形式

Gemini Embedding 2 基於 Gemini 架構構建，將嵌入能力從純文本擴展至五類輸入形式：

文本支持最多 8192 個輸入 token；

圖像每次請求最多處理 6 張，支持 PNG 及 JPEG 格式；

視頻支持最長 120 秒的 MP4 和 MOV 文件；

音頻可直接攝入並生成嵌入向量，無需經過中間文本轉錄步驟；

文檔則支持最多 6 頁的 PDF 文件直接嵌入。

區別於逐一處理單一模態的傳統方式，該模型支持交錯輸入，即在單次請求中同時傳入圖像與文本等多種模態組合，使模型能夠捕捉不同媒體類型之間複雜而細微的語義關聯。

Gemini Embedding 2 延續了谷歌此前嵌入模型中採用的 Matryoshka 表示學習（MRL）技術。該技術通過"嵌套"方式動態壓縮向量維度，使輸出維度可從默認的 3072 靈活縮減，幫助開發者在模型性能與存儲成本之間取得平衡。

基準測試領先，語音能力為新亮點

谷歌表示，Gemini Embedding 2 在文本、圖像及視頻任務的基準測試中均優於當前主流競品模型，並將其定位為多模態嵌入領域的新性能標杆。

谷歌建議開發者根據應用場景選擇 3072、1536 或 768 三檔維度，以獲得最優質的嵌入效果。這一設計對於需要大規模部署嵌入向量的企業尤為重要，可在不顯著犧牲精度的前提下有效控制基礎設施成本。

在能力覆蓋方面，該模型引入了此前同類模型普遍缺失的原生語音嵌入能力，無需藉助語音轉文字的中間環節即可直接處理音頻數據。

谷歌指出，嵌入技術已廣泛應用於其多款產品之中，覆蓋 RAG 場景下的上下文工程、大規模數據管理以及傳統搜索與分析場景。

目前已有部分早期訪問合作伙伴開始基於 Gemini Embedding 2 構建多模態應用，谷歌稱這些用例正在兑現該模型在高價值場景中的實際潛力。