
Google releases its first native multimodal embedding model, Gemini Embedding 2

谷歌 DeepMind 於 3 月 10 日推出首個原生多模態嵌入模型 Gemini Embedding 2,可將文本、圖像、視頻、音頻及文檔統一映射至單一嵌入空間。模型支持超 100 種語言,首次引入原生語音嵌入能力,無需語音轉文字中間環節。採用 MRL 技術支持靈活壓縮向量維度,兼顧性能與存儲成本。
3 月 10 日,谷歌 DeepMind 推出 Gemini Embedding 2,這是該公司首個原生多模態嵌入模型,將文本、圖像、視頻、音頻及文檔統一映射至單一嵌入空間,標誌着 AI 嵌入技術邁入全模態融合的新階段。

Gemini Embedding 2 支持超 100 種語言的語義理解,並在文本、圖像及視頻任務的基準測試中超越現有主流模型,同時引入了此前嵌入模型所欠缺的語音處理能力。
該模型現已通過 Gemini API 及 Vertex AI 進入公開預覽階段,開發者可即時接入。
對於企業用户而言,該模型的發佈直接降低了構建多模態檢索增強生成(RAG)、語義搜索及數據分類系統的技術門檻,有望簡化此前需跨模態分別處理的複雜數據管道。
全模態統一:從文本擴展至五類媒體形式
Gemini Embedding 2 基於 Gemini 架構構建,將嵌入能力從純文本擴展至五類輸入形式:
- 文本支持最多 8192 個輸入 token;
- 圖像每次請求最多處理 6 張,支持 PNG 及 JPEG 格式;
- 視頻支持最長 120 秒的 MP4 和 MOV 文件;
- 音頻可直接攝入並生成嵌入向量,無需經過中間文本轉錄步驟;
- 文檔則支持最多 6 頁的 PDF 文件直接嵌入。
區別於逐一處理單一模態的傳統方式,該模型支持交錯輸入,即在單次請求中同時傳入圖像與文本等多種模態組合,使模型能夠捕捉不同媒體類型之間複雜而細微的語義關聯。
Gemini Embedding 2 延續了谷歌此前嵌入模型中採用的 Matryoshka 表示學習(MRL)技術。該技術通過"嵌套"方式動態壓縮向量維度,使輸出維度可從默認的 3072 靈活縮減,幫助開發者在模型性能與存儲成本之間取得平衡。
基準測試領先,語音能力為新亮點
谷歌表示,Gemini Embedding 2 在文本、圖像及視頻任務的基準測試中均優於當前主流競品模型,並將其定位為多模態嵌入領域的新性能標杆。

谷歌建議開發者根據應用場景選擇 3072、1536 或 768 三檔維度,以獲得最優質的嵌入效果。這一設計對於需要大規模部署嵌入向量的企業尤為重要,可在不顯著犧牲精度的前提下有效控制基礎設施成本。
在能力覆蓋方面,該模型引入了此前同類模型普遍缺失的原生語音嵌入能力,無需藉助語音轉文字的中間環節即可直接處理音頻數據。
谷歌指出,嵌入技術已廣泛應用於其多款產品之中,覆蓋 RAG 場景下的上下文工程、大規模數據管理以及傳統搜索與分析場景。
目前已有部分早期訪問合作伙伴開始基於 Gemini Embedding 2 構建多模態應用,谷歌稱這些用例正在兑現該模型在高價值場景中的實際潛力。
