
The next "AI shovel seller": Computing power scheduling is the key to inference profitability, and vector databases have become a necessity

申萬宏源表示,隨着生成式 AI 應用加速滲透,AI 基礎設施軟件(AI Infra)正成為應用落地的關鍵 “賣鏟人”,算力調度能力直接決定模型推理服務的盈利水平。根據測算,在單日 10 億查詢量下,若使用 H800 芯片,單卡吞吐能力每提升 10%,毛利率能夠提升 2-7 個百分點。數據層面,向量數據庫已成剛需,Gartner 預測 2025 年企業 RAG 技術採用率將達 68%。
隨着生成式 AI 應用加速滲透,AI 基礎設施軟件(AI Infra)正成為應用落地的關鍵 “賣鏟人”,算力調度能力已成為決定模型推理盈利水平的核心變量。
近期,申萬宏源研究黃忠煌團隊發佈了深度報告《AI Infra:應用滲透下的又一賣鏟》,報告指出基礎設施軟件正迎來黃金髮展期。與模型訓練階段被巨頭壟斷不同,推理和應用部署環節為獨立軟件廠商打開了新的商業空間。當前兩類產品最為關鍵:算力調度軟件和數據類軟件。
算力調度能力直接決定模型推理服務的盈利水平。根據測算,在單日 10 億查詢量下,若使用 H800 芯片,單卡吞吐能力每提升 10%,毛利率能夠提升 2-7 個百分點。
數據層面,向量數據庫已成剛需,Gartner 預測 2025 年企業 RAG 技術採用率將達 68%。海外數據廠商如 MongoDB 在 2024 年二季度收入增速出現明顯拐點,驗證了這一趨勢。
算力調度:推理盈利的核心變量
AI Infra 指的是專門為 AI 工作負載的設計、構建、管理和優化的底層硬件與軟件系統。 它的核心目標是高效、大規模地完成 AI 模型的訓練和推理任務。如果將開發大模型比做是 “造房子”,那 AI Infra 就是 “工具箱”,包括構建、部署和維護人工智能 (AI) 系統所需的硬件、 軟件和服務的組合。

國內模型價格戰背景下,成本控制成為生死攸關的問題。Deepseek V3 官方定價僅為每百萬 token 輸入 2 元、輸出 3 元,而海外同類產品價格普遍在 1.25-5 美元之間。這種顯著的價格差異使得國內廠商對成本的敏感度遠超海外。
大廠算力調度能力對比:
華為 Flex:ai 實現了異構算力統一調度,支持英偉達、昇騰及第三方算力,通過芯片級切分技術(精準至 10% 粒度),在無法充分利用整卡算力的場景下,可將平均利用率提升 30%。
阿里巴巴 Aegaeon 更進一步,實現了 token 級動態調度。通過 token 粒度的精細化調度、階段化計算、緩存複用和彈性擴縮容,Aegaeon 將 10 個模型所需 GPU 數量從 1192 張鋭減至 213 張,資源節約率高達 82%。這種"按 token 分揀"的實時調度方式,類似將快遞分揀從"按批次"升級為"按單個包裹"。
報告數據表明,算力調度軟件已成為提升毛利率的隱形槓桿:
毛利率敏感性分析顯示,假設模型推理服務商使用 H800 芯片,在單日 10 億查詢量場景下(日收入約 440 萬元,年收入 16.06 億元),當單卡吞吐從基準值的 0.6 倍提升至 1.4 倍時,毛利率可從 52% 提升至 80%。這意味着算力調度優化每提升 10% 的單卡吞吐,就能帶來約 2-7 個百分點的毛利率改善。
這也解釋了為何海外三大雲廠商的雲業務毛利率差異顯著:2025 年三季度,谷歌雲毛利率為 43.3%,微軟智能云為 34.6%,而亞馬遜 AWS 僅為 23.7%。隨着 AI 大模型雲收入佔比持續提升,硬件調度能力對毛利率的影響將愈發關鍵。

向量數據庫:RAG 應用的剛需基礎
大模型幻覺問題催生了 RAG(檢索增強生成)技術的快速普及。由於大模型無法直接記住大量企業私有知識,且缺乏外部知識時容易產生幻覺,RAG 成為企業部署 AI 應用的標配。Gartner 數據顯示,2024 年全球已有 45% 的企業在智能客服、數據分析等場景中部署 RAG 系統,預計 2025 年這一比例將突破 68%。
報告指出,向量數據庫的核心價值在於支撐海量數據的毫秒級檢索。 在 RAG 應用推理流程中,系統需要先將用户查詢轉化為向量,然後在向量數據庫中檢索最相似的知識片段,最後將檢索結果與用户問題一起輸入大模型生成答案。這要求向量數據庫能在億級數據規模下保持高 QPS(每秒查詢數)的實時檢索能力。
OpenRouter 統計數據顯示,從 2024 年四季度開始,從 API 接口接入各類大模型的 Token 消耗量快速增長,一年時間內翻了近 10 倍,直接拉動了向量數據庫需求。
數據庫格局重塑:OLTP 反攻,實時性為王
生成式 AI 時代,數據架構正從"分析優先"轉向"實時運營 + 分析協同"。傳統數據倉庫/湖倉架構設計目標是批量處理和事後洞察,但 AI 應用需要毫秒級響應,Agent 更需要持續獲取實時數據並快速決策。這種高頻、小批量、低延遲的實時事務處理需求,正是 OLTP(在線事務處理)數據庫的核心優勢。

報告指出,AI 時代數據架構從 ‘分析優先’ 轉向 ‘實時運營 + 分析協同’...MongoDB 憑藉 ‘低門檻 + 高彈性’,契合中小客户低成本 AI 落地需求,增長彈性突出。Snowflake 與 Databricks...需應對 CSP 跨界競爭與實時能力短板。
具體來看:
MongoDB:低門檻切入中小客户市場
MongoDB 作為文檔型 NoSQL 數據庫,天然適配非結構化數據存儲與高頻實時 CRUD 操作。其收入增速在 2024 年二季度出現拐點,2026 財年一至三季度,核心產品 Atlas 收入增速分別為 26%、29%、30%,顯著高於總體收入增速。
MongoDB 的競爭優勢體現在三個方面:首先,其文檔型設計摒棄了預定義表結構,以類似 JSON 格式存儲數據,契合 AI 原生應用需求;其次,通過 2025 年 2 月以 2.2 億美元收購 Voyage AI,補齊了向量檢索能力,Voyage 的嵌入模型在 HuggingFace RTEB 測評中霸榜第一、第四和第五;第三,新推出的 AMP(應用現代化平台)幫助客户從傳統關係型數據庫遷移至現代文檔數據庫。
2026 財年三季度,MongoDB 毛利率達到 76%,預計年底經營利潤率將達到 18%,全年營收增長率約 21%-22%,幾乎接近 Rule of 40 標準(收入增長率 + 利潤率≥40%)。
Snowflake 與 Databricks:向全棧工具延伸
以 OLAP 為核心的 Snowflake 和 Databricks 選擇了不同的應對策略——向上下游縱向拓展。Snowflake 在 2025 年通過 Iceberg Tables 實現數據湖倉兼容,推出 Snowpark 支持 Python 等多語言,並提供 Cortex AI 和 Snowflake ML 等 AI 工具鏈。2025 財年收入達 36.26 億美元,同比增長 29.21%,預計 2026 財年收入 44.46 億美元。
Databricks 則在 2025 年 5 月以 10 億美元收購無服務器 Postgres 解決方案提供商 Neon,補齊 OLTP 能力,隨後推出 AI 原生數據庫 Lakebase 和 Agent Bricks。其 2025 年年化收入超 48 億美元,同比增長 55%,數據湖倉產品年化收入超 10 億美元,淨留存率超 140%。
兩家公司憑藉全流程工具鏈和客户粘性,佔據金融、醫療等數據密集型行業核心場景。截至 2026 財年三季度,Snowflake 年消費超 100 萬美元的高價值客户達 688 家,福布斯全球 2000 強企業中已有 766 家成為其客户。
GPU 主導存儲架構:技術升級進行時
AI 推理進入實時化、PB 級數據訪問的新階段,存儲 IO 正從"幕後支撐"變成"性能命脈"。LLM 推理的 KV 緩存訪問粒度僅 8KB-4MB,向量數據庫檢索更是低至 64B-8KB,且需要支持數千條並行線程的併發請求。
英偉達推出的 SCADA(加速數據訪問擴展)方案實現了 GPU 直連 SSD,將 IO 延遲從毫秒級降至微秒級。該方案採用"GPU-交換機-SSD"直連架構,測試數據顯示,1 顆 H100 GPU 的 IO 調度效率是 Gen5 Intel Xeon Platinum CPU 的 2 倍以上。
這要求向量數據庫進行技術升級:採用 GPU 適配的列式存儲、將檢索算法改為 GPU 並行版本、自主管理 GPU 顯存分配。這些技術演進正在重塑數據基礎設施的競爭格局。


