
Has NVIDIA done well already?

Nvidia 的財報引發市場分歧,儘管業績超預期,股價下跌 3%。分析指出,橋水和軟銀大幅減持 NV 股票,Michael Burry 做空 NV。質疑 NV 對雲計算的理解及其市場競爭力。
TL;DR
Nvidia 的財報出來, 似乎有幾種截然不同的聲音, 最後在市場分歧的定價中以下跌 3% 收盤, 而最近幾周那幾家 NeoCloud 基本上跌幅都在 20~30% 以上, CRWV 幾乎最近一個月腰斬. 一些常見的分析如下:
《左手倒右手,“6100 億美元的 AI 龐氏騙局崩盤”》[1]
《NVIDIA 的 53 天魔術:一場隱藏在財報裏的 “循環融資遊戲”》[2]
同時, 橋水公佈的持倉數量相比第二季度 723 萬股, 減持比例高達 65.3%, 軟銀也清倉了 NV 的股票. 當然還有 “大空頭” Michael Burry 開始做空 NV, 並且對於 GPU 折舊的算法提出質疑。
另一方面 Jensen 似乎也在抱怨, 明明業績超預期, 為什麼還跌. 並且反覆強調 NV 的價值. 説實話 NV 確實是一個非常棒的公司, 從技術上來看, 為什麼從 ChatGPT 出來了這幾年內, 沒有一個成熟的挑戰者? 特別是在美國這樣一個足夠開放競爭的市場內, 真的是 CUDA 生態的壁壘麼? 或許還應該去很多細節上看看. Nv 是一個非常強的系統解決方案公司, 而不是一個單純的集成電路公司. 雖然其他很多 GPU 相關的競對公司都在各個領域補齊短板, 但其自身 GPU 的微架構的很多缺陷以及在多種 workload 下的性能雪崩... 有些事情就不多説了...
1. 雲計算的實質是流動性管理
但是從市場來看, Nv 最近幾個月做的並不是那麼的好, 特別是那些 neocloud 的小兄弟們.. 實質上暴露了一個很關鍵的問題: Nv 基本上不太懂雲計算是什麼. 至少我沒看到 Jensen 詳細闡述 AI Cloud 和 AI Factory 的區別是什麼? 也沒在產品上領教到他們為雲設計的功能, NV 對於真正的雲計算其實這也是很多設備廠商積重難返的一個問題. 例如思科這樣的設備提供商也完全錯過了轉型為 CSP 的機會, 很大程度上就是那種根深蒂固賣硬件盒子的思維方式。
去年的這個時候還調侃着寫了一篇文章《把 GPU 當成一個金融產品如何上槓杆?》沒想到今年正劇上演.... 對於 NV 認知中的雲或者其自身利益的角度來看, 最好每個模型廠商自建一個巨大的 AI Factory, 實際上到底有沒有泡沫? 本質上還是一個流動性管理的問題, 而不是簡單的賣鐵邏輯。
實際上雲計算的實質和銀行是類似的. 比爾蓋茨曾説過:"Banking is neccesary, Banks are not". 王堅博士講過:"計算,為了無法計算的價值 (Computing for Value Beyond Computation)". 本質上博士也是在闡述計算的價值,那麼照着寫一句:"Computing is neccesary, Computers are not".
也就是説, 算力是必須要的, 而算力本身的構成是多種多樣可以按需分配的. 當然對於算力的提供, 有大量建設的私有云集羣, 或者其他專有集羣租賃模式. 但這種 IDC 機房的算力租賃是不是雲? 這是很多人認知上有極大缺陷的地方。
雲計算的實質是給算力上槓杆, 但是更加關注其流動性風險, 然而現在的幾個 NeoCloud, 基本上都還是需要單一客户的長期訂單, 任何的違約都會陷入到極大的經營困境中. 也就是説實質上這些 NeoCloud 對於流動性風險的管理是完全無知的. 在 H 卡的時候, 反正供不應求, 因此根本不太需要很複雜的流動性管理, 而在 B 卡的時代, 其實一切供需的平衡已經在發生微妙的變化了。
《鋭評某友商説傳統雲還在賣鐵: 從金融的視角談雲計算及其流動性管理》
話説你什麼時候聽過某個大銀行告訴投資人, 我的貸款都是某個大客户長期的穩定的訂單? 結果這個客户是某大?
2. 從營收上分析
其實在今年 7 月就以一個 FRM 的風控視角來詳細談論了 GPU 雲的經營風險《談談 GPU 雲的經營風險和流動性管理》, 裏面基本上把最近的一些爭議涵蓋掉了. 無論是折舊還是單一客户違約風險等。
實質上的問題是 Nvidia 和它的 NeoCloud 小兄弟們並沒有搞清楚到底什麼是雲計算. 其實流動性風險才是整個雲經營管理的重點, Berkeley 在 2009 年談論雲計算時, 有一篇著名的論文:《Above the Clouds: A Berkeley View of Cloud Computing》講述了 6 點
- 可以按需使用無限量的計算資源
- 消除雲用户的預先承諾
- 根據實際需要支付短期使用計算資源的費用
- 通過超大規模的數據中心等規模經濟顯著降低成本
- 通過資源虛擬化技術簡化操作並提高資源利用率
- 通過多路複用的方式運行來自不同組織的負載,提高硬件資源的利用率
從金融的角度來看, 前兩條講的是算力要有剛性兑付, 第三條講的是算力的租賃關係, 第四條到第六條講的是類似於金融機構的雲計算算力機構的經營管理. 實質上這幾點詮釋了雲計算如何為算力上槓杆的邏輯, 以及如何提供流動性。
而最近幾個月來看, 我們已經發現一些流動性風險的信號, 一個是 Nv 的應收賬款, 一個是一些循環融資和承諾消費注入的流動性. 首先是 FY26Q3 的應收賬款為 334 億美元, 季度收入為 570 億美元. 對比去年實際賬期為 46 天, 今年的數據計算為 53 天. 當季是否有用下一個季度的訂金收入衝抵降低 DSO(Days Sales Outstanding, 應收賬款週轉率)? 未來幾個季度是否有繼續升高? 並且客户集中度也非常高。
另一方面是庫存的升高,FY26Q3 末期的庫存總額已經到 198 億美元, 環比增加了 32%, 庫存週轉天數 DIO 目前已經達到 117 天. 實際上庫存的增加和另一方面供不應求的現狀是非常矛盾的..
接下來還有一些循環投資交易的問題, 特別來説是多年度雲服務協議從 126 億美元飆升到 260 億美元. 即 NV 承諾未來向雲廠商購買 260 億美元的雲服務. 簡單的來説, 就是把 GPU 當成一個金融資產, 售賣後再高價回租並給予相應的收益給雲廠商. 實質上和那些承諾收益的理財產品有什麼區別呢?
另外關於折舊率的問題似乎也不停的吵架, 一方面説 A100 到現在都還在上架用着產生價值, 而另一方面微軟的 Satya 又在説 H200 的卡在吃灰, 其實在沒有相對確定的 return 的時候, 才會毫無意義的掰扯折舊. 無非就是想把前一代卡的虧損通過更長的折扣貼到遠期, 然後用新一代卡的近期更大的規模和應收掩蓋掉前一代的虧損. 然後越滾越大, H 卡規模必須要遠大於 A 卡財務上才能打平, 緊接着 B 卡規模又要遠大於 H 卡才能把這個擊鼓傳花的遊戲玩下去....
營收這一段, 通過反覆的投入到 OAI/Anthropic 等公司, 又轉化為訂單, 引起一個很大的循環投資. 這些內容就不展開了。

關於折舊
其實每一代的卡折舊都是不同的. 對於 A100 已經到生命末期, 雖然有些搜廣推, 特別是所謂的生成式推薦 (GR) 的系統也可以用到, 但是 H 卡已經出現閒置的情況下, 無論是算力還是性價比, 將 A100 下架和殘值處理完無疑是最好的選擇. 它的生命週期按照 5 年算是合理的. 而針對 H 卡, 實際上很多已經運行了兩三年, 而未來 2 年還會有繼續作為一個成熟的平台使用. 直到 FP4 這些精度的模型逐漸成熟起來. 而對於 B200/GB200 就不同了, 很有可能它是一個非常短命的平台. 可能它的折舊週期大概只能算 3 年甚至更短. 一方面是由於 GB200 的穩定性問題延誤交付和快一年的時候, 真的大規模開始部署的時候 GB300 都出來了, 另一方面是芯片架構上的一些問題, 在同樣 FP8 的模型訓推常見相對於 H 卡並沒有很大的優勢, 甚至某些 case 還會較差一些... 然後 FP4 的應用和生態成熟估計還有 1~2 年, 因此這些時間 B200 和 GB200 的租賃溢價並不高. 大規模的這兩款卡投入的雲將會面臨很大的經營壓力. 因此個人一直覺得 B200/GB200 並不是一個值得投資的產品, 可能 B300 才會稍微成熟一點, 但是需要工業界完全獲得 FP4 的收益後, B300 的價值才會被認可。
另外, Satya 最近一次訪談在説要去抓一些長尾的客户? 也流露出一些有趣的信號. 實際上是在希望逐漸的分散單一客户的風險. 總體來看 AWS/Azure/Google 這些老牌的雲計算廠商似乎對於流動性的關注要比那羣 Neocloud 的小兄弟成熟多了...
3. 從技術上分析
其實關於新的 Blackwell 架構已經有一篇很詳細的分析《Inside Nvidia GPU: 談談 Blackwell 的不足並預測一下 Rubin 的微架構》, 很明確的一個觀點就是現在無論是 B200 還是 GB200 在性價比上並沒有達到對 H 卡的替代優勢, 甚至有些 workload 下性能還會更低一點。
FP4 的優勢可能還需要 1 年多的時間才能獲得, 因此我一直有一個判斷, B200/GB200 是一個註定短命的產品, 需要減少其投資, 特別是 GB200 在互連上遇到的問題, 其實在以前《三萬億的破綻》中也討論過很多相關的問題。
實質上 GB200 做為一個系統方案來看, 無論是訓練還是推理的 ROI 還是有一定問題的, 然後從前期因為可靠性問題逐漸延誤又很大的壓縮它的生命週期。
本質上可以歸納為幾點:
- GPU 進入了一個新的牧本週期, 逐漸 DSA 化的過程, TensorCore 越來越大, SM 越來越少, 編程接口的演進是一個難題, 特別是針對後來的 Rubin Ultra 等, CuTile 這些生態但凡有一點失敗都會拉開一個大的口子. 而事實上我們比較喜聞樂見的就是 TileLang 這些生態和一些其它的硬件在這個牧本週期取得一定的成功。
- 互連架構上, ScaleUP 上 NVLink 還是大概率能守住的, 特別是 Intel ARM 等加入 NVLink FUsion 生態後, 會有一些改觀. 甚至還有一個比較不符合當今審美的觀點: ScaleUP 這種小型機/大型機的解決方案真的有用麼? 其實對於雲服務提供商更傾向於使用便於擴展的 ScaleOut 技術, 但是 ScaleOut 上實質的原因是 RDMA Verbs 接口根本就不是一個對 GPU 友好的接口, 這裏會存在一些變數, 但是讓 Nvidia 去放棄 RDMA 顯然有更大的阻力, Nv 內部的計黨和網黨估計還有非常大的爭議。
當然我們還是不得不承認 Nvidia 當前是一個無法取代的公司, 在很多細節上都做的很不錯. 例如 CTA/CGA 的負載均衡, Warp 調度, 編譯器的優化, 片上互連網絡等很多非常基礎非常細節的地方做的很不錯, 這些細微之處才是真的拉開與其它 GPU 廠商差距的源頭. 而其它公司 (例如 AMD 還有一眾國產卡的公司, 似乎壓根就不太在意這些細節....)
至少未來兩三年內, 能夠在實際多種工況下和 Nv 打成平手的競對廠家還是相對較少的. 而針對國內就不多評價了, 只希望技術棧的覆蓋廣一點避免走進局部優化的死衚衕吧...
最後還是按慣例: 本文內容僅是個人的分析, 不構成任何投資建議,也不作為任何法律法規、監管政策的依據,投資者不應以該等信息作為決策依據或依賴該等信息做出法律行為,由此造成的一切後果由投資者自行承擔。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
