AI 一週見聞：谷歌從模型到應用全面衝刺，OpenAI3D 建模只需 100 秒，Meta 開源新模型，AI 學會人類感知

谷歌從模型到應用全面進擊 AI，PaLM2 讓 Bard 更強大，Workspace 叫板 Office；3D 建模大突破，OpenAI3D 模型 Shap-E，生成 3D 模型從 2 分鐘優化到 100 秒；Meta 開源 ImageBind 新模型，AI 學會人類感知，圖片是嫁接橋樑；GPT4 最強對手 Claude 史詩升級，解讀百頁資料僅需一分鐘；此外還有三種黑科技。

每週日 AI 一週見聞與您相約。AI 一週見聞涵蓋四大部分：每週見聞、企業新品發佈、AI 黑科技、下週看點。

每週見聞

本週要點匯總：

1、谷歌從模型到應用全面進擊 AI，PaLM2 讓 Bard 更強大，辦公套裝 Workspace 叫板 Office。

2、3D 建模大突破，OpenAI 推出文本生成 3D 模型—Shap-E，生成 3D 模型從 2 分鐘優化到 100 秒。

3、Meta 開源 ImageBind 新模型，AI 學會人類感知，圖片是嫁接橋樑。

4、GPT4 最強對手 Claude 史詩升級，解讀百頁資料僅需一分鐘。

5、還有三種黑科技，AI 超寫實數字人為何凸顯商業價值、AI 更懂視頻等內容。

企業新品發佈

1、谷歌從模型到應用全面進擊 AI

本週谷歌的 I/O 發佈會備受矚目，新品發佈效果超出市場的預期。谷歌不僅僅發佈了新模型 PaLM2，還將 AI 全面接入辦公套裝 Workspace，直接叫板 Office。

值得關注的是，新推出 PalM2 模型有四種大小，包括 Gecko、Otter、Bison 和 Unicorn。Gecko 作為最輕量的版本，可以部署到移動端，易於微調各類細分模型，提供每秒處理 20 個 token 的能力。

此前大模型在邊緣側終端的應用主要是依靠 API 接口調用的方式，大模型的訓練和推理仍在雲端進行，對邊緣側終端及芯片形態更新沒有太大需求。

輕量化 Gecko 版本，能夠提供 AIGC 更為定製化、時延更低，安全性、隱私性更好的應用，開拓 AI 模型在終端芯片推理的場景，邊緣側智能終端以及 SoC 有望全面升級，進入新的更新換代週期。

見智研究認為：谷歌的 PalM2 模型推出，能夠更好的驅動機器人 Bard 升級，不僅能夠使用 100 中語言回覆用户，多模態版本的 Bard 還更新了圖像、編程、應用集成等功能；而且還在醫學上被認達到臨牀專家水平。

此外，PalM2 大模型的又一亮點就是全球首個支持移動端部署的大模型 AI，被看做是點燃移動邊緣端的 Ai 大模型競賽。意味着大模型競賽的路線現在已經從 PC 端拓展到手機和 IOT 領域。

從谷歌的研發力和生態的角度來看：

在 AI 基礎設施上：A3 虛擬機訓練速度目前比其他設施快 80%，成本低 50%；Vertex AI 平台能夠給開發者提供多種基礎模型，用於微調從而儘快得到專屬模型。

在應用生態上：谷歌搜索推出 Converse 的生成式 AI 功能，不僅能夠寫郵件、寫文案、做表格、PPT 能力直接對標 Office，而且在決定購買性價比更好的產品時候特別有用。

之後最值得關注的是谷歌將推出基於 Bard 的拓展插件，擴大機器人的應用場景，比如讓 Adobe 生成全新的圖像，用 REDFIN 進行一個地區的所有房地產市場研究，購物、訂酒店、找工作都不在話下。

2、3D 建模重大突破，OpenAI 推出文本生成 3D 模型—Shap-E

傳統 3D 模型需要開發者進行手動建模，而 Shap-E 模型可以只用過自然語言的描述創建 3D 模型，極大的提高了創作的效率和質量。Shap-E 模型可在 GitHub 上免費獲得，並支持在 PC 上本地運行。下載完所有文件和模型後，不需要聯網。最重要的是，它不需要 OpenAI API 密鑰，完全免費。

見智研究認為：Shap-E 應用於更常見的擴散模型，與此前發佈的 Point-E 模型區別在於：Shap-E 直接創建物體的形狀和紋理，並採用稱為神經輻射場 (NeRF) 的特徵來克服早期模型的模糊性，使三維場景看起來像逼真的環境。Point-E 是根據文本提示生成 3D 點雲。

此外，每個 Shap-E 樣本在單個 NVIDIA V13 GPU 上生成大約需要 100 秒，Point-E 將花費多達兩分鐘的時間在同一硬件上渲染。因此 Shap-E 比 Point-E 運行效率更快。

但該模型也仍有一定的缺陷，比如它在組合概念方面的能力有限，未來通過收集或生成更大的帶註釋的 3D 數據集可能有助於解決這些問題。生成的樣本通常看起來粗糙或缺乏細節，編碼器有時會丟失詳細的紋理。

雖然文字生成 3D 模型暫且比不上圖片的呈現效果，但仍舊是未來一個重要的方向。

3、Meta 開源 ImageBind 新模型，AI 學會人類感知

Meta 在開源大模型的路上一騎絕塵，繼兩個月前開源 LLaMA 大模型之後，再次於 5 月 9 日開源了一個新的 AI 模型—— ImageBind。這個模型與眾不同之處便是可以將多個數據流連接在一起，包括文本、圖像/視頻和音頻、視覺、IMU、熱數據和深度（Depth）數據。這也是業界第一個能夠整合六種類型數據的模型。

見智研究認為：ImageBind 無需針對每一種可能性進行訓練，而是直接預測數據之間的聯繫的方式類似於人類感知。

ImageBind 通過圖像的綁定屬性，將每個模態的嵌入與圖像嵌入對齊，即圖像與各種模式共存，可以作為連接這些模式的橋樑，例如利用網絡數據將文本與圖像連接起來，或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視頻數據將運動與視頻連接起來。這對於多模態發展來説具有重大意義。

4、GPT4 最強對手 Claude 史詩升級，解讀百頁資料僅需一分鐘

據 Anthropic 官方介紹，升級後的 Claude-100k 版本，對話和任務處理能力雙雙得到極大提升。一方面，是 “一次性可處理文本量” 的增加，另一方面則是 “記憶力” 的增加。

見智研究認為：此前大模型都存在對讀取超長文本的困難，而 Claude-100k 打開此該領域的天花板，GPT-4 也不過才做到 3.2 萬 token，而 Claude-100k 能做到一次記憶 10 萬 token；能學習論文、幾小時的博客、財報等等都不在話下，更重要的是它不僅能通讀全文總結其中的要點，還能進一步完成具體任務，如寫代碼、整理表格等。本次更新對於機器文本學習來説是重大躍遷。

AI 黑科技

1、 AI 藝人、女友商業價值顯現

本週 AI 女友 Caryn、“AI 孫燕姿” 都爆火出圈；無論是和網友談戀愛收費每分鐘 1 美元，還是永生藝人，都讓數字人的商業價值備受矚目。

見智研究認為：AI 虛擬人、數字人商業價值的提高，本質原因是AI 讓建模數字人的成本大幅降低。此前，CG 建模數字人的製作週期通常需要 1-2 個月，報價在百萬元左右不等，而現在 AI 建模技術的快速迭代，讓 3D 寫實數字人的價格降至千元級別。這也是為什麼該應用能夠快速進行推廣的核心原因。

2、AI 看視頻：檢索關鍵字，精準卡位時間點

Twelve Labs 能夠做到讓 AI 讀懂視頻，並且通過關鍵字搜索的方式從視頻中提取特徵，例如動作、對象、屏幕上的文本、語音和人物。

見智研究認為：此功能必然是視頻創作者的福音，能夠讓機器批量檢索大量視頻，並且精準定位所需要的視頻畫面，效率非常高。此功能是將視頻中的信息逐一定義為向量，從而實現快速檢索的功能。

3、 4D 渲染—實現高清動態還原

Synthesia Research 發佈 HumanRF（運動中人類的高保真神經輻射場），通過視頻輸入來捕捉運動中人的全部外觀細節，能夠讓合成的視頻更加高清，從 4MP 的分別率升級到 12MP 運行。HumanRF 極大的解決了攝像機拍攝後進行高分辨率視頻合成的困難。

見智研究認為：4D 高清合成的突破性，對於視頻創作來説具有重大意義。當下看到可以應用場景包括電影製作、電腦遊戲或視頻會議等，邊界還能夠不斷拓展到超寫實數字人的視頻生成領域。

下週關注重點

OpenAI 向所有 ChatGPT Plus 用户開放聯網功能和眾多插件！從 Alpha 到 Beta，它們將允許 ChatGPT 訪問互聯網並使用 70 多個第三方插件。這些插件包括創建新網站，文本轉音頻，購物比價下單，總結和分析 PDF 文檔，創建專屬自己的智能工作流等等，涵蓋日常生活的衣食住行各個方面。

AI 一週見聞：谷歌從模型到應用全面衝刺，OpenAI3D 建模只需 100 秒，Meta 開源新模型，AI 學會人類感知 | 見智研究

每週見聞

企業新品發佈

AI 黑科技

下週關注重點