英偉達帶火的具身智能是什麼？AI 價值遠比機器人更大

具身智能開創 AI 主動感知，擬人化學習的新時代，重點關注機器視覺和多模態大模型。

近日，“具身智能” 概念被英偉達創始人 CEO 黃仁勳帶火。

華爾街見聞·見智研究認為：具身智能帶來的 AI 價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界，用擬人化的思維路徑去學習，從而做出人類期待的行為反饋，而不是被動的等待數據投餵。在人類的五大感官中視覺獲取的信息佔比超過 80%，並且讓機器理解人類語言也是非常重要的，所以機器視覺和多模態大模型正是開啓機器自我感知學習的兩把鑰匙。

具身智能是什麼？

具身智能簡單來説就是 AI 的大腦加上軀體。它能夠跟我們生活的環境進行交互，從而展現出智能行為。

而具身智能為什麼被看作 AI 的 iPhone 時刻？

原來的人工智能可以看作第三人稱的智能，也就是投餵數據給機器，讓它學習什麼它就學習什麼。而現在具身智創造了一種機器自主學習的新方式，能夠以第一人稱的視角來感知和學習物理世界，並像人類一樣理解和感知事物的能力，才能在此基礎上進行相同思維的發展，最後表現出人類期待的行為方式。

Windows 為何能統治操作系統，iPhone 為何創造智能手機時代，最重要的原因就是他們創造了最簡單、最直觀的人機交互窗口。

發展人工智能的意義在於能夠讓機器造福人類，協助處理事務，提高生產力；更進一步則是讓 AI 進行創造，推動科學研究的進展。而這一切的前提是：要讓機器理解人類社會，要做到這一點，需要的就是具身智能。

見智研究認為：讓 AI 擬人化的進行感知和理解世界方式，視覺和聽覺是非常重要的。看見並理解物理世界中存在的事物，並且能夠聽懂人類的語言這背後需要的是機器視覺技術和多模態大模型。在具身智能領域的快速發展下，這兩大領域的技術創新和需求也會與日俱增。

具身智能比人形機器人更有價值

具身智能相當於 AI 的大腦，而這個大腦的載體可以是任何形式。可以是一個機械臂，一隻機器狗，更或者是一輛小汽車。

而反觀人形機器人，當下為何被看做是一個不太聰明的鋼鐵巨人，核心還是因為缺少 AI 大腦 + 不太靈活的軀體。

就像馬斯克所表示的，雖然未來有一天人人可能會擁有一個人形機器人，但是目前展現的 Optimus 人形機器人產品也就只能執行重複性的簡單勞動。

見智研究認為：我們真正需要的人形機器人目前還缺少具身智能特質。馬斯克也表示：未來會將特斯拉的視覺技術用於人形機器人的研發中。而對於具身智能和人形機器人所能夠創造的價值，也非常明瞭了。具身智能的應用場景沒有侷限性，所以市場空間更廣闊。

關注具身智能的硬實力

具身智能的硬實力包括：機器視覺和多模態大模型。

機器視覺是 AI 的感知工具，亦為數據生產的手段。在人類的五大感官中視覺獲取的信息佔比超過 80%。

機器視覺的端口是攝像頭，作為看懂世界的 “眼睛”；機器視覺的大腦是算法，承擔分析功能。

見智研究認為：相比於單純迭代硬件的參數指標，算法和架構的升級對於 AI 來説更重要。因為攝像頭的發展目前已經可以實現對物體的數據採集，無論是清晰度還是色彩度都已經卷到了夠用的程度。

值得關注的是，多模態大模型在機器領域的應用。無論是視覺圖像信號還是人類語言的聲音信號，最後都要轉化為機器能夠理解的語言，從而實現人機交互的目的。

從現階段應用來看，目前最好的是谷歌的 PaLM-E 大模型（參數 5620 億），可以將視覺和語言同時集成到機器人的控制中。這種大模型最大程度的解決了需要人工對數據進行預處理和注視的繁瑣流程，極大提高了機器理解的效率。通過將 PaLM-E 大模型集成到控制中，能夠直接通過攝像頭的數據實現對機器執行命令，並且具備一定程度的抗干擾能力。

小結

AI 的軀體其實並非是最要的，核心應該是發展 AI 大腦，打通人機交互方式，讓 AI 能夠主動感知物理世界，擬人化的思維路徑才能做到人類期待的行為反饋。機器視覺和多模態大模型正是開啓這個世界的兩把鑰匙。

英偉達帶火的具身智能是什麼？AI 價值遠比機器人更大 | 見智研究

具身智能是什麼？

具身智能比人形機器人更有價值

關注具身智能的硬實力

小結