Meta 大動作!開源多感官 AI 模型,不僅能看會聽,還能 “感知温度”

華爾街見聞
2023.05.10 11:08
portai
I'm PortAI, I can summarize articles.

Meta 帶着 ImageBind 再次衝進 AI 戰場,當 AI 擁有了多種感官,且學會 “腦補”,Meta 的元宇宙夢還遠嗎?

前段時間,帶着開源模型 LlaMA“殺的” 谷歌和微軟 “措手不及” 的 Meta,又一次在 AI 戰場上丟下了一顆重磅炸彈。

今天,Meta 重磅開源了多感官 AI 模型 ImageBind(https://github.com/facebookresearch/ImageBind)。以視覺為核心,結合文本、聲音、深度、熱量(紅外輻射)、運動(慣性傳感器),最終可以做到 6 個模態之間任意的理解和轉換。

這也是第一個能夠整合六種類型數據的 AI 模型。

如何讓 AI 以更接近人類的方式理解這個世界?——也讓 AI 擁有多種感官,學會 “腦補”。

一張大海的照片可以讓我們的腦海裏響起海浪的聲音,回憶起海邊腥鹹的味道。當我們聽到瀑布聲,腦海裏便會浮現恢弘的瀑布奇觀。

Meta 指出,未來還將有其他可以被添加到模型中的感官輸入流,包括 “觸摸、講話、氣味和大腦 fMRI(功能性磁共振成像)信號”。與此同時,ImageBind 還可以進行跨模態檢索,如火車喇叭音頻,文本、深度、圖片和視頻。

儘管目前 ImageBind 只是一個研究項目,但它展示了未來人工智能生成多感官感知的可能性,或許也使 Meta 的元宇宙夢更近了。

Meta 在論文中解釋稱,他們把不同模態數據串聯在了一個嵌入空間(Embedding Space),讓其從多維度理解世界。

有網友評價道,imageBind 的出現使 AI 發展過程中又迎來了激動人心的時刻:

“這項創新為 AI 搜索能力、沉浸式 VR 體驗和更高級的 AI 技術鋪平了道路。對於 AI 愛好者和專業人士來説,激動人心的時刻即將到來!”。

有網友評論稱,ImageBind 的誕生就是為了模擬人類感知。ImageBind 面世,賈維斯也不遠了。

英偉達科學家 Jim Fan 點評道:自 LLaMA 以來,Meta 就在開源領域大放異彩。

不過,對於 Meta 開源大模型的做法,也有人提出了質疑。如 OpenAI 便表示,這種做法對創作者有害,競爭對手可以隨意複製且可能具有潛在的危險,允許惡意行為者利用最先進的人工智能模型。

更接近人類感知的元宇宙?

相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣簡單的將文字與圖像配對的生成器,ImageBind 試圖讓 AI 更接近人類的思考和感知方式:

可以連接文本、圖像/視頻、音頻、3D 測量(深度)、温度數據(熱)和運動數據(來自 IMU),且它無需先針對每一種可能性進行訓練,直接預測數據之間的聯繫,類似於人類感知或想象的方式。

這個模型利用到了圖像的綁定(binding)屬性,只要將每個模態的嵌入與圖像嵌入對齊,就會實現所有模態的迅速對齊。

簡單來説就是圖像成為了連接這些模態的橋樑。

例如 Meta 利用網絡數據將文本與圖像連接起來,或者利用帶有 IMU 傳感器的可穿戴相機捕捉到的視頻數據將運動與視頻連接起來。

Meta 在論文中指出,ImageBind 的圖像配對數據足以將這六種模態綁定在一起。

模型可以更全面地解釋內容,使不同的模態相互 “對話”,並找到它們之間的聯繫。

例如,ImageBind 可以在沒有一起觀察音頻和文本的情況下將二者聯繫起來。這使得其他模型能夠 “理解” 新的模態,而不需要任何資源密集型的訓練。

具體而言,ImageBind 利用網絡規模(圖像、文本)匹配數據,並將其與自然存在的配對數據(視頻、音頻、圖像、深度)相結合,以學習單個聯合嵌入空間。

這樣做使得 ImageBind 隱式地將文本嵌入與其他模態(如音頻、深度等)對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態上實現零樣本識別功能。

與此同時,Meta 表示,ImageBind 可以使用大規模視覺語言模型(如 CLIP)進行初始化,從而利用這些模型的豐富圖像和文本表示。因此,ImageBind 只需要很少的訓練就可以應用於各種不同模態和任務。

如果與其他 AI 結合,還可以做到跨模態的生成。

比如聽到狗叫畫出一隻狗,同時給出對應的深度圖和文字描述。

甚至還做到不同模態之間的運算,如鳥的圖像 + 海浪的聲音,得到鳥在海邊的圖像。

對此,Meta 在其官方博客中也説道,“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是,它能更好地一起分析許多不同形式的信息,從而推進人工智能的發展。”

Meta 團隊認為,ImageBind 為設計和體驗身臨其境的虛擬世界打開了大門。或許也讓 Meta 離幻想中的元宇宙世界更近了一步。

可以怎麼搜?

模型具體可以怎麼用?Meta 開放了模型演示,具體包括:

使用圖像檢索音頻

以圖像或視頻作為輸入,可以生成音頻。比如選擇一張小狗的圖片,就能夠檢索到狗吠的音頻。使用音頻檢索圖像

通過一個音頻片段,給出一張對應的圖。聽着鳥鳴,小鳥的圖片便出現了。

使用文本來檢索圖像和音頻

選擇下面的一個文本提示,ImageBind 將檢索與該特定文本相關的一系列圖像和音頻片段。

使用音頻 + 圖像來檢索相關圖像

給一段狗叫聲再加一張海灘的圖片。ImageBind 可以在幾分鐘內檢索出相關圖像。

得到了一張 “狗望海” 的圖:

使用音頻來生成圖像

要想實現音頻生圖像,ImageBind 需要和其他模型一起結合用,比如 DALL-E 2 等生成模型。

來個下雨嘩啦啦的聲音,身在其中的意境圖就來了。

ImageBind 的性能有多卓越?——打敗專家模型

在 Meta 研究科學家於近期發佈的題為《IMAGEBIND:一個嵌入空間綁定所有模態》(《IMAGEBIND: One Embedding Space To Bind Them All》https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)的論文中指出,ImageBind 模型的第一大優勢在於,僅通過很少的樣本及訓練,模型性能便可提高:

此前,往往需要收集所有可能的配對數據組合,才能讓所有模態學習聯合嵌入空間。

ImageBind 規避了這個難題,它利用最近的大型視覺語言模型,將零樣本能力擴展到新的模態。

Meta 的模型具有小模型所不具備的出色能力,這些性能通常只會在大模型中才會呈現。比如:音頻匹配圖片、判斷照片中的場景深度等等。

Meta 的研究表明,視覺模型越強,ImageBind 對齊不同模態的能力就越強。

在實驗中,研究人員使用了 ImageBind 的音頻和深度編碼器,並將其與之前在 zero-shot 檢索以及音頻和深度分類任務中的工作進行了比較。

結果顯示,ImageBind 可以用於少量樣本的音頻和深度分類任務,並且優於之前定製的方法。

而以圖像/視頻為中心訓練好 AI 後,對於原始數據中沒有直接聯繫的模態,比如語音和熱量,ImageBind 表現出湧現能力,把他們自發聯繫起來。

在定量測試中,研究人員發現,ImageBind 的特徵可以用於少樣本音頻和深度分類任務,並且可以勝過專門針對這些模態的先前方法。

在基準測試上,ImageBind 音頻和深度方面優於專家模型

比方説,ImageBind 在少於四個樣本分類的 top-1 準確率上,要比 Meta 的自監督 AudioMAE 模型和在音頻分類 fine-tune 上的監督 AudioMAE 模型提高了約 40% 的準確率。

Meta 希望,AI 開發者社區能夠探索 ImageBind,來開發其可以應用的新途徑。

Meta 認為,關於多模態學習仍有很多需要探索的地方。ImageBind 這項技術最終會超越目前的六種 “感官”,其在博客上説道,“雖然我們在當前的研究中探索了六種模式,但我們相信引入連接儘可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能。”