結合文字、影像、聲音、景深、熱力、慣性　Meta 開源 ImageBind 實現跨模式應用

我們這幾個月來一直用到的文字、圖像以至影片生成式 AI，大多是從一種資料生成另一種資料，不過人類的推理結合不同感知能力。Meta 昨日繼 LLaMA、Segment Anything 等模型後，又再開源另一個與 AI 有關的項目 ImageBind，將 6 種模式資料綁定在同一個嵌入空間（Embedding Space），能實現跨模式的新型應用。

ImageBind 為 6 種模式（modality）——文字、聲音、影片及圖像、深度圖、熱力圖和慣性運動（IMU），提供一個單一嵌入空間互相關聯，開發人員不需要對每一種模式組合的資料進行訓練，也可以製作出跨模式的應用。現有的 AI 模型亦可透過 ImageBind 來接受更多種類資料輸入，例如聲音搜尋和跨模式生成等。

例如提供老虎的圖像，可以生成老虎吼叫的聲音，再加上瀑布的聲音的話，可以生成老虎和瀑布旁行過的影片。同時提供流水聲和生果的圖片，可以生成在洗碗盤洗生果的圖像。

Meta 提供了一個示範網站，供大眾了解 ImageBind 的功能。

在 Meta 最近的業績發表會上，CEO 朱克伯格曾表示 Meta 今後都會同時專注於 AI 和元宇宙，並將兩者結合起來。而 ImageBind 就可以將 3D 感測器和 IMU 慣性感測器結合，實現沉浸式虛擬空間，對發展元宇宙有幫助。

結合文字、影像、聲音、景深、熱力、慣性 Meta 開源 ImageBind 實現跨模式應用

最新影片

您會感興趣的內容

相關文章

結合文字、影像、聲音、景深、熱力、慣性　Meta 開源 ImageBind 實現跨模式應用