更多

    結合文字、影像、聲音、景深、熱力、慣性 Meta 開源 ImageBind 實現跨模式應用

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    我們這幾個月來一直用到的文字、圖像以至影片生成式 AI,大多是從一種資料生成另一種資料,不過人類的推理結合不同感知能力。Meta 昨日繼 LLaMA、Segment Anything 等模型後,又再開源另一個與 AI 有關的項目 ImageBind,將 6 種模式資料綁定在同一個嵌入空間(Embedding Space),能實現跨模式的新型應用。

    ImageBind 為 6 種模式(modality)——文字、聲音、影片及圖像、深度圖、熱力圖和慣性運動(IMU),提供一個單一嵌入空間互相關聯,開發人員不需要對每一種模式組合的資料進行訓練,也可以製作出跨模式的應用。現有的 AI 模型亦可透過 ImageBind 來接受更多種類資料輸入,例如聲音搜尋和跨模式生成等。

    例如提供老虎的圖像,可以生成老虎吼叫的聲音,再加上瀑布的聲音的話,可以生成老虎和瀑布旁行過的影片。同時提供流水聲和生果的圖片,可以生成在洗碗盤洗生果的圖像。

    Meta 提供了一個示範網站,供大眾了解 ImageBind 的功能。

    在 Meta 最近的業績發表會上,CEO 朱克伯格曾表示 Meta 今後都會同時專注於 AI 和元宇宙,並將兩者結合起來。而 ImageBind 就可以將 3D 感測器和 IMU 慣性感測器結合,實現沉浸式虛擬空間,對發展元宇宙有幫助。

    最新影片

    您會感興趣的內容

    相關文章