劍橋華人團隊開源PandaGPT：首個橫掃「六模態」的大型基礎模型

2023-06-24 01:39:55

來源：新智元

**能聽還能看，給模型不同的感官理解世界！ **

當下的大型語言模型，如ChatGPT只能接收文本作為輸入，即便升級版的GPT-4也只是增加了圖像輸入的功能，無法處理其他模態的數據，如視頻、音頻等。

最近，來自劍橋大學、奈良先端科學技術大學院大學和騰訊的研究人員共同提出並開源了通用指令遵循模型PandaGPT模型，也是首個實現了跨六種模態（圖像/視頻、文本、音頻、深度、thermal和IMU）執行指令遵循數據的基礎模型。

論文鏈接：

代碼鏈接：

在沒有明確多模態監督的情況下，PandaGPT就展現出了強大的多模態能力，可以執行複雜的理解/推理任務，如詳細的圖像描述生成、編寫視頻啟發的故事、回答有關音頻的問題，或是多輪對話等。

總之，PandaGPT的核心創新在於可以同時接受多個模態輸入，並自然地組合不同模態的語義，超越傳統的單模態分析，擴展了下游應用場景，也更貼近AGI的實現方式。

示例

基於圖片的問答：

基於圖片的多輪問答：

基於視頻的問答：

受圖像/視頻啟發的創意性寫作：

視覺推理能力：

音頻推理能力：

圖片+音頻的多模態理解能力：

視頻+音頻的多模態理解能力：

和困在計算機內的AI模型相比，人類具有多種感官來了解世界，可以看一幅畫，可以聽到自然界的各種聲音；機器如果也能輸入多模態的信息，就可以更全面地解決各種問題。

目前多模態的研究大多數局限於單模態，或是文本與其他模態的組合，缺乏感知和理解多模態輸入的整體性和互補性。

為了讓PandaGPT具有多模態輸入能力，研究人員結合了ImageBind的多模態編碼器和大型語言模型Vicuna，二者在視覺和音頻基礎的指令遵循任務中都取得了非常強大的性能。

同時，為了使二個模型的特徵空間一致，研究人員使用開源的16萬個圖像-語言指令遵循數據來訓練PandaGPT，其中每個訓練實例包括一個圖像和一組多輪對話數據，對話中包含每輪人類的指令和系統的回复。

為了減少可訓練參數的數量，研究人員只訓練用來連接Vicuna的ImageBind表徵，以及Vicuna的注意力模塊上的額外LoRA權重。

訓練過程中，按照8×A100 40G GPU的計算資源來算，Vicuna-13B最大序列長度被設定為400的情況下，訓練需要大約7小時。

值得注意的是，當前版本的PandaGPT只用對齊的圖像-文本數據進行訓練，但通過利用凍結的ImageBind編碼器中繼承的六種模態（圖像/視頻、文本、音頻、深度、thermal和IMU）的綁定屬性，PandaGPT展示出了湧現，即零樣本跨模態的能力。

儘管PandaGPT在處理多模態及模態組合方面有驚人的能力，但還有幾種方法可以用來進一步改進PandaGPT：

研究人員也指出，PandaGPT目前還只是一個研究原型，不能直接用於現實世界的應用。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言