OBOL 項目分享活動開啓!調研 Obol (OBOL) 項目,在Gate.io動態發布您的看法觀點,瓜分 $100 OBOL!
💰️ 選取10名優質發帖用戶,每人輕鬆贏取 $10 OBOL 獎勵!
項目簡介:
Obol 致力於分布式、去中心化和民主化未來的數字基礎設施——從以太坊開始,並擴展到整個 Web3 平台。作爲 Layer 1 區塊鏈和去中心化基礎設施網路的基礎,Obol Collective 擁有全球最大的去中心化運營商生態系統。目前,全球超過 800 個去中心化運營商運行 Obol 分布式驗證器 (DV),保障主網超過 10 億的資產安全,Obol 正在賦能下一代去中心化系統。
參與方式:
1.調研$OBOL項目,發表你對項目的見解。具體可包含但不限於:
🔹 Obol 是什麼?
🔹 Obol 去中心化驗證器有何優點?
🔹 $OBOL 代幣經濟模型如何運作?
2.帶上$OBOL現貨交易連結:https://www.gate.io/trade/OBOL_USDT
3.推廣$OBOL Launchpool 質押挖礦活動,分享OBOL Launchpool 參與步驟及質押福利,質押$GT、$BTC、$OBOL 免費瓜分2,250,000 $OBOL空投獎勵,年華收益率高達168%:https://www.gate.io/launchpool/OBOL?pid=291
劍橋華人團隊開源PandaGPT:首個橫掃「六模態」的大型基礎模型
來源:新智元
當下的大型語言模型,如ChatGPT只能接收文本作為輸入,即便升級版的GPT-4也只是增加了圖像輸入的功能,無法處理其他模態的數據,如視頻、音頻等。
最近,來自劍橋大學、奈良先端科學技術大學院大學和騰訊的研究人員共同提出並開源了通用指令遵循模型PandaGPT模型,也是首個實現了跨六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)執行指令遵循數據的基礎模型。
代碼鏈接:
在沒有明確多模態監督的情況下,PandaGPT就展現出了強大的多模態能力,可以執行複雜的理解/推理任務,如詳細的圖像描述生成、編寫視頻啟發的故事、回答有關音頻的問題,或是多輪對話等。
示例
基於圖片的問答:
多模態PandaGPT
和困在計算機內的AI模型相比,人類具有多種感官來了解世界,可以看一幅畫,可以聽到自然界的各種聲音;機器如果也能輸入多模態的信息,就可以更全面地解決各種問題。
目前多模態的研究大多數局限於單模態,或是文本與其他模態的組合,缺乏感知和理解多模態輸入的整體性和互補性。
為了讓PandaGPT具有多模態輸入能力,研究人員結合了ImageBind的多模態編碼器和大型語言模型Vicuna,二者在視覺和音頻基礎的指令遵循任務中都取得了非常強大的性能。
同時,為了使二個模型的特徵空間一致,研究人員使用開源的16萬個圖像-語言指令遵循數據來訓練PandaGPT,其中每個訓練實例包括一個圖像和一組多輪對話數據,對話中包含每輪人類的指令和系統的回复。
為了減少可訓練參數的數量,研究人員只訓練用來連接Vicuna的ImageBind表徵,以及Vicuna的注意力模塊上的額外LoRA權重。
值得注意的是,當前版本的PandaGPT只用對齊的圖像-文本數據進行訓練,但通過利用凍結的ImageBind編碼器中繼承的六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)的綁定屬性,PandaGPT展示出了湧現,即零樣本跨模態的能力。
限制
儘管PandaGPT在處理多模態及模態組合方面有驚人的能力,但還有幾種方法可以用來進一步改進PandaGPT:
PandaGPT的訓練過程可以通過引入更多對齊數據來豐富,比如其他與文本匹配的模態(音頻-文本)
研究人員對文本以外的模態內容只使用一個嵌入向量來表徵,還需要對細粒度的特徵提取畸形更多研究,如跨模態的注意力機制可能會對性能提升有好處
PandaGPT目前只是將多模態信息作為輸入,未來可能會在生成端引入更豐富的多媒體內容,比如在音頻中生成圖像和文字回复。
還需要有新的基準來評估多模態輸入的組合能力
PandaGPT也可以表現出現有語言模型的幾個常見缺陷,包括幻覺、毒性和刻板印象。
研究人員也指出,PandaGPT目前還只是一個研究原型,不能直接用於現實世界的應用。
參考資料: