清華大學KEG實驗室和知浦AI聯合推出CogAgent,一個大型圖像理解模型

比特新聞 清華KEG實驗室近日與智浦AI合作,共同推出新一代圖像理解大模型CogAgent。 基於之前推出的CogVLM,該模型使用視覺模態而不是文本,通過可視化GUI代理提供更全面和直接的GUI介面感知,以進行規劃和決策。 據悉,CogAgent可以接受1120×1120高解析度圖像輸入,具備視覺問答、視覺定位(接地)、GUI代理等能力,在9個經典圖像理解清單(包括VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPE等)中取得了通用能力的第一成績。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)