比特新聞 清華KEG實驗室近日與智浦AI合作,共同推出新一代圖像理解大模型CogAgent。 基於之前推出的CogVLM,該模型使用視覺模態而不是文本,通過可視化GUI代理提供更全面和直接的GUI介面感知,以進行規劃和決策。 據悉,CogAgent可以接受1120×1120高解析度圖像輸入,具備視覺問答、視覺定位(接地)、GUI代理等能力,在9個經典圖像理解清單(包括VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPE等)中取得了通用能力的第一成績。
清華大學KEG實驗室和知浦AI聯合推出CogAgent,一個大型圖像理解模型
比特新聞 清華KEG實驗室近日與智浦AI合作,共同推出新一代圖像理解大模型CogAgent。 基於之前推出的CogVLM,該模型使用視覺模態而不是文本,通過可視化GUI代理提供更全面和直接的GUI介面感知,以進行規劃和決策。 據悉,CogAgent可以接受1120×1120高解析度圖像輸入,具備視覺問答、視覺定位(接地)、GUI代理等能力,在9個經典圖像理解清單(包括VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPE等)中取得了通用能力的第一成績。