Tsinghua KEG Lab y Zhipu AI lanzaron conjuntamente CogAgent, un modelo de comprensión de imágenes de gran tamaño

2023-12-28 08:27:29

Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.

VET3.37%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#July PPI Beats Expectations
40k Popularidad
#ETH ETFs Top $30B
42k Popularidad
#Gate Alpha Peak Trading Competition
149k Popularidad
#Gate Releases August Reserves Report
19k Popularidad
#BTC Hits New ATH
88k Popularidad

Anclado