Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Tsinghua KEG Lab y Zhipu AI lanzaron conjuntamente CogAgent, un modelo de comprensión de imágenes de gran tamaño
Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.