Tsinghua KEG Lab і Zhipu AI спільно запустили CogAgent, велику модель для розуміння зображень

Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити