Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Tsinghua KEG Lab і Zhipu AI спільно запустили CogAgent, велику модель для розуміння зображень
Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.