Tsinghua KEG Lab và Zhipu AI cùng ra mắt CogAgent, một mô hình hiểu biết hình ảnh lớn

Bit News Tsinghua KEG Lab gần đây đã hợp tác với Zhipu AI để cùng nhau ra mắt một thế hệ mới của mô hình lớn hiểu biết hình ảnh CogAgent. Dựa trên CogVLM đã ra mắt trước đó, mô hình sử dụng các phương thức trực quan thay vì văn bản để cung cấp nhận thức toàn diện và trực tiếp hơn về giao diện GUI thông qua tác nhân GUI trực quan để lập kế hoạch và ra quyết định. Được biết, CogAgent có thể chấp nhận đầu vào hình ảnh độ phân giải cao 1120×1120, với trả lời câu hỏi trực quan, định vị trực quan (Grounding), GUI Agent và các khả năng khác, trong 9 danh sách hiểu biết hình ảnh cổ điển (bao gồm VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, v.v.) đã đạt được kết quả đầu tiên về khả năng chung.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)