أطلق Tsinghua KEG Lab و Zhipu الذكاء الاصطناعي بشكل مشترك CogAgent ، وهو نموذج كبير لفهم الصور

تعاونت Bit News Tsinghua KEG Lab مؤخرا مع Zhipu الذكاء الاصطناعي لإطلاق جيل جديد من CogAgent الكبير لفهم الصور. استنادا إلى CogVLM الذي تم إطلاقه مسبقا ، يستخدم النموذج طرائق مرئية بدلا من النص لتوفير تصور أكثر شمولا ومباشرة لواجهة المستخدم الرسومية من خلال وكيل واجهة المستخدم الرسومية المرئية للتخطيط واتخاذ القرار. يذكر أن CogAgent يمكن أن يقبل إدخال صورة عالية الدقة 1120×1120 ، مع الإجابة على الأسئلة المرئية ، وتحديد المواقع المرئية (التأريض) ، وعامل واجهة المستخدم الرسومية وغيرها من القدرات ، في 9 قوائم فهم الصور الكلاسيكية (بما في ذلك VQAv2 ، STVQA ، DocVQA ، TextVQA ، MM-VET ، POPE ، إلخ) حققت النتيجة الأولى في القدرة العامة.

شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت