** يستطيع أن يسمع ويرى ، ويعطي النموذج حواسًا مختلفة لفهم العالم! **
يمكن لنماذج اللغات الحالية واسعة النطاق ، مثل ChatGPT ، قبول النص فقط كمدخلات. حتى الإصدار الذي تمت ترقيته من GPT-4 يضيف فقط وظيفة إدخال الصورة ، ولا يمكنه التعامل مع البيانات النمطية الأخرى ، مثل الفيديو والصوت.
في الآونة الأخيرة ، اقترح باحثون من جامعة كامبريدج ، ومعهد نارا المتقدم للعلوم والتكنولوجيا ، وتينسنت بشكل مشترك وفتح المصدر التعليمات العامة التالية لنموذج PandaGPT ، وهو أيضًا أول من حقق طرائق متقاطعة ستة (صورة / فيديو ، نص ، صوت ، العمق والحرارة ووحدة IMU) لتنفيذ التعليمات باتباع النموذج الأساسي للبيانات.
رابط الورق:
رابط الكود:
بدون إشراف صريح متعدد الوسائط ، يوضح PandaGPT إمكانات قوية متعددة الوسائط لأداء مهام الفهم / الاستدلال المعقدة ، مثل إنشاء وصف تفصيلي للصورة ، وكتابة قصص مستوحاة من الفيديو ، والإجابة على أسئلة حول الصوت ، أو جولات متعددة من الحوار ، إلخ.
باختصار ، يتمثل الابتكار الأساسي لـ PandaGPT في أنه يمكنه قبول مدخلات نمطية متعددة في نفس الوقت ، والجمع بشكل طبيعي بين دلالات الأساليب المختلفة ، وتجاوز التحليل التقليدي أحادي النموذج ، وتوسيع سيناريوهات التطبيق النهائية ، والاقتراب من التنفيذ من AGI.
مثال
سؤال وجواب قائم على الصورة:
إجابة السؤال متعدد الجولات القائم على الصورة:
الأسئلة والأجوبة المستندة إلى الفيديو:
كتابة إبداعية مستوحاة من الصور / الفيديوهات:
القدرة على التفكير البصري:
قدرات الاستدلال الصوتي:
القدرة على فهم الوسائط المتعددة للصورة + الصوت:
قدرة الفهم متعدد الوسائط للفيديو + الصوت:
** متعدد الوسائط PandaGPT **
مقارنة بنموذج الذكاء الاصطناعي المحاصر في الكمبيوتر ، يمتلك البشر حواسًا متعددة لفهم العالم. يمكنهم رؤية صورة وسماع أصوات مختلفة في الطبيعة ؛ إذا كان بإمكان الجهاز أيضًا إدخال معلومات متعددة الوسائط ، فيمكن أن يكون أكثر شمولاً • حل المشكلات المختلفة.
تقتصر معظم الأبحاث متعددة الوسائط الحالية على طريقة واحدة ، أو مجموعة من النصوص والطرائق الأخرى ، تفتقر إلى النزاهة والتكامل في إدراك وفهم المدخلات متعددة الوسائط.
لجعل إدخال PandaGPT متعدد الوسائط قادرًا ، قام الباحثون بدمج مشفر ImageBind متعدد الوسائط مع نموذج لغة واسع النطاق Vicuna ، وكلاهما حقق أداءً قويًا للغاية في مهام متابعة التعليمات المرئية والصوتية.
في الوقت نفسه ، من أجل جعل المساحات المميزة للنموذجين متسقة ، استخدم الباحثون 160.000 من تعليمات لغة الصورة مفتوحة المصدر تتبع البيانات لتدريب PandaGPT ، حيث يتضمن كل تدريب صورة ومجموعة من الحوار متعدد الجولات البيانات ، والحوار يحتوي على كل أوامر بشرية وردود النظام.
لتقليل عدد المعلمات القابلة للتدريب ، قام الباحثون فقط بتدريب تمثيل ImageBind المستخدم لربط Vicuna ، وأوزان LoRA الإضافية على وحدة الانتباه الخاصة بـ Vicuna.
أثناء عملية التدريب ، بناءً على موارد الحساب الخاصة بـ 8 × A100 40G GPU ، إذا تم ضبط الحد الأقصى لطول التسلسل لـ Vicuna-13B على 400 ، فإن التدريب يستغرق حوالي 7 ساعات.
من الجدير بالذكر أن الإصدار الحالي من PandaGPT يتم تدريبه فقط باستخدام بيانات نصية متناسقة ، ولكن من خلال استخدام الأساليب الست (الصورة / الفيديو ، والنص ، والصوت ، والعمق ، والحرارية ، ووحدة IMU) الموروثة في برنامج تشفير ImageBind المجمد PandaGPT. ، قدرات طلقة صفرية عبر الوسائط.
حد
على الرغم من قدرة PandaGPT المذهلة على التعامل مع الطرائق المتعددة ومجموعات الطرائق ، إلا أن هناك عدة طرق يمكن من خلالها تحسين PandaGPT:
يمكن إثراء عملية التدريب على PandaGPT من خلال تقديم المزيد من بيانات المواءمة ، مثل الطرائق الأخرى (النص الصوتي) المطابقة مع النص
يستخدم الباحثون متجه تضمين واحد فقط لتمثيل محتوى شكلي غير النص ، وهناك حاجة إلى مزيد من البحث حول تشوهات استخراج الميزات الدقيقة. على سبيل المثال ، قد تكون آليات الانتباه عبر الوسائط مفيدة لتحسين الأداء
تستخدم PandaGPT حاليًا المعلومات متعددة الوسائط فقط كمدخلات ، وفي المستقبل ، قد تقدم محتوى وسائط متعددة أكثر ثراءً من جانب الجيل ، مثل إنشاء صور واستجابات نصية في الصوت.
هناك حاجة أيضًا إلى معايير جديدة لتقييم القدرة على الجمع بين المدخلات متعددة الوسائط
يمكن أن تظهر PandaGPT أيضًا العديد من المزالق الشائعة لنماذج اللغة الحالية ، بما في ذلك الهلوسة والسمية والقوالب النمطية.
أشار الباحثون أيضًا إلى أن PandaGPT هو حاليًا نموذج بحث أولي فقط ولا يمكن استخدامه بشكل مباشر في تطبيقات العالم الحقيقي.
** المواد المرجعية: **
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
فريق كامبردج الصيني مفتوح المصدر PandaGPT: أول نموذج أساسي واسع النطاق اكتسح "الأوضاع الستة"
** المصدر: Xinzhiyuan **
يمكن لنماذج اللغات الحالية واسعة النطاق ، مثل ChatGPT ، قبول النص فقط كمدخلات. حتى الإصدار الذي تمت ترقيته من GPT-4 يضيف فقط وظيفة إدخال الصورة ، ولا يمكنه التعامل مع البيانات النمطية الأخرى ، مثل الفيديو والصوت.
في الآونة الأخيرة ، اقترح باحثون من جامعة كامبريدج ، ومعهد نارا المتقدم للعلوم والتكنولوجيا ، وتينسنت بشكل مشترك وفتح المصدر التعليمات العامة التالية لنموذج PandaGPT ، وهو أيضًا أول من حقق طرائق متقاطعة ستة (صورة / فيديو ، نص ، صوت ، العمق والحرارة ووحدة IMU) لتنفيذ التعليمات باتباع النموذج الأساسي للبيانات.
رابط الكود:
بدون إشراف صريح متعدد الوسائط ، يوضح PandaGPT إمكانات قوية متعددة الوسائط لأداء مهام الفهم / الاستدلال المعقدة ، مثل إنشاء وصف تفصيلي للصورة ، وكتابة قصص مستوحاة من الفيديو ، والإجابة على أسئلة حول الصوت ، أو جولات متعددة من الحوار ، إلخ.
مثال
سؤال وجواب قائم على الصورة:
** متعدد الوسائط PandaGPT **
مقارنة بنموذج الذكاء الاصطناعي المحاصر في الكمبيوتر ، يمتلك البشر حواسًا متعددة لفهم العالم. يمكنهم رؤية صورة وسماع أصوات مختلفة في الطبيعة ؛ إذا كان بإمكان الجهاز أيضًا إدخال معلومات متعددة الوسائط ، فيمكن أن يكون أكثر شمولاً • حل المشكلات المختلفة.
تقتصر معظم الأبحاث متعددة الوسائط الحالية على طريقة واحدة ، أو مجموعة من النصوص والطرائق الأخرى ، تفتقر إلى النزاهة والتكامل في إدراك وفهم المدخلات متعددة الوسائط.
لجعل إدخال PandaGPT متعدد الوسائط قادرًا ، قام الباحثون بدمج مشفر ImageBind متعدد الوسائط مع نموذج لغة واسع النطاق Vicuna ، وكلاهما حقق أداءً قويًا للغاية في مهام متابعة التعليمات المرئية والصوتية.
في الوقت نفسه ، من أجل جعل المساحات المميزة للنموذجين متسقة ، استخدم الباحثون 160.000 من تعليمات لغة الصورة مفتوحة المصدر تتبع البيانات لتدريب PandaGPT ، حيث يتضمن كل تدريب صورة ومجموعة من الحوار متعدد الجولات البيانات ، والحوار يحتوي على كل أوامر بشرية وردود النظام.
لتقليل عدد المعلمات القابلة للتدريب ، قام الباحثون فقط بتدريب تمثيل ImageBind المستخدم لربط Vicuna ، وأوزان LoRA الإضافية على وحدة الانتباه الخاصة بـ Vicuna.
من الجدير بالذكر أن الإصدار الحالي من PandaGPT يتم تدريبه فقط باستخدام بيانات نصية متناسقة ، ولكن من خلال استخدام الأساليب الست (الصورة / الفيديو ، والنص ، والصوت ، والعمق ، والحرارية ، ووحدة IMU) الموروثة في برنامج تشفير ImageBind المجمد PandaGPT. ، قدرات طلقة صفرية عبر الوسائط.
حد
على الرغم من قدرة PandaGPT المذهلة على التعامل مع الطرائق المتعددة ومجموعات الطرائق ، إلا أن هناك عدة طرق يمكن من خلالها تحسين PandaGPT:
يمكن إثراء عملية التدريب على PandaGPT من خلال تقديم المزيد من بيانات المواءمة ، مثل الطرائق الأخرى (النص الصوتي) المطابقة مع النص
يستخدم الباحثون متجه تضمين واحد فقط لتمثيل محتوى شكلي غير النص ، وهناك حاجة إلى مزيد من البحث حول تشوهات استخراج الميزات الدقيقة. على سبيل المثال ، قد تكون آليات الانتباه عبر الوسائط مفيدة لتحسين الأداء
تستخدم PandaGPT حاليًا المعلومات متعددة الوسائط فقط كمدخلات ، وفي المستقبل ، قد تقدم محتوى وسائط متعددة أكثر ثراءً من جانب الجيل ، مثل إنشاء صور واستجابات نصية في الصوت.
هناك حاجة أيضًا إلى معايير جديدة لتقييم القدرة على الجمع بين المدخلات متعددة الوسائط
يمكن أن تظهر PandaGPT أيضًا العديد من المزالق الشائعة لنماذج اللغة الحالية ، بما في ذلك الهلوسة والسمية والقوالب النمطية.
أشار الباحثون أيضًا إلى أن PandaGPT هو حاليًا نموذج بحث أولي فقط ولا يمكن استخدامه بشكل مباشر في تطبيقات العالم الحقيقي.
** المواد المرجعية: **