سترى نماذج أساسية للإنسان الآلي تستخدم باستمرار بنية من نمط النظام 2 + النظام 1، والتي تستلهم في الواقع من الإدراك البشري.



تُبنى معظم نماذج الرؤية-اللغة-الإجراء (VLA) اليوم كنظم متعددة الوسائط مركزية تتعامل مع الإدراك واللغة والعمل ضمن شبكة واحدة.

تعتبر بنية كودك مثالية لذلك حيث تعالج كل مشغل كوحدة معزولة. مما يعني أنه يمكنك تشغيل عدة مشغلين في وقت واحد، كل واحد يقوم بتشغيل نموذج أو مهمة خاصة به، مع الحفاظ على احتوائها وتنسيقها من خلال نفس البنية.

تتمتع الروبوتات والبشر الآليين بشكل عام بعدة أدمغة، حيث قد يتولى أحد المشغلين معالجة الرؤية، بينما يتولى آخر التوازن، وآخر يقوم بالتخطيط على مستوى عالٍ، وغيرها من المهام، والتي يمكن تنسيقها جميعًا من خلال نظام كوديك.

نموذج مؤسسة Nvidia Issac GR00T N1 يستخدم معمارية النظام 2 + النظام 1 المكونة من وحدتين. النظام 2 هو نموذج رؤية-لغة (a نسخة من PaLM أو شيء مشابه، متعدد الوسائط) الذي يراقب العالم من خلال كاميرات الروبوت ويستمع إلى التعليمات، ثم يقوم بوضع خطة عالية المستوى.

النظام 1 هو سياسة محول انتشار تحول تلك الخطة إلى حركات مستمرة في الوقت الفعلي. يمكنك أن تفكر في النظام 2 على أنه الدماغ المدبر والنظام 1 على أنه وحدة التحكم الجسمية الغريزية. قد ينتج النظام 2 شيئًا مثل "تحرك نحو الكوب الأحمر، امسكه، ثم ضعه على الرف"، وسيقوم النظام 1 بإنشاء المسارات المفصلية التفصيلية للساقين والذراعين لتنفيذ كل خطوة بسلاسة.

تم تدريب النظام 1 على كميات هائلة من بيانات المسار ( بما في ذلك العروض التي تم التحكم فيها عن بُعد من قبل البشر وبيانات محاكاة الفيزياء ) لإتقان الحركات الدقيقة، بينما تم بناء النظام 2 على نموذج تحويل مع تدريب مسبق على الإنترنت ( لفهم المعاني ).

هذا الفصل بين التفكير والعمل قوي جدًا بالنسبة لـ NVIDIA. هذا يعني أن GR00T يمكنه التعامل مع المهام طويلة الأمد التي تتطلب التخطيط ( بفضل النظام 2) وأيضًا الاستجابة على الفور للاضطرابات ( بفضل النظام 1).

إذا كان الروبوت يحمل صينية وقام شخص ما بدفع الصينية، يمكن للنظام 1 تصحيح التوازن على الفور بدلاً من الانتظار حتى يلاحظ النظام 2 الأكثر بطئًا.

كان GR00T N1 واحدًا من أول نماذج الأساس الروبوتية المتاحة علنًا، وسرعان ما اكتسبت زخمًا.

من خارج الصندوق، أظهر مهارة عبر العديد من المهام في المحاكاة، حيث كان بإمكانه الإمساك بالأشياء وتحريكها بيد واحدة أو اثنتين، وتسليم العناصر بين يديه، وأداء المهام المتعددة الخطوات دون أي برمجة محددة للمهام. لأنه لم يكن مرتبطًا بتجسيد واحد، أظهر المطورون أنه يعمل على روبوتات مختلفة مع تعديلات بسيطة.

هذا صحيح أيضًا بالنسبة لنموذج أساس Helix (Figure الذي يستخدم هذا النوع من العمارة. يسمح Helix لروبوتين أو مهارات متعددة بالعمل، بينما يمكن أن يمكّن Codec دماغًا متعدد الوكلاء من خلال تشغيل عدة مشغلين يتشاركون المعلومات.

تصميم "الكبسولة المعزولة" يعني أن كل مكون يمكن أن يكون متخصصًا ) تمامًا مثل النظام 1 مقابل النظام 2( وحتى يتم تطويره بواسطة فرق مختلفة، ومع ذلك يمكنهم العمل معًا.

إنها نهج فريد من نوعه من حيث أن Codec يبني مجموعة البرمجيات العميقة لدعم هذه الذكاء الموزع والنمطي، بينما يركز معظم الآخرين فقط على نموذج الذكاء الاصطناعي نفسه.

كوديك يستخدم أيضًا نماذج مدربة مسبقًا كبيرة. إذا كنت تبني تطبيق روبوت عليه، يمكنك توصيل نموذج OpenVLA أو نموذج Pi Zero كجزء من المشغل الخاص بك. يوفر كوديك الموصلات، والوصول السهل إلى تدفقات الكاميرا أو واجهات برمجة تطبيقات الروبوت، لذا لن تحتاج إلى كتابة الشيفرة المنخفضة المستوى للحصول على الصور من كاميرا الروبوت أو لإرسال أوامر السرعة إلى محركاته. كل ذلك يتم تجريده خلف مجموعة أدوات تطوير عالية المستوى.

أحد الأسباب التي تجعلني متفائلاً بشأن Codec هو بالضبط ما outlines أعلاه. إنهم لا يتبعون الروايات، والهندسة معمارية مصممة لتكون الصمغ بين نماذج الأساس، وهي تدعم بسلاسة أنظمة متعددة العقول، وهو أمر حاسم لتعقيد البشر.

لأننا في بداية هذه الاتجاه، من الجدير دراسة تصاميم رواد الصناعة وفهم سبب نجاحها. إن الروبوتات من الصعب فهمها نظرًا للتعقيدات بين الأجهزة والبرمجيات، ولكن بمجرد أن تتعلم كيفية تحليل كل جزء قطعة قطعة، يصبح من الأسهل بكثير استيعابها.

قد يبدو الآن مضيعة للوقت، ولكن هذه هي نفس الطريقة التي أعطتني بداية مبكرة خلال فترة الذكاء الاصطناعي ولماذا كنت مبكراً في العديد من المشاريع. كن منضبطاً وتعلم أي المكونات يمكن أن تتعايش وأي المكونات لا تتوسع.

سيؤتي ثماره على مدار الأشهر القادمة.

ديكا تريليون ) $CODEC ( مشفر.
LL1.28%
VSN-1.46%
IN-8.84%
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت