العنوان الأصلي: "وراء نموذج" جيانغ زيا "، تطور فريق ذكاء اصطناعي محترف"
منذ أن طور العلماء أول برنامج للذكاء الاصطناعي في عام 1956 ، تم تطوير الذكاء الاصطناعي لما يقرب من 70 عامًا. خلال هذه الفترة ، كان هناك العديد من المد والجزر ، ولكن هناك خيط رئيسي واحد يمر عبرها: هذا هو "النمذجة" - نسبة "النموذج" في الذكاء الاصطناعي تزداد أعلى فأكثر. بلغ هذا الاتجاه ذروته بعد ظهور نموذج اللغة الكبير ChatGPT.
"نحن نؤمن إيمانًا راسخًا بأن مستقبل الذكاء الاصطناعي هو عالم النماذج ، ولا يمكننا المبالغة في التأكيد على النماذج."
في 22 يوليو ، في مؤتمر AGI Playground الذي استضافه Geek Park ، قال Zhang Jiaxing ، رئيس عالم الحوسبة المعرفية واللغة الطبيعية في معهد أبحاث IDEA (الاقتصاد الرقمي في منطقة خليج قوانغدونغ - هونغ كونغ - ماكاو الكبرى).
في عام 2021 ، قاد Zhang Jiaxing فريق CCNL Fengshenbang التابع لمعهد أبحاث IDEA لإنشاء أكبر نظام نموذجي صيني مفتوح المصدر للتدريب المسبق "Fengshenbang" ، وهو "رائد" النموذج. لقد شهدوا "النقلة النوعية" التي أحدثتها النماذج الكبيرة.
يعتقد Zhang Jiaxing أن هذا النقل يتضمن كلمتين رئيسيتين ، "تختفي" و "شكل". يعني "الاختفاء" أنه ** مع وصول نموذج كبير للأغراض العامة لـ ChatGPT ، تختفي أنواع معينة من النماذج المستخدمة لاستخراج المعلومات والأسئلة والأجوبة وإخراج النص **. "التكوين" يعني أن القدرة على اختبار الهندسة خلف النموذج الكبير ستشكل مكانًا بيئيًا جديدًا ** من ولادة النموذج إلى الضبط الدقيق للهبوط.
معهد أبحاث IDEA يعمل CCNL أيضًا على وضع مكانة بيئية جديدة.
بالإضافة إلى تطوير نموذج كامل السعة في الوقت الحاضر ، أنشأ فريق Fengshenbang نموذجًا كبيرًا للأغراض العامة لـ "Jiang Ziya" (Ziya) استنادًا إلى LLaMa ، والذي تم تطبيقه على سيناريوهات مثل البشر الرقميين وكتابة النصوص. منذ حوالي شهر ، قاموا أيضًا بتدريب سلسلة من نماذج الخبراء ، مثل النماذج متعددة الوسائط ، ونماذج الأكواد ، ونماذج الكتابة ، ونماذج الحوار ، وما إلى ذلك. يمكن أن يساعد هذا الأخير المستخدمين في كتابة المقالات ، وكتابة نصوص الوسائط الجديدة ، ونصوص البث المباشر ، والملصقات الترويجية ، وحتى الروايات عبر الإنترنت.
يعتقد Zhang Jiaxing أنه في هذا النظام البيئي الضخم ، يمكن لرجال الأعمال التفكير في مكان احتلال المكانة البيئية بناءً على نقاط القوة الخاصة بهم. وقال: "يمكن لأي شخص مهتم بالدخول في مجال العارضات الكبيرة أن يجد مكانه فيه".
فيما يلي النص الكامل لخطاب تشانغ جياشينغ في مؤتمر AGI Playground ، الذي حرره Geek Park:
في مؤتمر AGI Playground الذي استضافه Geek Park ، ألقى Zhang Jiaxing خطابًا
01. ** عصر النموذج الكبير: نموذج جديد وبيئة جديدة **
في هذا العام ، عندما نتحدث عن النماذج الكبيرة والذكاء الاصطناعي ، فإننا دائمًا ما نأخذ نماذج كبيرة كمسألة بالطبع في الذكاء الاصطناعي. للمضي قدمًا ، حتى لو عدنا إلى عام 1997 ، فإن الشيء المهم للغاية هو أن "ديب بلو" هزم "كاسباروف". حتى نظام الذكاء الاصطناعي هذا لا يحتوي على نموذج تعلم عميق فيه.
بدأت عملية تطوير الذكاء الاصطناعي بأكملها في عام 1956 ، واستغرقت 70 عامًا. على الرغم من أن الذكاء الاصطناعي شهد العديد من المد والجزر ، يمكننا أن نجد أن تطوير الذكاء الاصطناعي كان يسير على طول الخط ، وهو عملية نمذجة الذكاء الاصطناعي - تزداد نسبة النماذج في الذكاء الاصطناعي أقوى وأقوى. ** اليوم نعتقد اعتقادًا راسخًا أنه في المستقبل ستهيمن النماذج على الذكاء الاصطناعي ، ولا يمكننا المبالغة في التركيز على النماذج **.
الصورة: Zhang Jiaxing يتحدث عن عملية "النمذجة" للذكاء الاصطناعي
نقول جميعًا أن النموذج الكبير هذه المرة هو تغيير في "النموذج التقني" ، والذي يمكن تلخيصه في كلمتين رئيسيتين ، "تختفي" و "شكل".
** الاختفاء يشير إلى اختفاء النوع **. منذ نصف عام ، كان مجال الذكاء الاصطناعي بأكمله مغمورًا بأنواع مختلفة من هياكل ومهام الذكاء الاصطناعي. على سبيل المثال ، من حيث الهيكل ، هناك العديد من الهياكل النموذجية مثل BERT و T5. على سبيل المثال ، من حيث المهام ، هناك مهام مختلفة مثل التصنيف واستخراج المعلومات وكتابة الملخصات والأسئلة والأجوبة. ومع ذلك ، مع ظهور عصر النماذج الكبيرة للأغراض العامة ، يختفي هذا التنوع.
في الوقت الحالي ، هيكل النموذج الوحيد هو GPT ، والمهام الوحيدة هي إدخال النص وإخراج النص. لذا فإن مفاهيم الذكاء الاصطناعي السابقة ، مثل تحليل الجمل والكلمات الرئيسية والمفاهيم الأخرى ، قد تلاشت تدريجياً من مجال رؤيتنا. علاوة على ذلك ، لم يعد استخدام النماذج اليوم وفقًا لتقدير مزود التقنية ، ولكن وفقًا لتقدير العميل الذي يستخدمها.
** ويشير "التكوين" إلى تكوين سلسلة الإنتاج **. يتطلب بناء النموذج استثمارًا ضخمًا للموارد ، ولا يمكن لأي شخص تقريبًا إكمال هذه المهمة من البداية إلى النهاية بمفرده. إنها تتطلب فريقًا ضخمًا والكثير من القوة الحاسوبية وراءها لصقلها. من المفهوم الأولي للنموذج ، إلى الضبط الدقيق للمراحل المختلفة في الوسط ، وإلى ممارسة الهبوط النهائية ، يشكل هذا سلسلة إنتاج كاملة.
من "الاختفاء" و "التكوين" ، يمكننا أن نرى "نقلة نوعية" للنموذج الكبير. في بعض الأحيان ، يكون التقدم التكنولوجي بلا هوادة ، ومستقلًا عن إرادة الفرد ، وستحل النماذج التكنولوجية الجديدة محل النماذج التكنولوجية القديمة.
إذن ، ما هي قيمة النماذج الكبيرة مثل هذا النموذج التكنولوجي الجديد؟ في رأيي ، يجلب أربع قيم جديدة تمامًا:
** 1 فهم جديد تمامًا **
من حيث فهم اللغة الطبيعية ، فإن النموذج الكبير الحالي يتجاوز بكثير جميع النماذج السابقة. يبدو أنه يفهم حقًا معنى كل كلمة لدينا. في حين أن الإجابات قد لا تكون دقيقة تمامًا ، يظهر مستوى جديد تمامًا من الفهم.
** 2 أدوات جديدة تمامًا **
إنها ليست فقط أداة لتحسين الكفاءة ، ولكن يمكنها أيضًا تحرير الناس من العمل الشاق. إنها أيضًا أداة إبداعية يمكنها إنشاء أشياء لا يستطيع البشر إنشاؤها. على سبيل المثال ، أظهر نموذج الانتشار العام الماضي إمكانات الرسم البياني لـ Vinsen.
** 3 واجهة جديدة **
في الماضي ، كان علينا كتابة برامج للوصول إلى البيانات وواجهات برمجة التطبيقات ، ولكن الآن ، يبدو أننا لم نعد بحاجة إلى كتابة أكواد مرهقة ، فنحن نحتاج فقط إلى الوصف بلغة طبيعية ، ويمكن للنموذج الكبير إنشاء أكواد تلقائيًا.
** 4 محركات جديدة **
النموذج الكبير ليس مجرد نقطة واحدة للقدرة ، بل يمكن استخدامه كمحرك لاسترجاع المعلومات وتوليد الحوار وحتى إنشاء القصة.
يجلب النموذج الكبير أيضًا بيئة جديدة ، وهي كيفية الاندماج مع الصناعة وتنفيذها.
نعتقد أن النماذج الكبيرة ليست مجرد واجهات برمجة تطبيقات بسيطة ، أو نماذج غير قابلة للتغيير. نؤكد أنه بعد أن تنتج شركة المنبع النموذج ، يحتاج عملاء المصب إلى إجراء مزيد من التدريب وتشغيل الميل الأخير. بهذه الطريقة ، يمكن تضمين النموذج في السيناريو الخاص بكل عميل. نظرًا لأداء النموذج بشكل أفضل ، يتم جمع المزيد من البيانات ، مما يؤدي بدوره إلى تقوية النموذج. يمكن أن يؤدي هذا حقًا إلى تعزيز تطوير الصناعة بأكملها.
في هذه البيئة الجديدة ، فإن الشركة التي تصنع النموذج الأساسي هي الأكثر انتشارًا ، وهناك العديد من الفرق أسفل النموذج الأساسي ، والتي ستركز على نماذج قدرات أو مجالات محددة. للمتابعة ، يجب التعاون مع شركات الحلول والشركات المصنعة للسحابة ومصنعي الأجهزة لإنشاء مجموعة متنوعة من المنتجات ، وأخيراً خدمة المؤسسات والحكومات المقصودة.
الصورة: البيئة الجديدة للنموذج الكبير التي وصفها تشانغ جياشينغ
من النموذج الأساسي إلى التنفيذ الحقيقي ، يتضمن هذا الكثير من الروابط والروابط ، كما أدى إلى ولادة العديد من المنافذ البيئية الجديدة. أعتقد أنه يمكن للجميع الجمع بين نقاط قوتهم والتفكير في المكان الذي يريدون احتلاله في هذا النظام البيئي. في الواقع ، يمكن لأي شخص يرغب في تكريس نفسه لمجال النماذج الكبيرة أن يجد مكانه فيه.
02. ** خلف الموديل الكبير لـ "Jiang Ziya" **
لقد كنا فريقًا لمدة عامين ، ومن الواضح من تجربتنا أن هذا التحول في النموذج قد أثر علينا.
حتى نهاية العام الماضي ، كنا نطور عددًا كبيرًا من نماذج المصادر المفتوحة ، ونقوم بعمل هياكل وأنواع مختلفة من النماذج. في عام واحد فقط ، قمنا بفتح 98 موديل من المصادر ، مسجلاً رقماً قياسياً في المجال الصيني.
ومع ذلك ، في نهاية العام الماضي ، ظهر نموذج Wen Shengtu فجأة كمنتج ساخن. لذلك بدأنا في الالتفاف وصنعنا أول نموذج مفتوح المصدر للانتشار المستقر باللغة الصينية ، والذي نسميه نموذج "Taiyi". نأمل في مواكبة التغييرات التكنولوجية للنماذج الكبيرة.
في العصر الحالي للنماذج الكبيرة للأغراض العامة ، ما يعمل فريقنا على العمل الإضافي هو تدريب أفضل النماذج الكبيرة لقاعدة مفتوحة المصدر للصينية. يُعرف هذا باسم LLaMA2. قمنا بتدريب 20B Tokens. وبالمقارنة مع نموذج "ziya-LLaMA-13B" الذي تم تدريبه سابقًا ، زادت سرعة التدريب بنسبة 38٪ ، مما أدى إلى حل مشكلة "رحلة التدريب" غير المستقرة (التدريب غير الطبيعي) أثناء عملية التدريب.
الشكل: بعد تدريب الرمز 20B ، يحل LLaMA2 مشكلة "رحلة التدريب" غير المستقرة أثناء عملية التدريب
بعد أن نقوم بتدريب هذا النموذج ، سيكون مفتوح المصدر بالكامل ، ولن تكون هناك قيود على التطبيقات التجارية. في الوقت نفسه ، نعد بمواصلة تدريب هذا النموذج ، على أمل توفير أفضل قاعدة نموذجية مفتوحة المصدر ومتاحة تجاريًا لمجتمع النماذج الكبير بأكمله.
في ظل النموذج التكنولوجي الحالي ، أثار تقديم ChatGPT هذا العام الكثير من الناس ، قائلين إن النموذج الكبير للأغراض العامة سيعطل جميع مناحي الحياة. ومع ذلك ، مع مرور الوقت ، هدأنا واكتشفنا أن ** النموذج الكبير هو في الواقع مجرد تنقية وتحسين للمشهد الحالي **. لذلك ، ندرك أنه لا يزال هناك العديد من الاحتمالات والفرص لتطبيق النماذج الكبيرة في الصناعات العمودية والمجالات والقدرات.
منذ حوالي شهر ، أنتج فريقنا سلسلة من النماذج الخبيرة ، مثل النماذج متعددة الوسائط ، ونماذج الأكواد ، ونماذج الكتابة ، ونماذج الحوار ، وما إلى ذلك. تم إطلاق سراح العديد منهم بالفعل وهم في أفضل مستوى في هذا المجال.
لقد فتحنا مؤخرًا نموذج التعاون الصيني المسمى "Ziya Writing". نأمل أن يصبح هذا النموذج مساعدًا خارج الصندوق لتقديم الدعم للمؤسسات والأفراد لتحسين الكفاءة. على سبيل المثال ، يمكن لموظفي الحكومة أن يطلبوا من ضياء الكتابة للمساعدة في كتابة تقرير عن الكارثة ، أو كتابة خطاب زعيم في حفل الافتتاح ، لأنه يناسب أسلوب تقرير السياسة جيدًا.
بالإضافة إلى ذلك ، يمكنه أيضًا تحرير المبدعين والمشغلين والمسوقين من المجتمع الصيني للمساعدة في كتابة أنواع مختلفة من المقالات وكتابة النصوص والمقالات الإلكترونية وحتى إنشاء قصص قصيرة ممتازة ، أو حتى رواية على شبكة الإنترنت حول القصص الخيالية القديمة. يمكننا أن نرى أنه يحتوي على أداء جيد جدًا من حيث منطق هيكل الفصل وسرد القصة.
قمنا أيضًا بتطوير حزمة استرجاع تستخدم 100 مليون معلمة فقط. إنه يعمل بشكل أفضل من بعض الحلول الحالية في كل من المجالات القانونية والمالية ، حتى أفضل من أفضل نماذج المتجهات المفتوحة المصدر حاليًا. يمكن أن تكون مجموعة أدواتنا أيضًا مساعدًا قليلاً في الصناعة المالية ، حيث تساعد الباحثين والمحللين.
لماذا يمكننا إنتاج العديد من النماذج عالية الجودة؟
خلفها ** العديد من التراكمات ، بما في ذلك نظام التدريب ثلاثي المراحل (تدريب ما قبل التدريب ، والضبط الدقيق لـ SFT تحت الإشراف ، وتعلم التغذية المرتدة البشرية RLHF) ** ، بما في ذلك كمية كبيرة من البيانات عالية الجودة المتراكمة ، وبعض الخوارزميات المطورة ذاتيًا ، وتساقطها في نظام التدريب لدينا.
يدعم كل نموذج من نماذجنا كلاً من الإصدارات مفتوحة المصدر والإصدارات التجارية ، ونفوض شركائنا بأداء التدريب والضبط الدقيق ، مما يسمح لهم بإجراء تدريب خاص في إطار سيناريوهاتهم الخاصة.
من الصغير إلى الكبير ، تعكس التغييرات من أحد فرقنا أيضًا التغييرات في النموذج الفني الحالي في مجال النماذج الكبيرة.
03 ، ** أسئلة في الموقع **
الشكل: يقبل فريق IDEA الأسئلة في الموقع
** س: كيف تنظر إلى بنية استدلال الأجهزة المستقبلية؟ هل ستكون الأجهزة المستقبلية "متكاملة مع التدريب والترويج" لفترة طويلة ، أم ستكون هناك فرص لرقائق تفكير مخصصة؟ **
** Zhang Jiaxing **: في الأصل ، كان لدينا نوعان من الرقائق للتدريب والاستدلال ، ولكن من الواضح أن شريحة التفكير الحالية لا يمكن أن تتكيف مع النموذج الكبير الحالي.
لذلك في الوقت الحالي ، بشكل أساسي من حيث قيود الأجهزة ، هناك المزيد من "تكامل التدريب والدفع". والميزة الكبرى لدمج التدريب والدفع هي أنه يمكن إعادة استخدام قوة الحوسبة. قد لا يكون تفكيرنا دائمًا محملاً بالكامل ، لذلك يمكننا الاستفادة الكاملة من وقت الحوض الصغير للتدريب ، والذي يُنظر إليه أيضًا من منظور الوقت الاقتصادي.
في المستقبل ، لا يزال لرقائق التفكير معناها. في بعض السيناريوهات ، مثل المحطات الطرفية المتنقلة أو الحوسبة المتطورة أو الأجهزة المحمولة على السيارة ، لا تزال هناك حاجة إلى شرائح استدلال مخصصة خاصة. حتى في السحابة والخوادم ، إذا كان من الممكن تحسين شريحة الاستدلال بشكل أفضل نحو استهلاك منخفض للطاقة أو جوانب أخرى ، فلا يزال لها معنى. أعتقد أنه لا يزال يتعين تخصيص شرائح مخصصة لأشياء متخصصة في المستقبل.
** س: بالنسبة لبعض التطبيقات الرأسية ، من أي زوايا يجب أن نجمع البيانات؟ كيف يتم إنشاء مجموعة بيانات عالية الجودة؟ **
** Zhang Jiaxing **: في الواقع ، يتم أيضًا جمع بياناتنا بالكامل بشكل تدريجي. منذ البداية ، لا يوجد سوى 20 أو 30 مجموعة بيانات. لكن من خلال التدريب ببطء ، على سبيل المثال ، أي جزء من القدرة مفقود ، سنجمع بعض هذه البيانات بطريقة مستهدفة ، وفي نفس الوقت سنجمع بعضًا من خبراتنا الخاصة ، مثل معالجة بعض البيانات وما شابه ذلك.
أخيرًا ، إذا لم يكن هناك شيء من هذا القبيل ، فسنقوم ببناء بعض البيانات بأنفسنا. على سبيل المثال ، بالنسبة للمحادثات متعددة الأشخاص ، وما إلى ذلك ، لدينا مجموعة متنوعة من أنواع مجموعات البيانات المختلفة فيها.
** س: لماذا يوجد الكثير من نماذج القدرات الخاصة؟ لماذا لا يتم تعزيز هذه القدرات في نفس الوقت على نفس النموذج؟ **
** Zhang Jiaxing **: لدينا عدة اعتبارات. الأول هو أننا اخترنا حجم النموذج مقدمًا. بعد اختيار حجم النموذج ، نريد أن يتمتع النموذج بالإمكانيات. هذا اقتراح في ظل ظروف محدودة. هذه ميزة تكلفة كبيرة جدًا.
في هذا الوقت ، أريد أن أضع كل القدرات في نموذج واحد كبير ، لكن هذه القدرات متنافية من حيث الزمان والمكان. فيما يتعلق بالمساحة ، بعض القدرات متنافية ، على سبيل المثال ، عندما قمنا بطرح أسئلة منطقية ، مثل أسئلة الرياضيات وكتابة الأسئلة ، كانت متعارضة. بالإضافة إلى ذلك ، هناك تعارض زمني ، ففي لحظة معينة تكون هناك قدرة معينة هي الأقوى ، لكن قد لا تكون القدرات الأخرى قوية جدًا.
نظرًا لأن سيناريوهات المصب لا تتطلب سوى قدرة واحدة ، فإننا ببساطة نختار مجموعات بيانات معينة لتدريب مهام معينة ، وهي نماذج مخصصة.
** س: ذكرت أنه تم حل مشكلة "الطيران التدريبي" غير المستقر ، كيف تم حلها؟ **
** Zhang Jiaxing **: هناك نقطة أساسية هنا. أولاً ، قمنا بتعديل تدريبنا. لقد أجرينا تغييرات على طبقة الكود المصدري أثناء التدريب الموزع. في الواقع ، استقرار التدريب أقوى بكثير. عندما قمنا بتدريب Ziya-LLaMA-13B ، كان منحنى مجموعة التدريب تلك مستقرًا. نحن فريق نموذجي كبير يركز بشكل كبير على تكنولوجيا التدريب ، وهو أيضًا ضمان لنا لمواصلة صنع نماذج جيدة.
** س: بالنسبة لمناقشة الملك العام والنماذج الكبيرة المخصخصة ، هل يجب خصخصة النموذج؟ على سبيل المثال ، إذا كنت أرغب في تقديم تطبيق إلى C ، ألا يمكنني إجراء نشر مخصخص؟ **
** Zhang Jiaxing **: أولاً ، وجدنا أن شركائنا لديهم بعض متطلبات الامتثال لأمن البيانات والخصوصية ، ولا يمكن استخدام بياناتهم للتدريب باستخدام النماذج العامة. ثانيًا ، يجب أن يكون لديهم مشهد متعمق ومتطلبات مخصصة ، وبغض النظر عما إذا كان منتجًا إلى B أو منتجًا C ، فإنهم جميعًا يأملون في استخدامه في المشهد الخاص بهم.
في هذا الوقت ، لا يمكن للنموذج العام الكبير أو قاعدة النموذج العام الكبير تلبية جميع احتياجاتهم بالكامل ، لذلك أصبح التدريب الخاص والنشر الخاص أمرًا ضروريًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
وجهة نظر: في المستقبل ، ستحكم النماذج الذكاء الاصطناعي ، ولا يمكن المبالغة في تقدير أهمية النماذج
المصدر: Geek Park
المؤلف: شينغ فو
العنوان الأصلي: "وراء نموذج" جيانغ زيا "، تطور فريق ذكاء اصطناعي محترف"
منذ أن طور العلماء أول برنامج للذكاء الاصطناعي في عام 1956 ، تم تطوير الذكاء الاصطناعي لما يقرب من 70 عامًا. خلال هذه الفترة ، كان هناك العديد من المد والجزر ، ولكن هناك خيط رئيسي واحد يمر عبرها: هذا هو "النمذجة" - نسبة "النموذج" في الذكاء الاصطناعي تزداد أعلى فأكثر. بلغ هذا الاتجاه ذروته بعد ظهور نموذج اللغة الكبير ChatGPT.
"نحن نؤمن إيمانًا راسخًا بأن مستقبل الذكاء الاصطناعي هو عالم النماذج ، ولا يمكننا المبالغة في التأكيد على النماذج."
في 22 يوليو ، في مؤتمر AGI Playground الذي استضافه Geek Park ، قال Zhang Jiaxing ، رئيس عالم الحوسبة المعرفية واللغة الطبيعية في معهد أبحاث IDEA (الاقتصاد الرقمي في منطقة خليج قوانغدونغ - هونغ كونغ - ماكاو الكبرى).
في عام 2021 ، قاد Zhang Jiaxing فريق CCNL Fengshenbang التابع لمعهد أبحاث IDEA لإنشاء أكبر نظام نموذجي صيني مفتوح المصدر للتدريب المسبق "Fengshenbang" ، وهو "رائد" النموذج. لقد شهدوا "النقلة النوعية" التي أحدثتها النماذج الكبيرة.
يعتقد Zhang Jiaxing أن هذا النقل يتضمن كلمتين رئيسيتين ، "تختفي" و "شكل". يعني "الاختفاء" أنه ** مع وصول نموذج كبير للأغراض العامة لـ ChatGPT ، تختفي أنواع معينة من النماذج المستخدمة لاستخراج المعلومات والأسئلة والأجوبة وإخراج النص **. "التكوين" يعني أن القدرة على اختبار الهندسة خلف النموذج الكبير ستشكل مكانًا بيئيًا جديدًا ** من ولادة النموذج إلى الضبط الدقيق للهبوط.
معهد أبحاث IDEA يعمل CCNL أيضًا على وضع مكانة بيئية جديدة.
بالإضافة إلى تطوير نموذج كامل السعة في الوقت الحاضر ، أنشأ فريق Fengshenbang نموذجًا كبيرًا للأغراض العامة لـ "Jiang Ziya" (Ziya) استنادًا إلى LLaMa ، والذي تم تطبيقه على سيناريوهات مثل البشر الرقميين وكتابة النصوص. منذ حوالي شهر ، قاموا أيضًا بتدريب سلسلة من نماذج الخبراء ، مثل النماذج متعددة الوسائط ، ونماذج الأكواد ، ونماذج الكتابة ، ونماذج الحوار ، وما إلى ذلك. يمكن أن يساعد هذا الأخير المستخدمين في كتابة المقالات ، وكتابة نصوص الوسائط الجديدة ، ونصوص البث المباشر ، والملصقات الترويجية ، وحتى الروايات عبر الإنترنت.
يعتقد Zhang Jiaxing أنه في هذا النظام البيئي الضخم ، يمكن لرجال الأعمال التفكير في مكان احتلال المكانة البيئية بناءً على نقاط القوة الخاصة بهم. وقال: "يمكن لأي شخص مهتم بالدخول في مجال العارضات الكبيرة أن يجد مكانه فيه".
فيما يلي النص الكامل لخطاب تشانغ جياشينغ في مؤتمر AGI Playground ، الذي حرره Geek Park:
01. ** عصر النموذج الكبير: نموذج جديد وبيئة جديدة **
في هذا العام ، عندما نتحدث عن النماذج الكبيرة والذكاء الاصطناعي ، فإننا دائمًا ما نأخذ نماذج كبيرة كمسألة بالطبع في الذكاء الاصطناعي. للمضي قدمًا ، حتى لو عدنا إلى عام 1997 ، فإن الشيء المهم للغاية هو أن "ديب بلو" هزم "كاسباروف". حتى نظام الذكاء الاصطناعي هذا لا يحتوي على نموذج تعلم عميق فيه.
بدأت عملية تطوير الذكاء الاصطناعي بأكملها في عام 1956 ، واستغرقت 70 عامًا. على الرغم من أن الذكاء الاصطناعي شهد العديد من المد والجزر ، يمكننا أن نجد أن تطوير الذكاء الاصطناعي كان يسير على طول الخط ، وهو عملية نمذجة الذكاء الاصطناعي - تزداد نسبة النماذج في الذكاء الاصطناعي أقوى وأقوى. ** اليوم نعتقد اعتقادًا راسخًا أنه في المستقبل ستهيمن النماذج على الذكاء الاصطناعي ، ولا يمكننا المبالغة في التركيز على النماذج **.
نقول جميعًا أن النموذج الكبير هذه المرة هو تغيير في "النموذج التقني" ، والذي يمكن تلخيصه في كلمتين رئيسيتين ، "تختفي" و "شكل".
** الاختفاء يشير إلى اختفاء النوع **. منذ نصف عام ، كان مجال الذكاء الاصطناعي بأكمله مغمورًا بأنواع مختلفة من هياكل ومهام الذكاء الاصطناعي. على سبيل المثال ، من حيث الهيكل ، هناك العديد من الهياكل النموذجية مثل BERT و T5. على سبيل المثال ، من حيث المهام ، هناك مهام مختلفة مثل التصنيف واستخراج المعلومات وكتابة الملخصات والأسئلة والأجوبة. ومع ذلك ، مع ظهور عصر النماذج الكبيرة للأغراض العامة ، يختفي هذا التنوع.
في الوقت الحالي ، هيكل النموذج الوحيد هو GPT ، والمهام الوحيدة هي إدخال النص وإخراج النص. لذا فإن مفاهيم الذكاء الاصطناعي السابقة ، مثل تحليل الجمل والكلمات الرئيسية والمفاهيم الأخرى ، قد تلاشت تدريجياً من مجال رؤيتنا. علاوة على ذلك ، لم يعد استخدام النماذج اليوم وفقًا لتقدير مزود التقنية ، ولكن وفقًا لتقدير العميل الذي يستخدمها.
** ويشير "التكوين" إلى تكوين سلسلة الإنتاج **. يتطلب بناء النموذج استثمارًا ضخمًا للموارد ، ولا يمكن لأي شخص تقريبًا إكمال هذه المهمة من البداية إلى النهاية بمفرده. إنها تتطلب فريقًا ضخمًا والكثير من القوة الحاسوبية وراءها لصقلها. من المفهوم الأولي للنموذج ، إلى الضبط الدقيق للمراحل المختلفة في الوسط ، وإلى ممارسة الهبوط النهائية ، يشكل هذا سلسلة إنتاج كاملة.
من "الاختفاء" و "التكوين" ، يمكننا أن نرى "نقلة نوعية" للنموذج الكبير. في بعض الأحيان ، يكون التقدم التكنولوجي بلا هوادة ، ومستقلًا عن إرادة الفرد ، وستحل النماذج التكنولوجية الجديدة محل النماذج التكنولوجية القديمة.
إذن ، ما هي قيمة النماذج الكبيرة مثل هذا النموذج التكنولوجي الجديد؟ في رأيي ، يجلب أربع قيم جديدة تمامًا:
** 1 فهم جديد تمامًا **
من حيث فهم اللغة الطبيعية ، فإن النموذج الكبير الحالي يتجاوز بكثير جميع النماذج السابقة. يبدو أنه يفهم حقًا معنى كل كلمة لدينا. في حين أن الإجابات قد لا تكون دقيقة تمامًا ، يظهر مستوى جديد تمامًا من الفهم.
** 2 أدوات جديدة تمامًا **
إنها ليست فقط أداة لتحسين الكفاءة ، ولكن يمكنها أيضًا تحرير الناس من العمل الشاق. إنها أيضًا أداة إبداعية يمكنها إنشاء أشياء لا يستطيع البشر إنشاؤها. على سبيل المثال ، أظهر نموذج الانتشار العام الماضي إمكانات الرسم البياني لـ Vinsen.
** 3 واجهة جديدة **
في الماضي ، كان علينا كتابة برامج للوصول إلى البيانات وواجهات برمجة التطبيقات ، ولكن الآن ، يبدو أننا لم نعد بحاجة إلى كتابة أكواد مرهقة ، فنحن نحتاج فقط إلى الوصف بلغة طبيعية ، ويمكن للنموذج الكبير إنشاء أكواد تلقائيًا.
** 4 محركات جديدة **
النموذج الكبير ليس مجرد نقطة واحدة للقدرة ، بل يمكن استخدامه كمحرك لاسترجاع المعلومات وتوليد الحوار وحتى إنشاء القصة.
يجلب النموذج الكبير أيضًا بيئة جديدة ، وهي كيفية الاندماج مع الصناعة وتنفيذها.
نعتقد أن النماذج الكبيرة ليست مجرد واجهات برمجة تطبيقات بسيطة ، أو نماذج غير قابلة للتغيير. نؤكد أنه بعد أن تنتج شركة المنبع النموذج ، يحتاج عملاء المصب إلى إجراء مزيد من التدريب وتشغيل الميل الأخير. بهذه الطريقة ، يمكن تضمين النموذج في السيناريو الخاص بكل عميل. نظرًا لأداء النموذج بشكل أفضل ، يتم جمع المزيد من البيانات ، مما يؤدي بدوره إلى تقوية النموذج. يمكن أن يؤدي هذا حقًا إلى تعزيز تطوير الصناعة بأكملها.
في هذه البيئة الجديدة ، فإن الشركة التي تصنع النموذج الأساسي هي الأكثر انتشارًا ، وهناك العديد من الفرق أسفل النموذج الأساسي ، والتي ستركز على نماذج قدرات أو مجالات محددة. للمتابعة ، يجب التعاون مع شركات الحلول والشركات المصنعة للسحابة ومصنعي الأجهزة لإنشاء مجموعة متنوعة من المنتجات ، وأخيراً خدمة المؤسسات والحكومات المقصودة.
من النموذج الأساسي إلى التنفيذ الحقيقي ، يتضمن هذا الكثير من الروابط والروابط ، كما أدى إلى ولادة العديد من المنافذ البيئية الجديدة. أعتقد أنه يمكن للجميع الجمع بين نقاط قوتهم والتفكير في المكان الذي يريدون احتلاله في هذا النظام البيئي. في الواقع ، يمكن لأي شخص يرغب في تكريس نفسه لمجال النماذج الكبيرة أن يجد مكانه فيه.
02. ** خلف الموديل الكبير لـ "Jiang Ziya" **
لقد كنا فريقًا لمدة عامين ، ومن الواضح من تجربتنا أن هذا التحول في النموذج قد أثر علينا.
حتى نهاية العام الماضي ، كنا نطور عددًا كبيرًا من نماذج المصادر المفتوحة ، ونقوم بعمل هياكل وأنواع مختلفة من النماذج. في عام واحد فقط ، قمنا بفتح 98 موديل من المصادر ، مسجلاً رقماً قياسياً في المجال الصيني.
ومع ذلك ، في نهاية العام الماضي ، ظهر نموذج Wen Shengtu فجأة كمنتج ساخن. لذلك بدأنا في الالتفاف وصنعنا أول نموذج مفتوح المصدر للانتشار المستقر باللغة الصينية ، والذي نسميه نموذج "Taiyi". نأمل في مواكبة التغييرات التكنولوجية للنماذج الكبيرة.
في العصر الحالي للنماذج الكبيرة للأغراض العامة ، ما يعمل فريقنا على العمل الإضافي هو تدريب أفضل النماذج الكبيرة لقاعدة مفتوحة المصدر للصينية. يُعرف هذا باسم LLaMA2. قمنا بتدريب 20B Tokens. وبالمقارنة مع نموذج "ziya-LLaMA-13B" الذي تم تدريبه سابقًا ، زادت سرعة التدريب بنسبة 38٪ ، مما أدى إلى حل مشكلة "رحلة التدريب" غير المستقرة (التدريب غير الطبيعي) أثناء عملية التدريب.
بعد أن نقوم بتدريب هذا النموذج ، سيكون مفتوح المصدر بالكامل ، ولن تكون هناك قيود على التطبيقات التجارية. في الوقت نفسه ، نعد بمواصلة تدريب هذا النموذج ، على أمل توفير أفضل قاعدة نموذجية مفتوحة المصدر ومتاحة تجاريًا لمجتمع النماذج الكبير بأكمله.
في ظل النموذج التكنولوجي الحالي ، أثار تقديم ChatGPT هذا العام الكثير من الناس ، قائلين إن النموذج الكبير للأغراض العامة سيعطل جميع مناحي الحياة. ومع ذلك ، مع مرور الوقت ، هدأنا واكتشفنا أن ** النموذج الكبير هو في الواقع مجرد تنقية وتحسين للمشهد الحالي **. لذلك ، ندرك أنه لا يزال هناك العديد من الاحتمالات والفرص لتطبيق النماذج الكبيرة في الصناعات العمودية والمجالات والقدرات.
منذ حوالي شهر ، أنتج فريقنا سلسلة من النماذج الخبيرة ، مثل النماذج متعددة الوسائط ، ونماذج الأكواد ، ونماذج الكتابة ، ونماذج الحوار ، وما إلى ذلك. تم إطلاق سراح العديد منهم بالفعل وهم في أفضل مستوى في هذا المجال.
لقد فتحنا مؤخرًا نموذج التعاون الصيني المسمى "Ziya Writing". نأمل أن يصبح هذا النموذج مساعدًا خارج الصندوق لتقديم الدعم للمؤسسات والأفراد لتحسين الكفاءة. على سبيل المثال ، يمكن لموظفي الحكومة أن يطلبوا من ضياء الكتابة للمساعدة في كتابة تقرير عن الكارثة ، أو كتابة خطاب زعيم في حفل الافتتاح ، لأنه يناسب أسلوب تقرير السياسة جيدًا.
بالإضافة إلى ذلك ، يمكنه أيضًا تحرير المبدعين والمشغلين والمسوقين من المجتمع الصيني للمساعدة في كتابة أنواع مختلفة من المقالات وكتابة النصوص والمقالات الإلكترونية وحتى إنشاء قصص قصيرة ممتازة ، أو حتى رواية على شبكة الإنترنت حول القصص الخيالية القديمة. يمكننا أن نرى أنه يحتوي على أداء جيد جدًا من حيث منطق هيكل الفصل وسرد القصة.
قمنا أيضًا بتطوير حزمة استرجاع تستخدم 100 مليون معلمة فقط. إنه يعمل بشكل أفضل من بعض الحلول الحالية في كل من المجالات القانونية والمالية ، حتى أفضل من أفضل نماذج المتجهات المفتوحة المصدر حاليًا. يمكن أن تكون مجموعة أدواتنا أيضًا مساعدًا قليلاً في الصناعة المالية ، حيث تساعد الباحثين والمحللين.
لماذا يمكننا إنتاج العديد من النماذج عالية الجودة؟
خلفها ** العديد من التراكمات ، بما في ذلك نظام التدريب ثلاثي المراحل (تدريب ما قبل التدريب ، والضبط الدقيق لـ SFT تحت الإشراف ، وتعلم التغذية المرتدة البشرية RLHF) ** ، بما في ذلك كمية كبيرة من البيانات عالية الجودة المتراكمة ، وبعض الخوارزميات المطورة ذاتيًا ، وتساقطها في نظام التدريب لدينا.
يدعم كل نموذج من نماذجنا كلاً من الإصدارات مفتوحة المصدر والإصدارات التجارية ، ونفوض شركائنا بأداء التدريب والضبط الدقيق ، مما يسمح لهم بإجراء تدريب خاص في إطار سيناريوهاتهم الخاصة.
من الصغير إلى الكبير ، تعكس التغييرات من أحد فرقنا أيضًا التغييرات في النموذج الفني الحالي في مجال النماذج الكبيرة.
03 ، ** أسئلة في الموقع **
** س: كيف تنظر إلى بنية استدلال الأجهزة المستقبلية؟ هل ستكون الأجهزة المستقبلية "متكاملة مع التدريب والترويج" لفترة طويلة ، أم ستكون هناك فرص لرقائق تفكير مخصصة؟ **
** Zhang Jiaxing **: في الأصل ، كان لدينا نوعان من الرقائق للتدريب والاستدلال ، ولكن من الواضح أن شريحة التفكير الحالية لا يمكن أن تتكيف مع النموذج الكبير الحالي.
لذلك في الوقت الحالي ، بشكل أساسي من حيث قيود الأجهزة ، هناك المزيد من "تكامل التدريب والدفع". والميزة الكبرى لدمج التدريب والدفع هي أنه يمكن إعادة استخدام قوة الحوسبة. قد لا يكون تفكيرنا دائمًا محملاً بالكامل ، لذلك يمكننا الاستفادة الكاملة من وقت الحوض الصغير للتدريب ، والذي يُنظر إليه أيضًا من منظور الوقت الاقتصادي.
في المستقبل ، لا يزال لرقائق التفكير معناها. في بعض السيناريوهات ، مثل المحطات الطرفية المتنقلة أو الحوسبة المتطورة أو الأجهزة المحمولة على السيارة ، لا تزال هناك حاجة إلى شرائح استدلال مخصصة خاصة. حتى في السحابة والخوادم ، إذا كان من الممكن تحسين شريحة الاستدلال بشكل أفضل نحو استهلاك منخفض للطاقة أو جوانب أخرى ، فلا يزال لها معنى. أعتقد أنه لا يزال يتعين تخصيص شرائح مخصصة لأشياء متخصصة في المستقبل.
** س: بالنسبة لبعض التطبيقات الرأسية ، من أي زوايا يجب أن نجمع البيانات؟ كيف يتم إنشاء مجموعة بيانات عالية الجودة؟ **
** Zhang Jiaxing **: في الواقع ، يتم أيضًا جمع بياناتنا بالكامل بشكل تدريجي. منذ البداية ، لا يوجد سوى 20 أو 30 مجموعة بيانات. لكن من خلال التدريب ببطء ، على سبيل المثال ، أي جزء من القدرة مفقود ، سنجمع بعض هذه البيانات بطريقة مستهدفة ، وفي نفس الوقت سنجمع بعضًا من خبراتنا الخاصة ، مثل معالجة بعض البيانات وما شابه ذلك.
أخيرًا ، إذا لم يكن هناك شيء من هذا القبيل ، فسنقوم ببناء بعض البيانات بأنفسنا. على سبيل المثال ، بالنسبة للمحادثات متعددة الأشخاص ، وما إلى ذلك ، لدينا مجموعة متنوعة من أنواع مجموعات البيانات المختلفة فيها.
** س: لماذا يوجد الكثير من نماذج القدرات الخاصة؟ لماذا لا يتم تعزيز هذه القدرات في نفس الوقت على نفس النموذج؟ **
** Zhang Jiaxing **: لدينا عدة اعتبارات. الأول هو أننا اخترنا حجم النموذج مقدمًا. بعد اختيار حجم النموذج ، نريد أن يتمتع النموذج بالإمكانيات. هذا اقتراح في ظل ظروف محدودة. هذه ميزة تكلفة كبيرة جدًا.
في هذا الوقت ، أريد أن أضع كل القدرات في نموذج واحد كبير ، لكن هذه القدرات متنافية من حيث الزمان والمكان. فيما يتعلق بالمساحة ، بعض القدرات متنافية ، على سبيل المثال ، عندما قمنا بطرح أسئلة منطقية ، مثل أسئلة الرياضيات وكتابة الأسئلة ، كانت متعارضة. بالإضافة إلى ذلك ، هناك تعارض زمني ، ففي لحظة معينة تكون هناك قدرة معينة هي الأقوى ، لكن قد لا تكون القدرات الأخرى قوية جدًا.
نظرًا لأن سيناريوهات المصب لا تتطلب سوى قدرة واحدة ، فإننا ببساطة نختار مجموعات بيانات معينة لتدريب مهام معينة ، وهي نماذج مخصصة.
** س: ذكرت أنه تم حل مشكلة "الطيران التدريبي" غير المستقر ، كيف تم حلها؟ **
** Zhang Jiaxing **: هناك نقطة أساسية هنا. أولاً ، قمنا بتعديل تدريبنا. لقد أجرينا تغييرات على طبقة الكود المصدري أثناء التدريب الموزع. في الواقع ، استقرار التدريب أقوى بكثير. عندما قمنا بتدريب Ziya-LLaMA-13B ، كان منحنى مجموعة التدريب تلك مستقرًا. نحن فريق نموذجي كبير يركز بشكل كبير على تكنولوجيا التدريب ، وهو أيضًا ضمان لنا لمواصلة صنع نماذج جيدة.
** س: بالنسبة لمناقشة الملك العام والنماذج الكبيرة المخصخصة ، هل يجب خصخصة النموذج؟ على سبيل المثال ، إذا كنت أرغب في تقديم تطبيق إلى C ، ألا يمكنني إجراء نشر مخصخص؟ **
** Zhang Jiaxing **: أولاً ، وجدنا أن شركائنا لديهم بعض متطلبات الامتثال لأمن البيانات والخصوصية ، ولا يمكن استخدام بياناتهم للتدريب باستخدام النماذج العامة. ثانيًا ، يجب أن يكون لديهم مشهد متعمق ومتطلبات مخصصة ، وبغض النظر عما إذا كان منتجًا إلى B أو منتجًا C ، فإنهم جميعًا يأملون في استخدامه في المشهد الخاص بهم.
في هذا الوقت ، لا يمكن للنموذج العام الكبير أو قاعدة النموذج العام الكبير تلبية جميع احتياجاتهم بالكامل ، لذلك أصبح التدريب الخاص والنشر الخاص أمرًا ضروريًا.