يطور باحثو معهد ماساتشوستس للتكنولوجيا نماذج لغوية ذاتية التعلم تتفوق في الأداء على نظرائهم الأكبر حجمًا
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
حقق الباحثون في مختبر MIT لعلوم الكمبيوتر والذكاء الاصطناعي (CSAIL) تقدمًا رائدًا في نمذجة اللغة في عالم نماذج اللغات الكبيرة المهيمنة (LLMs).
لقد ابتكر فريق CSAIL نهجًا مبتكرًا لنمذجة اللغة يتحدى الاعتقاد التقليدي بأن النماذج الأصغر تمتلك قدرات محدودة. يقدم البحث نموذجًا للتعلم الذاتي قابل للتطوير يتفوق على النظراء الأكبر بما يصل إلى 500 مرة في مهام فهم لغة محددة ، كل ذلك دون الاعتماد على التعليقات التوضيحية التي ينشئها الإنسان.
تستخدم الخوارزمية التي طورها فريق معهد ماساتشوستس للتكنولوجيا ، المسماة “SimPLE” (التحرير البسيط للملصقات الزائفة) ، التدريب الذاتي ، وهي تقنية تسمح للنموذج بالتعلم من تنبؤاته الخاصة ، وبالتالي يلغي الحاجة إلى بيانات تدريب إضافية مشروحة. تم تصميم هذا النموذج لمواجهة التحدي المتمثل في إنشاء ملصقات غير دقيقة أثناء التدريب الذاتي.
والجدير بالذكر أن فريق البحث يدعي أن هذا النهج المبتكر يعزز بشكل كبير أداء النموذج عبر المهام المختلفة ، متجاوزًا النماذج البارزة مثل Google LaMDA و FLAN ونماذج GPT الأخرى.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
ثورة (لكنها محدودة النطاق)
في ورقتهم الاستنتاج كمتعلمين قويين لأنفسهميقدم فريق البحث في معهد ماساتشوستس للتكنولوجيا حجة مفادها أنه في حين أن التطورات الحديثة في توليد اللغة باستخدام ماجستير في اللغة الإنجليزية قد أحدثت ثورة ، فإن هذه النماذج تمتلك قيودًا واضحة عندما يتعلق الأمر بفهم المهام.
قال Hongyin Luo ، مساعد ما بعد الدكتوراه في MIT CSAIL والمؤلف الرئيسي للبحوث ، لموقع VentureBeat: “الآلات الحاسبة الرقمية أفضل من GPT-4 في الحساب لأنها مصممة بناءً على مبادئ حسابية”. “تم تدريب نموذجنا الصغير على فهم المبدأ الأساسي لفهم اللغة – الاستلزام السياقي ، في حين أن LLM لا تتعلم عنه صراحة. مع وجود هدف واضح للتعلم القائم على السياق ، تكون كفاءة المعلمات في نموذجنا أعلى بكثير من LLMs ، وبالتالي تحقيق أداء جيد في مهام NLU “.
ينص البحث أيضًا على أنه ، ببساطة ، يجب أن يتفوق نموذج الاستلزام السياقي المختص أيضًا كنموذج فهم اللغة الطبيعية (NLU).
علاوة على ذلك ، يعتقد فريق CSAIL أن الآثار المترتبة على هذا البحث تتجاوز مجرد التحسينات في الأداء. إنه يتحدى الفكرة السائدة بأن النماذج الأكبر هي الأفضل بطبيعتها ، مما يسلط الضوء على إمكانات النماذج الأصغر كبدائل قوية ومستدامة بيئيًا بنفس القدر.
تعزيز فهم النموذج اللغوي من خلال الاستدلال النصي
ركز فريق MIT CSAIL على الاستدلال النصي لتعزيز فهم النموذج للمهام اللغوية المتنوعة. يشير الاستنتاج النصي إلى العلاقة بين جملتين ، حيث إذا كانت جملة واحدة (الفرضية) صحيحة ، فمن المحتمل أن تكون الجملة الأخرى (الفرضية) صحيحة أيضًا.
من خلال تدريب النموذج باستخدام نموذج يتعرف على هذه العلاقات ، كان الباحثون قادرين على إنشاء محفزات لتقييم ما إذا كانت هناك معلومات محددة تستلزمها جملة أو عبارة معينة ضمن المهام المختلفة. عزز هذا التكيف بدون تسديدة بشكل كبير من تنوع النموذج وقدرته على التكيف.
أخبر لو من معهد ماساتشوستس للتكنولوجيا VentureBeat أنه على الرغم من أن LLM قد أظهرت قدرات رائعة في إنشاء اللغة والفن والرمز ، إلا أنها تحمل تكاليف حسابية كبيرة ومخاطر خصوصية عند التعامل مع البيانات الحساسة. بالمقابل ، تخلفت النماذج الأصغر تاريخياً عن نظيراتها الأكبر حجماً في المهام المتعددة والمهام التي تخضع للإشراف الضعيف.
لمواجهة هذه التحديات ، استخدم باحثو MIT CSAIL مجموعة بيانات الاستدلال المنطقي المستندة إلى اللغة الطبيعية لتطوير نماذج أصغر تفوقت على النماذج الأكبر بكثير. بالإضافة إلى ذلك ، من خلال دمج مفهوم الاستدلال النصي ، منح الباحثون النماذج القدرة على فهم مجموعة واسعة من المهام.
التكيف دون تدريب إضافي
خضعت هذه النماذج للتدريب للتأكد مما إذا كانت هناك معلومات محددة تستلزمها جملة أو عبارة معينة ، وبالتالي تمكينها من التكيف مع المهام المختلفة دون الحاجة إلى تدريب إضافي.
“تكمن فائدة التدريب الذاتي في أن النموذج يمكنه تلقائيًا تسمية كمية كبيرة من البيانات (إنشاء ملصقات زائفة) ، ولكن الخطر يكمن في أن التسميات الزائفة تحتوي على تنبؤات خاطئة ، والتي قد تضلل النموذج أو تتسبب في زيادة التخصيص ،” هو. لوه. يتفوق أسلوب SimPLE الخاص بنا على جميع خطوط الأساس للتدريب الذاتي. تجمع الطريقة بين استراتيجيتين تقليديتين للذكاء الاصطناعي من أجل المتانة: تقدير عدم اليقين والتصويت ، وتوفر مجموعة أكثر دقة من التنبؤات “.
أوضح Lou أن تدريب نموذج اللغة يتطلب تقليديًا شرح البيانات اليدوي من قبل البشر أو استخدام واجهات برمجة تطبيقات LLM. ومع ذلك ، غالبًا ما يقوم أصحاب التعليقات البشرية بتسمية البيانات الحساسة ، مما يعرض الخصوصية للخطر. بالإضافة إلى ذلك ، قد يؤدي نقل البيانات إلى المعلقين التابعين لجهات خارجية أو واجهة برمجة تطبيقات OpenAI إلى الكشف غير المقصود عن معلومات شديدة الحساسية.
وأوضح أن “طريقتنا تسمح بتعليق البيانات دون رؤية البيانات”. يحتاج المعلق فقط إلى كتابة قالب يصف المهمة. باستخدام هذا النموذج ، يتنبأ نظامنا بالعلاقة بين الإجابة والسؤال ، مما ينتج عنه تسميات عالية الجودة. من خلال القيام بذلك ، يتم وضع تعليقات توضيحية على مجموعة البيانات بدون مشاركة أي بيانات مع مضيف التعليقات “.
إعادة تعريف تطوير نموذج الذكاء الاصطناعي من خلال التدريب الذاتي
يؤكد فريق البحث في معهد ماساتشوستس للتكنولوجيا أن مجموعة النماذج الأصغر تُظهر تنوعًا عبر مجموعة واسعة من مهام الذكاء الاصطناعي – بدءًا من تصنيف المشاعر إلى تصنيف الأخبار – وتُظهر كفاءة استثنائية في تمييز العلاقة بين مكونين نصيين.
يمكن للنماذج أيضًا استنتاج المشاعر من البيانات والتأكد من موضوع المقالات الإخبارية بناءً على محتواها. حقق الباحثون نتائج ملحوظة من خلال إعادة تصور مهام NLU المختلفة كمهام تستلزم.
وفقًا لما ذكره لو ، فإن نماذج الاستحواذ ذاتية التدريب ، والتي تضم 350 مليون معلمة ، تتفوق في الأداء على النماذج اللغوية الخاضعة للإشراف مع 137 إلى 175 مليار معلمة. إنه يعتقد اعتقادًا راسخًا أن هذا العمل الرائد لديه القدرة على إعادة تعريف مشهد الذكاء الاصطناعي والتعلم الآلي ، مما يوفر حلاً لنمذجة اللغة يكون أكثر قابلية للتطوير ويمكن الاعتماد عليه وفعالية من حيث التكلفة.
“جوهر النموذج هو توقع العلاقات الاستدلالية ، بينما تتنبأ LLM” بكيفية جعل الأشياء تُقرأ بشكل مشابه لبيانات التدريب. ”
وأضاف لو “هذا يجعل نموذجنا أكثر ملاءمة وكفاءة لفهم اللغة”. “يعمل نموذجنا بشكل أفضل من نماذج LLM والنماذج التقليدية المستندة إلى BERT والمدربة على الملصقات التي تم إنشاؤها بواسطة الإنسان.”
تمهيد الطريق لتدريب نموذج لغوي فعال من حيث التكلفة
الورقة التي تلخص هذا البحث ، من تأليف لو وجيمس جلاس ويون كيم ، من المقرر تقديمها في يوليو في اجتماع جمعية اللغويات الحاسوبية في تورنتو ، كندا. تلقى المشروع دعمًا من برنامج هونج كونج للذكاء الاصطناعي.
من خلال نهجها الرائد ، يسعى البحث إلى إرساء الأساس لتقنيات الذكاء الاصطناعي المستقبلية التي تعطي الأولوية لقابلية التوسع والخصوصية والحفظ والاستدامة.
قال Lou إن النموذج يحتوي فقط على 1/500 من المعلمات مقارنة بـ GPT-3-175B ، مما يجعل نشره أسهل بشكل كبير ويؤدي إلى استدلال أسرع. أكد فريق CSAIL أن المؤسسات ستكون قادرة الآن على نشر نماذج فعالة وقوية متعددة المهام دون المساس بخصوصية البيانات أو الاعتماد على موارد حسابية باهظة الثمن من خلال البحث.
قال لو: “تتضمن خطوتنا التالية استخدام نماذج الاستدلال في مهام مختلفة متعلقة باللغة”. “حاليًا ، نحن منخرطون في تدريب مشترك مع LLMs للاستفادة من مزاياهم وزيادة تعزيز قدرات نماذجنا الفعالة ذاتية التدريب. بالإضافة إلى ذلك ، نحن نعمل على تطبيق نماذج ضمنية لقياس التوافق بين الادعاء والمبادئ الأخلاقية / الواقعية ، والتي تفيد الكشف الآلي عن المعلومات الخاطئة التي يولدها الإنسان ، وخطاب الكراهية والصور النمطية “.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.