أخبار التقنية

تقوم MosaicML بإطلاق MPT-7B-8K ، وهو برنامج LLM مفتوح المصدر ذو معامل 7B


توجه إلى مكتبتنا عند الطلب لعرض الجلسات من VB Transform 2023. سجل هنا


تم الكشف عن MosaicML MPT-7B-8Kنموذج لغة كبير مفتوح المصدر (LLM) مع 7 مليارات معلمة وطول سياق 8 كيلو.

وفقًا للشركة ، تم تدريب النموذج على منصة MosaicML وخضع لعملية تدريب مسبقة تبدأ من نقطة تفتيش MPT-7B. تم إجراء مرحلة ما قبل التدريب باستخدام Nvidia H100s ، مع ثلاثة أيام إضافية من التدريب على 256 H100s ، والتي تضم 500 مليار رمز مميز من البيانات.

في السابق ، أحدثت MosaicML موجات في مجتمع الذكاء الاصطناعي بإصدارها MPT-30B ، وهو برنامج LLM مفتوح المصدر ومرخص تجاريًا قائم على وحدة فك ترميز. ادعت الشركة أنها أقوى من GPT-3-175B ، مع 17 ٪ فقط من معلمات GPT-3 ، أي ما يعادل 30 مليار.

تجاوز MPT-30B أداء GPT-3 عبر مهام مختلفة وأثبت أنه أكثر كفاءة في التدريب من النماذج ذات الأحجام المماثلة. على سبيل المثال ، تطلب LLaMA-30B ما يقرب من 1.44 مرة من ميزانية FLOPs أكثر من MPT-30B ، في حين أن Falcon-40B لديها ميزانية FLOPs أعلى 1.27 مرة من MPT-30B.

حدث

VB Transform 2023 حسب الطلب

هل فاتتك جلسة من VB Transform 2023؟ سجل للوصول إلى المكتبة عند الطلب لجميع جلساتنا المميزة.

سجل الان

تدعي MosaicML أن الطراز الجديد MPT-7B-8K يُظهر كفاءة استثنائية في تلخيص المستندات ومهام الإجابة على الأسئلة مقارنة بجميع الطرز التي تم إصدارها مسبقًا.

وقالت الشركة إن النموذج مُحسَّن خصيصًا للتدريب السريع والاستدلال لتحقيق نتائج أسرع. علاوة على ذلك ، فإنه يسمح بضبط البيانات الخاصة بالمجال داخل منصة MosaicML.

أعلنت الشركة أيضًا عن توفر ترخيص للاستخدام التجاري لـ MPT-7B-8k ، مما يسلط الضوء على تدريبها الاستثنائي على مجموعة بيانات شاملة تضم 1.5 تريليون رمز ، متجاوزة النماذج المماثلة مثل XGen و LLaMA و Pythia و OpenLLaMA و StableLM.

يدعي MosaicML أنه من خلال استخدام FlashAttention و FasterTransformer ، يتفوق النموذج في التدريب السريع والاستدلال مع الاستفادة من كود التدريب مفتوح المصدر المتاح من خلال مستودع مسبك llm.

أصدرت الشركة النموذج في ثلاثة أشكال مختلفة:

  • MPT-7B-8k- قاعدة: تم اختبار هذا المحول بنمط وحدة فك التشفير مسبقًا بناءً على MPT-7B وتم تحسينه بشكل أكبر بطول تسلسل ممتد يبلغ 8 كيلو بايت. يخضع لتدريب إضافي مع 500 مليار رمز ، مما ينتج عنه مجموعة كبيرة من 1.5 تريليون رمز تتضمن نصًا ورمزًا.
  • MPT-7B-8k- التعليمات: تم تصميم هذا النموذج لمهام التعليمات الطويلة ، بما في ذلك التلخيص والإجابة على الأسئلة. لقد تم تصنيعه عن طريق ضبط MPT-7B-8k باستخدام مجموعات البيانات المنسقة بعناية.
  • MPT-7B-8k- الدردشة: يعمل هذا المتغير كنموذج يشبه روبوت المحادثة ، ويركز على توليد الحوار. تم إنشاؤه عن طريق ضبط MPT-7B-8k مع ما يقرب من 1.5 مليار رمز من بيانات الدردشة.

تؤكد Mosaic أن طرازات MPT-7B-8k تُظهر أداءً مشابهًا أو متفوقًا لنماذج مفتوحة المصدر أخرى متاحة حاليًا بطول سياق 8 كيلو ، كما أكده تسخير تقييم التعلم في السياق الخاص بالشركة.

يتزامن هذا الإعلان مع قيام Meta بإزاحة الستار عن طراز LLaMA 2 ، المتاح الآن على Microsoft Azure. على عكس LLaMA 1 ، تقدم LLaMA 2 أحجام نماذج مختلفة ، تضم 7 و 13 و 70 مليار معلمة.

تؤكد Meta أن هذه النماذج المدربة مسبقًا تم تدريبها على مجموعة بيانات ضخمة ، 40٪ أكبر من LLaMA 1 ، مع طول سياق موسع يصل إلى تريليوني رمز ، وحجم LLaMA 1. يتفوق LLaMA 2 على سابقه مرتين وفقًا لمعايير Meta.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.



اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى