تكشف Meta عن نموذج جديد لتوليد الصور بالذكاء الاصطناعي CM3leon ، يروج لكفاءة أكبر
توجه إلى مكتبتنا عند الطلب لعرض الجلسات من VB Transform 2023. سجل هنا
تواصل Meta المضي قدمًا في أبحاثها في الأشكال الجديدة لنماذج الذكاء الاصطناعي التوليدية ، وتكشف اليوم عن أحدث جهودها المعروفة باسم CM3leon (تُنطق مثل “الحرباء”).
CM3leon هو نموذج أساسي متعدد الوسائط لإنشاء نص إلى صورة ، بالإضافة إلى إنشاء صورة إلى نص ، وهو مفيد لإنشاء تسميات توضيحية للصور تلقائيًا.
من الواضح أن الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي ليست مفهومًا جديدًا في هذه المرحلة ، حيث تتوفر أدوات شائعة مثل Stable Diffusion و DALL-E و Midjourney على نطاق واسع.
الجديد هو التقنيات التي تستخدمها Meta لبناء CM3leon والأداء الذي تدعي Meta أن نموذج الأساس قادر على تحقيقه.
حدث
VB Transform 2023 حسب الطلب
هل فاتتك جلسة من VB Transform 2023؟ سجل للوصول إلى المكتبة عند الطلب لجميع جلساتنا المميزة.
سجل الان
تعتمد تقنيات إنشاء تحويل النص إلى صورة اليوم بشكل كبير على استخدام نماذج الانتشار (حيث حصل Stable Diffusion على اسمه) لإنشاء صورة. يستخدم CM3leon شيئًا مختلفًا: نموذج الارتداد التلقائي القائم على الرمز المميز.
كتب بحث ميتا في ورقة بحثية بعنوان Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning: “لقد سيطرت نماذج الانتشار مؤخرًا على عمل توليد الصور نظرًا لأدائها القوي وتكاليفها الحسابية المتواضعة نسبيًا”. “على النقيض من ذلك ، من المعروف أيضًا أن نماذج الانحدار الذاتي القائمة على الرمز المميز تؤدي إلى نتائج قوية ، مع تماسك أفضل للصور العالمية على وجه الخصوص ، ولكنها أغلى بكثير في التدريب والاستخدام للاستدلال.”
ما تمكن باحثو Meta من القيام به مع CM3leon هو في الواقع توضيح كيف يمكن أن يكون نموذج الانحدار الذاتي القائم على الرمز المميز ، في الواقع ، أكثر كفاءة من النهج القائم على نموذج الانتشار.
كتب باحث ميتا في منشور بالمدونة: “تحقق CM3leon أداءً متطورًا لتوليد النص إلى صورة ، على الرغم من تدريبها بخمس مرات أقل من الأساليب السابقة القائمة على المحولات”.
يشبه المخطط التفصيلي الأساسي لكيفية عمل CM3leon إلى حد ما كيفية عمل نماذج إنشاء النص الحالية.
بدأ باحثو Meta بمرحلة ما قبل التدريب المعزز بالاسترجاع. بدلاً من مجرد حذف الصور المتاحة للجمهور من الإنترنت ، وهي طريقة تسببت في بعض التحديات القانونية للنماذج القائمة على الانتشار ، اتخذت Meta مسارًا مختلفًا.
“الآثار الأخلاقية لمصادر بيانات الصور في مجال توليد النص إلى صورة كانت موضوع نقاش كبير ،” جاء في ورقة البحث Meta. في هذه الدراسة ، نستخدم فقط الصور المرخصة من Shutterstock. ونتيجة لذلك ، يمكننا تجنب المخاوف المتعلقة بملكية الصورة وإسنادها ، دون التضحية بالأداء “.
بعد التدريب المسبق ، يمر نموذج CM3leon بمرحلة ضبط دقيق خاضعة للإشراف (SFT) يزعم باحثو Meta أنها تنتج نتائج محسّنة للغاية ، سواء من حيث استخدام الموارد أو جودة الصورة. SFT هو نهج تستخدمه OpenAI للمساعدة في تدريب ChatGPT. تلاحظ Meta في ورقتها البحثية أن SFT يستخدم لتدريب النموذج على فهم المطالبات المعقدة التي تكون مفيدة للمهام التوليدية.
“لقد وجدنا أن ضبط التعليمات يزيد بشكل ملحوظ من أداء النموذج متعدد الوسائط عبر مهام مختلفة مثل إنشاء تعليق على الصورة ، والإجابة على الأسئلة المرئية ، والتحرير المستند إلى النص ، وإنشاء الصورة الشرطية ،” تنص الورقة.
بالنظر إلى مجموعات العينات من الصور التي تم إنشاؤها والتي شاركتها Meta في منشور المدونة الخاص بها حول CM3leon ، فإن النتائج مثيرة للإعجاب وتظهر بوضوح قدرة النموذج على فهم المطالبات المعقدة ومتعددة المراحل ، وإنشاء صور عالية الدقة نتيجة لذلك.
يعد CM3leon حاليًا جهدًا بحثيًا وليس من الواضح متى أو حتى ما إذا كانت Meta ستجعل هذه التقنية متاحة للجمهور في خدمة على إحدى منصاتها. نظرًا لمدى قوتها ، وكفاءة التوليد العالية ، فمن المحتمل جدًا أن ينتقل CMleon ونهجه في الذكاء الاصطناعي التوليدي إلى ما هو أبعد من البحث (في النهاية).
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.