أخبار التقنية

قد يكون نموذج Google Muse هو الشيء الكبير التالي للذكاء الاصطناعي التوليدي


تحقق من جميع الجلسات عند الطلب من قمة الأمن الذكي هنا.


كان عام 2022 عامًا رائعًا للذكاء الاصطناعي التوليدي ، مع إصدار نماذج مثل DALL-E 2 و Stable Diffusion و Imagen و Parti. ويبدو أن عام 2023 يسير على هذا المسار حيث قدمت Google أحدث نموذج لتحويل النص إلى صورة ، Muse ، في وقت سابق من هذا الشهر.

مثل نماذج تحويل النص إلى صورة أخرى ، فإن Muse عبارة عن شبكة عصبية عميقة تأخذ مطالبة نصية كمدخلات وتقوم بإنشاء صورة تناسب الوصف. ومع ذلك ، فإن ما يميز Muse عن سابقيه هو كفاءته ودقته. من خلال البناء على خبرة العمل السابق في هذا المجال وإضافة تقنيات جديدة ، تمكن الباحثون في Google من إنشاء نموذج توليدي يتطلب موارد حسابية أقل ويحقق تقدمًا في بعض المشكلات التي تعاني منها النماذج التوليدية الأخرى.

يستخدم Google’s Muse توليد الصور المستند إلى الرمز المميز

يعتمد Muse على الأبحاث السابقة في التعلم العميق ، بما في ذلك نماذج اللغة الكبيرة (LLMs) ، والشبكات التوليدية الكمية ، ومحولات الصور التوليدية المقنعة.

قال ديليب كريشنان ، عالم الأبحاث في Google: “كان الدافع القوي هو اهتمامنا بتوحيد إنشاء الصور والنصوص من خلال استخدام الرموز المميزة”. “تم بناء Muse على أفكار في MaskGit ، ورقة سابقة من مجموعتنا ، وعلى إخفاء أفكار النمذجة من نماذج اللغات الكبيرة.”

حدث

قمة أمنية ذكية عند الطلب

تعرف على الدور الحاسم للذكاء الاصطناعي وتعلم الآلة في الأمن السيبراني ودراسات الحالة الخاصة بالصناعة. شاهد الجلسات عند الطلب اليوم.

مشاهدة هنا

تستفيد Muse من التكييف على نماذج اللغة المدربة مسبقًا المستخدمة في العمل السابق ، بالإضافة إلى فكرة النماذج المتتالية ، التي تقترضها من Imagen. أحد الاختلافات المثيرة للاهتمام بين Muse والنماذج المماثلة الأخرى هو إنشاء رموز منفصلة بدلاً من تمثيلات على مستوى البكسل ، مما يجعل إخراج النموذج أكثر استقرارًا.

مثل غيره من مولدات تحويل النص إلى صورة ، يتم تدريب Muse على مجموعة كبيرة من أزواج التعليقات التوضيحية للصور. تعالج LLM التي تم اختبارها مسبقًا التسمية التوضيحية وتقوم بإنشاء التضمين ، وهو تمثيل رقمي متعدد الأبعاد لوصف النص. في الوقت نفسه ، تقوم سلسلة من اثنين من مفكك تشفير الصور بتحويل دقة مختلفة للصورة المدخلة إلى مصفوفة من الرموز المميزة.

أثناء التدريب ، يقوم النموذج بتدريب محول أساسي ومحول فائق الدقة لمحاذاة تضمين النص مع الرموز المميزة للصورة واستخدامها لإعادة إنتاج الصورة. يضبط النموذج معلماته عن طريق إخفاء الرموز المميزة للصورة عشوائيًا ومحاولة التنبؤ بها.

مصدر الصورة: جوجل.

بمجرد التدريب ، يمكن للنموذج إنشاء الرموز المميزة للصورة من تضمين النص لموجه جديد واستخدام الرموز المميزة للصورة لإنشاء صور جديدة عالية الدقة.

وفقًا لكريشنان ، فإن أحد الابتكارات في Muse هو فك التشفير المتوازي في مساحة الرموز ، والذي يختلف اختلافًا جوهريًا عن كل من نماذج الانتشار والتراجع الذاتي. نماذج الانتشار تستخدم التقليل التدريجي للضوضاء. تستخدم نماذج الانحدار التلقائي فك التشفير التسلسلي. يسمح فك التشفير المتوازي في Muse بكفاءة جيدة جدًا دون فقدان الجودة المرئية.

قال كريشنان: “نحن نعتبر عملية فك تشفير موسى مماثلة لعملية الرسم – يبدأ الفنان برسم تخطيطي للمنطقة الرئيسية ، ثم يملأ اللون تدريجيًا ، ويصقل النتائج عن طريق تعديل التفاصيل”.

نتائج متفوقة من Google Muse

لم تطلق Google Muse للجمهور حتى الآن بسبب المخاطر المحتملة لاستخدام النموذج “للتضليل والتحرش وأنواع مختلفة من التحيزات الاجتماعية والثقافية”.

ولكن وفقًا للنتائج التي نشرها فريق البحث ، فإن Muse يطابق أو يتفوق على النماذج الحديثة الأخرى على درجات CLIP و FID ، وهما مقياسان يقيسان جودة ودقة الصور التي تم إنشاؤها بواسطة النماذج التوليدية.

يعد Muse أيضًا أسرع من Stable Diffusion و Imagen نظرًا لاستخدامه لرموز منفصلة وطريقة أخذ العينات المتوازية ، مما يقلل من عدد تكرارات أخذ العينات المطلوبة لإنشاء صور عالية الجودة.

ومن المثير للاهتمام ، أن Muse يتحسن على النماذج الأخرى في مجالات المشاكل مثل العلاقة الأساسية (المطالبات التي تتضمن عددًا محددًا من الكائنات) ، والتكوين (المطالبات التي تصف المشاهد ذات الكائنات المتعددة المرتبطة ببعضها البعض) وتقديم النص. ومع ذلك ، لا يزال النموذج يفشل في المطالبات التي تتطلب عرض نصوص طويلة وأعداد كبيرة من الكائنات.

تتمثل إحدى المزايا الجوهرية لـ Muse في قدرته على أداء مهام التحرير دون الحاجة إلى الضبط الدقيق. تتضمن بعض هذه الميزات الرسم الداخلي (استبدال جزء من صورة موجودة بالرسومات المُنشأة) ، والتلوين الخارجي (إضافة تفاصيل حول صورة موجودة) والتحرير بدون قناع (على سبيل المثال ، تغيير الخلفية أو كائنات محددة في الصورة).

قال كريشنان: “بالنسبة لجميع النماذج التوليدية ، فإن مطالبات التنقية والتحرير ضرورية – كفاءة Muse تمكن المستخدمين من القيام بهذا التنقيح بسرعة ، وبالتالي مساعدة العملية الإبداعية”. يتيح استخدام القناع المستند إلى الرمز التوحيد بين الأساليب المستخدمة في النص والصور ؛ ويمكن أن تستخدم لطرائق أخرى “.

يُعد Muse مثالاً على كيفية الجمع بين التقنيات والبنى الصحيحة التي يمكن أن تساعد في تحقيق تقدم مثير للإعجاب في مجال الذكاء الاصطناعي. يعتقد فريق Google أن Muse لا يزال لديه مجال للتحسين.

قال كريشنان: “نعتقد أن النمذجة التوليدية هي موضوع بحثي ناشئ”. نحن مهتمون باتجاهات مثل كيفية تخصيص التحرير بناءً على نموذج Muse وزيادة تسريع العملية التوليدية. وستبني هذه أيضًا على الأفكار الموجودة في الأدبيات “.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى