النص إلى الفيديو التوليدي AI موجود أخيرًا وهو أمر غريب مثل الجحيم

0 133 3 دقائق

أنا أحب الذكاء الاصطناعي الخاص بي مثلما أحب أصناف الجبن الأجنبية الخاصة بي ، فهي غريبة بشكل لا يصدق ومليئة بالثقوب ، من النوع الذي يترك معظم تعريفات “جيد” حسب الذوق الفردي. لذلك فاجأني اللون عندما استكشفت الحدود التالية لنماذج الذكاء الاصطناعي العامة ، ووجدت واحدة من أغرب التجارب التي مررت بها منذ إنشاء الذكاء الاصطناعي الغريب سينفيلد توقف عن العمل أو يقتل لا شي للابد تم إطلاق سراحه لأول مرة.

رنواي ، واحدة من اثنين من الشركات الناشئة ساعدنا في تزويدنا بمولد الفن AI Stable Diffusionأعلنت يوم الاثنين أن أول اختبار علني لها لـ نموذج فيديو Gen-2 AI سيبدأ البث المباشر قريبًا. قدمت الشركة ادعاءً مذهلاً بأنها كانت “أول نموذج تحويل نص إلى فيديو متاح للجمهور.” لسوء الحظ ، ربما تكون مجموعة أكثر غموضًا مع نموذج تحويل نص إلى فيديو مبدئي أكثر جاذبية قد تغلبت على المدرج إلى اللكمة.

جوجل و ميتا تعمل بالفعل على مولدات تحويل النص إلى صورة ، لكن لم تكن أي من الشركتين على استعداد لتقديم أي أخبار منذ أن تم إغاظتها لأول مرة. منذ فبراير ، اشتهر الفريق الصغير نسبيًا المكون من 45 شخصًا في Runway بأدوات تحرير الفيديو عبر الإنترنت ، بما في ذلك الفيديو إلى الفيديو. نموذج Gen-1 AI يمكنها إنشاء وتحويل مقاطع الفيديو الحالية بناءً على المطالبات النصية أو الصور المرجعية. يمكن للجيل الأول أن يحول تجسيدًا بسيطًا لشخصية عصا يسبح إلى غواص ، أو يحول رجلًا يمشي في الشارع إلى كابوس من الطين مع تراكب مُنشأ. من المفترض أن يكون Gen-2 هو الخطوة الكبيرة التالية ، مما يسمح للمستخدمين بإنشاء مقاطع فيديو مدتها 3 ثوانٍ من البداية بناءً على مطالبات نصية بسيطة. على الرغم من أن الشركة لم تسمح لأي شخص بوضع يده عليها حتى الآن ، فقد شاركت الشركة بعض المقاطع بناءً على مطالبات مثل “لقطة قريبة للعين” و “لقطة جوية لمنظر طبيعي للجبال”.

قلة من الناس خارج الشركة لديهم قادر على جرب نموذج Runway الجديد ، ولكن إذا كنت لا تزال تتوق إلى إنشاء فيديو AI ، فهناك خيار آخر. الذكاء الاصطناعي نص إلى نظام فيديو يسمى ModelScope تم إصداره خلال عطلة نهاية الأسبوع الماضية وتسبب بالفعل في بعض الضجة لمقاطع الفيديو المحرجة أحيانًا والتي غالبًا ما تكون مجنونة لمدة ثانيتين. أنشأ مختبر DAMO Vision Intelligence Lab ، وهو قسم أبحاث تابع لشركة Alibaba للتجارة الإلكترونية العملاقة ، النظام كنوع من حالات الاختبار العامة. يستخدم النظام نموذج انتشار أساسيًا جدًا لإنشاء مقاطع الفيديو الخاصة به ، وفقًا للشركة صفحة تصف نموذج الذكاء الاصطناعي الخاص بها.

ModelScope مفتوح المصدر ومتوفر بالفعل على تعانق الوجه، على الرغم من أنه قد يكون من الصعب تشغيل النظام دون دفع رسوم رمزية لتشغيل النظام على خادم GPU منفصل. Tech YouTuber مات وولف لديه برنامج تعليمي جيد حول كيفية إعداد ذلك. بالطبع ، يمكنك المضي قدمًا وتشغيل الكود بنفسك إذا كانت لديك المهارة التقنية و VRAM لدعمها.

ModelScope صارخ جدًا من حيث مصدر بياناته. تحتوي العديد من مقاطع الفيديو التي تم إنشاؤها على مخطط غامض لشعار Shutterstock ، مما يعني أن بيانات التدريب تتضمن على الأرجح جزءًا كبيرًا من مقاطع الفيديو والصور المأخوذة من موقع صور الأسهم. إنها مشكلة مماثلة مع مولدات صور AI الأخرى مثل Stable Diffusion. رفعت Getty Images دعوى قضائية ضد شركة الاستقرار AIالشركة التي جلبت منشئ الفن بالذكاء الاصطناعي إلى الضوء العام ، ولاحظت عدد صور الانتشار المستقرة التي تخلق نسخة تالفة من علامة Getty المائية.

بالطبع ، لم يمنع ذلك بعض المستخدمين من صنع أفلام صغيرة باستخدام الذكاء الاصطناعي المحرج إلى حد ما ، مثل هذا “دارث فيدر” ذو الوجه البدين يزور سوبر ماركت أو الرجل العنكبوت وكابيبارا كفريق واحد لإنقاذ العالم.

بقدر ما يذهب Runway ، تتطلع المجموعة إلى صنع اسم لنفسها في عالم أبحاث الذكاء الاصطناعي المزدحم أكثر من أي وقت مضى. في بهم ورق واصفا جيلها الأول قال باحثو Runway إن نموذجهم مدرب على كل من الصور ومقاطع الفيديو لـ “مجموعة بيانات واسعة النطاق” مع بيانات صور نصية إلى جانب مقاطع فيديو غير مصحوبة بتعليقات. وجد هؤلاء الباحثون أن هناك ببساطة نقصًا في مجموعات بيانات نصوص الفيديو بنفس جودة مجموعات بيانات الصور الأخرى التي تعرض صورًا مأخوذة من الإنترنت. هذا يجبر الشركة على نقل بياناتها من مقاطع الفيديو نفسها. سيكون من المثير للاهتمام أن نرى كيف تتراكم نسخة Runway الأكثر صقلًا من تحويل النص إلى فيديو ، خاصةً بالمقارنة عندما يعرض الضاربون الكبار مثل Google المزيد من مقاطع الفيديو السردية الأطول.

إذا كانت قائمة انتظار Gen-2 الجديدة في Runway تشبه تلك الخاصة بـ Gen-1 ، فيمكن للمستخدمين أن يتوقعوا الانتظار بضعة أسابيع قبل أن يضعوا أيديهم بالكامل على النظام. في غضون ذلك ، قد يكون اللعب باستخدام ModelScope خيارًا أولًا جيدًا لأولئك الذين يبحثون عن تفسيرات أكثر غرابة للذكاء الاصطناعي. بالطبع ، هذا قبل أن نحصل على نفس المحادثات حول مقاطع الفيديو التي تم إنشاؤها بواسطة AI والتي نقوم بها الآن حول الصور التي تم إنشاؤها بواسطة AI.

الشرائح التالية هي بعض محاولاتي لمقارنة Runway بـ ModelScope وأيضًا اختبار حدود ما يمكن أن يفعله النص على الصورة. لقد قمت بتحويل الصور إلى تنسيق GIF باستخدام نفس المعلمات في كل منها. يقترب معدل الإطارات في ملفات GIF من مقاطع الفيديو الأصلية التي تم إنشاؤها بواسطة AI.

مرتبط

اكتشاف المزيد من إشراق التقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

eshragnet

0 133 3 دقائق

النص إلى الفيديو التوليدي AI موجود أخيرًا وهو أمر غريب مثل الجحيم

معجب بهذه:

مرتبط

اكتشاف المزيد من إشراق التقنية

اترك تعليقاً إلغاء الرد

روابط نصية AA50

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من إشراق التقنية

Subscribe to our mailing list to get the new updates!

حصل رائد إيثرنت بوب ميتكالف على جائزة تورينج لعام 2022

خطة لبناء الأقمار الصناعية في المدار تحصل على تمويل القوة الفضائية

مقالات ذات صلة

كيفية استخدام تطبيق Authenticator مع أي موقع ويب أو خدمة

افضل فلاش ميموري لتخزين ملفاتك بحجم 1 تيرا, 1000 قيقا بايت

الأقمار الصناعية تصعد بعد انقطاع كابلات الإنترنت في البحر الأحمر

9 بدائل لتطبيق WhatsApp تحترم خصوصيتك

اترك تعليقاً إلغاء الرد

اكتشاف المزيد من إشراق التقنية