بعد عامين من ظهور DALL-E لأول مرة ، “فوجئ” مخترعها بالتأثير
تحقق من جميع الجلسات عند الطلب من قمة الأمن الذكي هنا.
قبل DALL-E 2 ، Stable Diffusion و Midjourney ، كان هناك مجرد ورقة بحثية تسمى “Zero-Shot Text-to-Image Generation”.
باستخدام هذه الورقة وعرض توضيحي على موقع الويب ، في 5 كانون الثاني (يناير) 2021 – قبل عامين اليوم – قدمت OpenAI شبكة DALL-E ، وهي شبكة عصبية “تنشئ صورًا من التعليقات النصية لمجموعة واسعة من المفاهيم التي يمكن التعبير عنها بلغة طبيعية”.
تم تدريب إصدار 12 مليار معلمة من نموذج لغة Transformer GPT-3 لإنشاء صور من أوصاف النص ، باستخدام مجموعة بيانات من أزواج النص والصورة. وصف مراسل VentureBeat ، خاري جونسون ، الاسم بأنه “يعني استحضار الفنان سلفادور دالي والروبوت WALL-E” وشمل رسمًا تم إنشاؤه بواسطة DALL-E لـ “دايكون صغير يشع في توتو يمشي مع كلب”.
منذ ذلك الحين ، سارت الأمور بسرعة ، وفقًا لباحثة OpenAI ومخترع DALL-E ومخترع DALL-E 2 Aditya راميش. إنه أكثر من مجرد بخس ، بالنظر إلى الوتيرة المذهلة للتطور في مجال الذكاء الاصطناعي التوليدي خلال العام الماضي. ثم كان هناك الارتفاع النيزكي لنماذج الانتشار ، والتي كانت بمثابة تغيير لقواعد اللعبة بالنسبة لـ DALL-E 2 ، الذي تم إصداره في أبريل الماضي ، ونظيراتها مفتوحة المصدر ، Stable Diffusion و Midjourney.
حدث
قمة أمنية ذكية عند الطلب
تعرف على الدور الحاسم للذكاء الاصطناعي وتعلم الآلة في الأمن السيبراني ودراسات الحالة الخاصة بالصناعة. شاهد الجلسات عند الطلب اليوم.
مشاهدة هنا
قال راميش لموقع VentureBeat: “لم نشعر منذ وقت طويل أننا كنا نحاول أولاً هذا الاتجاه البحثي لمعرفة ما يمكن عمله”. “كنت أعلم أن التكنولوجيا ستصل إلى نقطة حيث سيكون لها تأثير على المستهلكين ومفيدة للعديد من التطبيقات المختلفة ، لكنني ما زلت مندهشًا من السرعة.”
الآن ، النمذجة التوليدية تقترب من النقطة حيث “سيكون هناك نوع من اللحظات الشبيهة بـ iPhone لتوليد الصور والطرائق الأخرى ،” قال. “أنا متحمس لأن أكون قادرًا على بناء شيء سيتم استخدامه لجميع هذه التطبيقات التي ستظهر.”
تم تطوير البحث الأصلي بالاشتراك مع CLIP
تم تطوير بحث DALL-E 1 والإعلان عنه بالاقتران مع CLIP (التدريب المسبق على اللغة المتباينة والصورة) ، وهو نموذج منفصل يعتمد على التعلم بدون طلقة والذي كان في الأساس صلصة سرية لـ DALL-E. تم تدريب CLIP على 400 مليون زوج من الصور مع تعليقات نصية مأخوذة من الإنترنت ، وتمكنت CLIP من الحصول على تعليمات باستخدام اللغة الطبيعية لأداء معايير التصنيف وترتيب نتائج DALL-E.
بالطبع ، كان هناك الكثير من العلامات المبكرة على أن تقدم تحويل النص إلى صورة كان على وشك الحدوث.
قال جيف كلون ، الأستاذ المساعد لعلوم الكمبيوتر بجامعة كولومبيا البريطانية: “لقد كان من الواضح لسنوات أن هذا المستقبل يقترب بسرعة”. في عام 2016 ، عندما أنتج فريقه ما يقول إنها الصور الاصطناعية الأولى التي يصعب تمييزها عن الصور الحقيقية ، تذكر كلون حديثه إلى أحد الصحفيين.
قال: “كنت أقول إنه في غضون سنوات قليلة ، ستكون قادرًا على وصف أي صورة تريدها وسوف ينتجها الذكاء الاصطناعي ، مثل” دونالد ترامب يتلقى رشوة من بوتين مع ابتسامة متكلفة على وجهه “.
قال ناثان بينايش ، الشريك العام في Air Street Capital ، إن الذكاء الاصطناعي التوليدي كان أحد المبادئ الأساسية لأبحاث الذكاء الاصطناعي منذ البداية. “تجدر الإشارة إلى أن الأبحاث مثل تطوير شبكات الخصومة التوليدية (GANs) في عام 2014 و WaveNet من DeepMind في عام 2016 قد بدأت بالفعل في إظهار كيف يمكن لنماذج الذكاء الاصطناعي أن تولد صورًا وصوتًا جديدًا من الصفر ، على التوالي ،” قال لـ VentureBeat في رسالة . .
ومع ذلك ، كانت ورقة DALL-E الأصلية “مثيرة للإعجاب في ذلك الوقت” ، كما أضاف عالم المستقبل والمؤلف والباحث في مجال الذكاء الاصطناعي مات وايت. “على الرغم من أنه لم يكن أول عمل في مجال تركيب النص إلى صورة ، إلا أن نهج Open AI للترويج لعملهم لعامة الناس وليس فقط في دوائر أبحاث الذكاء الاصطناعي قد جذبهم الكثير من الاهتمام وبشكل صحيح.”
دفع أبحاث DALL-E إلى أقصى حد ممكن
منذ البداية ، يقول راميش إن اهتمامه الرئيسي كان دفع البحث إلى أبعد مدى ممكن.
قال: “شعرنا أن إنشاء نص إلى صورة كان مثيرًا للاهتمام لأنه كبشر ، يمكننا بناء جملة لوصف أي موقف قد نواجهه في الحياة الواقعية ، ولكن أيضًا المواقف الخيالية أو السيناريوهات المجنونة المستحيلة” . . “لذلك أردنا معرفة ما إذا كنا قد دربنا نموذجًا على إنشاء صور من النص بشكل جيد بما فيه الكفاية ، وما إذا كان بإمكانه القيام بنفس الأشياء التي يمكن للبشر القيام بها بقدر الاستقراء.”
وأضاف أن أحد التأثيرات البحثية الرئيسية على DALL-E الأصلي هو VQ-VAE ، وهي تقنية ابتكرها آرون فان دن أورد ، الباحث في DeepMind ، لتقسيم الصور إلى رموز تشبه نماذج الرموز اللغوية التي يتم تدريبها عليها .
وأوضح قائلاً: “لذلك يمكننا أن نأخذ محولًا مثل GPT ، والذي تم تدريبه للتو على التنبؤ بكل كلمة بعد الأخرى ، وزيادة رموز اللغة الخاصة به باستخدام الرموز المميزة للصور الإضافية هذه”. يتيح لنا ذلك تطبيق نفس التقنية لإنشاء الصور أيضًا.
لقد فوجئ الناس بـ DALL-E ، كما قال ، لأنه “شيء واحد أن ترى مثالاً على التعميم في نماذج اللغة ، لكن عندما تراه في توليد الصور ، يكون الأمر أكثر عمقًا وتأثيرًا.”
تحرك DALL-E 2 نحو نماذج الانتشار
ولكن بحلول الوقت الذي نُشر فيه بحث DALL-E الأصلي ، كان مؤلفو راميش المشاركين لـ DALL-E 2 ، Alex Nichol و Prafulla Dhariwal ، يعملون بالفعل على استخدام نماذج الانتشار في نسخة معدلة من GLIDE (نموذج انتشار OpenAI جديد).
أدى ذلك إلى أن تكون DALL-E 2 بنية مختلفة تمامًا عن التكرار الأول لـ DALL-E: كما أوضح Vasclav Kosar ، “يستخدم DALL-E 1 المشفر التلقائي المتغير المنفصل (dVAE) ، والتنبؤ بالرمز التالي ، وإعادة ترتيب نموذج CLIP ، بينما يستخدم DALL-E 2 تضمين CLIP مباشرةً ، ويفك تشفير الصور عبر انتشار مشابه لـ GLIDE. ”
بدا الأمر طبيعيا جدا [to combine diffusion models with DALL-E] قال راميش: “لأن هناك العديد من المزايا التي تأتي مع نماذج الانتشار – في كون الرسم هو الميزة الأكثر وضوحًا ، فهو نوع من النظافة والأناقة حقًا للتنفيذ باستخدام الانتشار”.
وأوضح أن دمج تقنية معينة ، تُستخدم أثناء تطوير GLIDE ، في DALL-E 2 – التوجيه الخالي من المصنفات – أدى إلى تحسن جذري في مطابقة التسميات التوضيحية والواقعية.
قال: “عندما جرب أليكس ذلك لأول مرة ، لم يتوقع أي منا مثل هذا التحسن الكبير في النتائج”. قال: “كان توقعي الأولي لـ DALL-E 2 أنه سيكون مجرد تحديث عبر DALL-E ، ولكن كان من المدهش بالنسبة لي أننا وصلنا إلى النقطة التي بدأت بالفعل في أن تكون مفيدة للناس”.
عندما شاهد مجتمع الذكاء الاصطناعي وعامة الناس لأول مرة ملف إخراج صورة DALL-E 2 في 6 أبريل 2022 ، كان الاختلاف في جودة الصورة بالنسبة للكثيرين متدهورًا.
“تنافسية ومثيرة ومشحونة.”
كان إصدار DALL-E في يناير 2021 هو الأول في موجة من أبحاث تحويل النص إلى صورة والتي تستند إلى التطورات الأساسية في معالجة اللغة ومعالجة الصور ، بما في ذلك الترميز التلقائي المتنوع ومحولات الانحدار الذاتي ، مارجريت ميتشل ، كبيرة علماء الأخلاق في Hugging Face ، قال لـ VentureBeat عبر البريد الإلكتروني. بعد ذلك ، عندما تم إطلاق DALL-E 2 ، “كان الانتشار بمثابة اختراق لم يراه معظمنا العاملون في المنطقة ، وقد أدى ذلك إلى زيادة اللعبة حقًا ،” قالت.
وأضافت أن العامين الماضيين منذ ورقة بحث DALL-E الأصلية كانت “تنافسية ومثيرة ومشحونة”.
قالت: “جاء التركيز على كيفية نمذجة اللغة والصور على حساب أفضل طريقة للحصول على البيانات للنموذج” ، مشيرة إلى أن الحقوق الفردية والموافقة “تم التخلي عنها بالكامل” في تحويل النص إلى صورة في العصر الحديث التقدم. وخلصت إلى أن الأنظمة الحالية “تسرق بشكل أساسي مفاهيم الفنان دون توفير أي ملاذ للفنانين”.
كما أن حقيقة أن DALL-E لم تجعل كود المصدر الخاص بها متاحًا أدى أيضًا إلى قيام الآخرين بتطوير خيارات تحويل النص إلى صورة مفتوحة المصدر والتي صنعت بقعهم الخاصة بحلول صيف عام 2022.
قال عماد مستك ، مؤسس شركة Stability AI ، التي أصدرت النسخة الأولى لمولد تحويل النص إلى صورة مفتوح المصدر Stable Diffusion في أغسطس ، إن DALL-E الأصلي كان “مثيرًا للاهتمام ولكن لا يمكن الوصول إليه” ، مضيفًا أن “النماذج فقط من فريقي تم تدريبهم [open source]. ” وأضاف مستاك: “بدأنا بقوة في تمويل ودعم هذه المساحة في صيف 2021”.
من الآن فصاعدًا ، لا يزال لدى DALL-E الكثير من العمل الذي يتعين القيام به ، كما يقول White – حتى في الوقت الذي يثير فيه التكرار الجديد قريبًا.
قال “DALL-E 2 يعاني من الاتساق والجودة والقضايا الأخلاقية”. وأشار إلى أن لها مشاكل مع الارتباطات والتركيب ، لذا فإن موجهًا مثل “كلب بني يرتدي قميصًا أحمر” يمكن أن ينتج عنه نتائج حيث يتم تبديل السمات (على سبيل المثال ، كلب أحمر يرتدي قميصًا بنيًا ، أو كلبًا أحمر يرتدي قميصًا أحمر أو بالإضافة إلى ذلك ، أضاف ، DALL-E 2 لا يزال يعاني من مشكلة تكوين الوجه والجسم ، وإنشاء نص في الصور باستمرار – “خاصة الكلمات الأطول”.
مستقبل DALL-E والذكاء الاصطناعي التوليدي
يأمل راميش أن يتعلم المزيد من الناس كيفية عمل تقنية DALL-E 2 ، والتي يعتقد أنها ستؤدي إلى تقليل حالات سوء الفهم.
قال: “يعتقد الناس أن الطريقة التي يعمل بها النموذج هي أنه يحتوي على قاعدة بيانات للصور في مكان ما ، والطريقة التي يولد بها الصور هي عن طريق قص ولصق أجزاء من هذه الصور معًا لإنشاء شيء جديد”. “ولكن في الواقع ، الطريقة التي يعمل بها أقرب كثيرًا إلى الإنسان حيث ، عندما يتم تدريب النموذج على الصور ، فإنه يتعلم تمثيلًا مجردًا لماهية كل هذه المفاهيم.”
وأوضح أن بيانات التدريب “لم تعد مستخدمة عندما ننشئ صورة من الصفر”. “تبدأ نماذج الانتشار بتقريب ضبابي لما يحاولون إنتاجه ، وبعد ذلك عبر العديد من الخطوات ، قم بإضافة تفاصيل تدريجيًا إليها ، مثل كيف يبدأ الفنان برسم تقريبي ثم يجسده ببطء مع مرور الوقت.”
وقال إن مساعدة الفنانين كانت دائمًا هدفًا لشركة DALL-E.
“كنا نأمل بطموح أن تكون هذه النماذج نوعًا من مساعد الطيار الإبداعي للفنانين ، على غرار الطريقة التي يشبه بها Codex مساعد الطيار للمبرمجين – أداة أخرى يمكنك الوصول إليها لجعل العديد من المهام اليومية أسهل كثيرًا وأسرع ، هو قال. “وجدنا أن بعض الفنانين يجدونها مفيدة حقًا في وضع نماذج أولية للأفكار – في حين أنهم يقضون عادةً عدة ساعات أو حتى عدة أيام لاستكشاف بعض المفاهيم قبل أن يقرروا اتباعها ، يمكن أن يسمح DALL-E لهم بالوصول إلى نفس المكان في بضع ساعات أو بضع دقائق. ”
مع مرور الوقت ، قال راميش إنه يأمل أن يتعلم المزيد والمزيد من الناس ويستكشفون ، باستخدام DALL-E وأدوات الذكاء الاصطناعي الأخرى.
“مع [OpenAI’s] قال ChatGPT ، أعتقد أننا قمنا بتوسيع نطاق الوصول إلى ما يمكن أن تفعله أدوات الذكاء الاصطناعي هذه وكشفنا الكثير من الأشخاص عن استخدامه. “وآمل أنه بمرور الوقت يمكن للأشخاص الذين يرغبون في القيام بأشياء باستخدام تقنيتنا الوصول بسهولة من خلال موقعنا على الويب وإيجاد طرق لاستخدامه لبناء الأشياء التي يرغبون في رؤيتها “.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.