حلقة التغذية الراجعة للذكاء الاصطناعي: يحذر الباحثون من “انهيار النموذج” بينما يتدرب الذكاء الاصطناعي على المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
لقد حان عصر الذكاء الاصطناعي التوليدي: بعد ستة أشهر فقط من ظهور ChatGPT لشركة OpenAI على الساحة ، ما يقرب من نصف موظفي بعض الشركات العالمية الرائدة يستخدمون بالفعل هذا النوع من التكنولوجيا في سير عملهم ، والعديد من الشركات الأخرى تسارع لتقديم عروض جديدة تلك. المنتجات ذات الذكاء الاصطناعي التوليدي المدمج.
ولكن ، كما يعلم أولئك الذين يتبعون الصناعة المزدهرة وأبحاثها الأساسية ، فإن البيانات المستخدمة لتدريب نماذج اللغة الكبيرة (LLMs) ونماذج المحولات الأخرى التي تقوم عليها منتجات مثل ChatGPT و Stable Diffusion و Midjourney تأتي في البداية من مصادر بشرية – كتب ومقالات ، الصور الفوتوغرافية وما إلى ذلك – تم إنشاؤها بدون مساعدة الذكاء الاصطناعي.
الآن ، مع استخدام المزيد من الأشخاص للذكاء الاصطناعي لإنتاج المحتوى ونشره ، يُطرح سؤال واضح: ماذا يحدث عندما ينتشر المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي في جميع أنحاء الإنترنت ، وتبدأ نماذج الذكاء الاصطناعي في التدريب عليه ، بدلاً من المحتوى الذي ينشئه الإنسان في المقام الأول؟
بحثت مجموعة من الباحثين من المملكة المتحدة وكندا في هذه المشكلة بالذات ونشروا مؤخرًا ورقة بحثية عن عملهم في مجلة الوصول المفتوح arXiv. ما وجدوه مثير للقلق بالنسبة لتكنولوجيا الذكاء الاصطناعي التوليدية الحالية ومستقبلها: “وجدنا أن استخدام المحتوى الناتج عن النموذج في التدريب يسبب عيوبًا لا رجعة فيها في النماذج الناتجة.”
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
ملء الإنترنت بالبلاهة
بالنظر على وجه التحديد إلى التوزيعات الاحتمالية للنماذج المولدة للذكاء الاصطناعي من نص إلى نص ومن صورة إلى صورة ، خلص الباحثون إلى أن “التعلم من البيانات التي تنتجها النماذج الأخرى يسبب انهيار النموذج – عملية تنكسية حيث ، بمرور الوقت ، تنسى النماذج توزيع البيانات الأساسي الحقيقي … هذه العملية لا مفر منها ، حتى في الحالات التي تكاد تكون مثالية للتعلم على المدى الطويل. “
كتب إيليا شومايلوف ، أحد مؤلفي الورقة الرئيسيين ، في رسالة بريد إلكتروني إلى VentureBeat: “بمرور الوقت ، الأخطاء في البيانات المركبة التي تم إنشاؤها ، وفي النهاية تفرض النماذج التي تتعلم من البيانات التي تم إنشاؤها على تصور خاطئ للواقع إلى أبعد من ذلك”. “لقد فوجئنا بمراقبة سرعة حدوث انهيار النموذج: يمكن للنماذج أن تنسى بسرعة معظم البيانات الأصلية التي تعلموها في البداية.”
بعبارة أخرى: نظرًا لأن نموذج تدريب الذكاء الاصطناعي يتعرض لمزيد من البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، فإنه يعمل بشكل أسوأ بمرور الوقت ، وينتج المزيد من الأخطاء في الردود والمحتوى الذي ينتج عنه ، وينتج عنه تنوع أقل غير خاطئ في استجاباته.
كما كتب روس أندرسون ، أستاذ هندسة الأمن في جامعة كامبريدج وجامعة إدنبرة ، أحد مؤلفي الورقة البحثية ، في منشور بالمدونة يناقش الورقة: “تمامًا كما نثرت المحيطات بالقمامة البلاستيكية وملأنا الغلاف الجوي بثاني أكسيد الكربون ، فنحن على وشك ملء الإنترنت بالبلاهة. وهذا سيجعل من الصعب تدريب نماذج جديدة عن طريق حذف الويب ، وإعطاء ميزة للشركات التي قامت بذلك بالفعل ، أو التي تتحكم في الوصول إلى واجهات الإنسان على نطاق واسع. في الواقع ، نرى بالفعل شركات ناشئة في مجال الذكاء الاصطناعي تعمل على تطوير أرشيف الإنترنت للحصول على بيانات التدريب “.
تيد شيانغ ، مؤلف الخيال العلمي المشهور “قصة حياتك” ، الرواية التي ألهمت الفيلم وصولوكاتب في Microsoft ، نشر مؤخرًا مقالاً في نيويوركر افتراض أن نسخ AI من النسخ سيؤدي إلى تدهور الجودة ، وتشبيه المشكلة بالقطع الأثرية المتزايدة التي يمكن رؤيتها عندما يقوم المرء بنسخ صورة JPEG بشكل متكرر.
هناك طريقة أخرى للتفكير في المشكلة مثل فيلم الخيال العلمي الكوميدي عام 1996 تعدد بطولة مايكل كيتون ، حيث يقوم رجل متواضع باستنساخ نفسه ثم استنساخ الحيوانات المستنسخة ، كل منها يؤدي إلى انخفاض مستويات الذكاء بشكل كبير وزيادة الغباء.
كيف يحدث “انهيار النموذج”
في الأساس ، يحدث انهيار النموذج عندما تنتهي نماذج الذكاء الاصطناعي للبيانات بتلويث مجموعة التدريب للنماذج اللاحقة.
أوضح شومايلوف أن “البيانات الأصلية التي تم إنشاؤها بواسطة البشر تمثل العالم بشكل أكثر إنصافًا ، أي أنها تحتوي أيضًا على بيانات غير محتملة”. “النماذج التوليدية ، من ناحية أخرى ، تميل إلى الإفراط في استيعاب البيانات الشائعة وغالبًا ما تسيء فهم / تحريف البيانات الأقل شيوعًا.”
أوضح شومايلوف هذه المشكلة لـ VentureBeat من خلال سيناريو افتراضي ، حيث يتم تدريب نموذج التعلم الآلي على مجموعة بيانات تحتوي على صور 100 قطط – 10 منها بفرو أزرق ، و 90 قطط باللون الأصفر. يتعلم النموذج أن القطط الصفراء أكثر انتشارًا ، ولكنه يمثل أيضًا القطط الزرقاء على أنها صفراء أكثر مما هي عليه بالفعل ، ويعيد بعض نتائج القطط الخضراء عندما يُطلب منها إنتاج بيانات جديدة. بمرور الوقت ، تتآكل السمة الأصلية للفراء الأزرق من خلال دورات التدريب الناجحة ، وتتحول من اللون الأزرق إلى الأخضر ، ثم الأصفر في النهاية. هذا التشويه التدريجي والفقدان النهائي لخصائص بيانات الأقلية هو انهيار النموذج. لمنع ذلك ، من المهم ضمان التمثيل العادل للأقليات في مجموعات البيانات ، من حيث الكمية والتصوير الدقيق للسمات المميزة. المهمة صعبة بسبب صعوبة تعلم النماذج من الأحداث النادرة.
ينتج عن هذا “التلوث” بالبيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي أن النماذج تكتسب تصورًا مشوهًا للواقع. حتى عندما قام الباحثون بتدريب النماذج على عدم إنتاج الكثير من الاستجابات المتكررة ، وجدوا أنه لا يزال يحدث انهيار النموذج ، حيث ستبدأ النماذج في تكوين استجابات خاطئة لتجنب تكرار البيانات بشكل متكرر.
قال شومايلوف: “هناك العديد من الجوانب الأخرى التي ستؤدي إلى تداعيات أكثر خطورة ، مثل التمييز على أساس الجنس أو العرق أو أي سمات حساسة أخرى” ، خاصةً إذا كان الذكاء الاصطناعي التوليدي يتعلم بمرور الوقت لإنتاج ، على سبيل المثال ، عرق واحد في ردوده ، بينما “نسيان” الآخرين موجودون.
من المهم ملاحظة أن هذه الظاهرة تختلف عن “النسيان الكارثي” ، حيث تفقد النماذج المعلومات التي تم تعلمها سابقًا. في المقابل ، ينطوي انهيار النموذج على نماذج تسيء تفسير الواقع بناءً على معتقداتهم المعززة.
وجد الباحثون وراء هذه الورقة البحثية أنه حتى لو تم استخدام 10٪ من البيانات الأصلية التي كتبها الإنسان لتدريب النموذج في الأجيال اللاحقة ، فإن “انهيار النموذج لا يزال يحدث ، ولكن ليس بالسرعة نفسها” ، كما قال شومايلوف لموقع VentureBeat.
طرق لتجنب “انهيار النموذج”
لحسن الحظ ، هناك طرق لتجنب انهيار النموذج ، حتى مع المحولات الحالية و LLMs.
يسلط الباحثون الضوء على طريقتين محددتين. الأول هو الاحتفاظ بنسخة هيبة من مجموعة البيانات الأصلية التي ينتجها الإنسان حصريًا أو اسميًا ، وتجنب التلوث بالبيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. بعد ذلك ، يمكن إعادة تدريب النموذج بشكل دوري على هذه البيانات ، أو تحديثه بالكامل ، بدءًا من نقطة الصفر.
الطريقة الثانية لتجنب تدهور جودة الاستجابة وتقليل الأخطاء أو التكرارات غير المرغوب فيها من نماذج الذكاء الاصطناعي هي إعادة إدخال مجموعات بيانات جديدة ونظيفة من صنع الإنسان في تدريبهم.
ومع ذلك ، كما يشير الباحثون ، فإن هذا سيتطلب نوعًا من آلية وضع العلامات الجماعية أو جهدًا من قبل منتجي المحتوى أو شركات الذكاء الاصطناعي للتمييز بين المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي والمحتوى الذي ينشئه الإنسان. في الوقت الحالي ، لا يوجد مثل هذا الجهد الموثوق أو الواسع النطاق عبر الإنترنت.
قال شومايلوف لموقع VentureBeat: “لوقف انهيار النموذج ، نحتاج إلى التأكد من تمثيل مجموعات الأقليات من البيانات الأصلية بشكل عادل في مجموعات البيانات اللاحقة”.
في الممارسة العملية هو غير تافه تماما. يجب نسخ البيانات احتياطيًا بعناية ، وتغطية جميع حالات الزاوية الممكنة. عند تقييم أداء النماذج ، باستخدام البيانات من المتوقع أن يعمل النموذج ، حتى أكثر حالات البيانات احتمالية. لاحظ أن هذا لا يعني أن البيانات غير المحتملة يجب أن يتم أخذ عينات منها بشكل زائد عن الحد ، ولكن يجب تمثيلها بشكل مناسب. نظرًا لأن التقدم يدفعك إلى إعادة تدريب النماذج الخاصة بك ، تأكد من تضمين البيانات القديمة وكذلك الجديدة. سيؤدي هذا إلى زيادة تكلفة التدريب ، ولكنه سيساعدك على مواجهة انهيار النموذج ، على الأقل إلى حد ما “.
ما الذي يمكن أن تفعله صناعة الذكاء الاصطناعي والمستخدمون حيال ذلك في المستقبل
في حين أن كل هذه الأخبار مقلقة بالنسبة لتكنولوجيا الذكاء الاصطناعي التوليدية الحالية والشركات التي تسعى إلى تحقيق الدخل منها ، خاصة على المدى المتوسط إلى الطويل ، إلا أن هناك جانبًا مضيئًا لمنشئي المحتوى البشري: خلص الباحثون إلى أنه في المستقبل المليء بالجينات. ستكون أدوات الذكاء الاصطناعي ومحتواها ، المحتوى الذي أنشأه الإنسان ، أكثر قيمة مما هي عليه اليوم – ولو كمصدر لبيانات التدريب الأصلية للذكاء الاصطناعي.
هذه النتائج لها آثار كبيرة على مجال الذكاء الاصطناعي ، مع التأكيد على الحاجة إلى أساليب محسنة للحفاظ على سلامة النماذج التوليدية بمرور الوقت. إنها تؤكد على مخاطر العمليات التوليدية غير الخاضعة للرقابة وقد توجه البحث المستقبلي لتطوير استراتيجيات لمنع أو إدارة انهيار النموذج.
قال شومايلوف: “من الواضح ، على الرغم من ذلك ، أن انهيار النموذج يمثل مشكلة بالنسبة للتعلم الآلي ويجب القيام بشيء حيال ذلك لضمان استمرار تحسن الذكاء الاصطناعي التوليدي”.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.