توصلت الدراسة إلى أن نماذج الانتشار يمكن أن تكون ملوثة بالأبواب الخلفية
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
شهد العام الماضي اهتمامًا متزايدًا بالذكاء الاصطناعي التوليدي (AI) – نماذج التعلم العميق التي يمكنها إنتاج جميع أنواع المحتوى ، بما في ذلك النصوص والصور والأصوات (وقريبًا مقاطع الفيديو). ولكن مثل أي اتجاه تكنولوجي آخر ، يمكن للذكاء الاصطناعي التوليدي أن يمثل تهديدات أمنية جديدة.
أظهرت دراسة جديدة أجراها باحثون في شركة IBM وجامعة تسينغ هوا الوطنية في تايوان والجامعة الصينية في هونغ كونغ أن الجهات الخبيثة يمكنها زرع أبواب خلفية في نماذج الانتشار بأقل قدر من الموارد. الانتشار هو بنية التعلم الآلي (ML) المستخدمة في DALL-E 2 ونماذج تحويل النص إلى صورة مفتوحة المصدر مثل Stable Diffusion.
يسلط الهجوم المسمى BadDiffusion ، الضوء على التداعيات الأمنية الأوسع للذكاء الاصطناعي التوليدي ، والذي يجد طريقه تدريجياً إلى جميع أنواع التطبيقات.
نماذج الانتشار ذات الأبواب الخلفية
نماذج الانتشار عبارة عن شبكات عصبية عميقة مدربة على إزالة التشويش من البيانات. التطبيق الأكثر شعبية حتى الآن هو تركيب الصور. أثناء التدريب ، يتلقى النموذج عينات من الصور ويحولها تدريجيًا إلى ضوضاء. ثم يعكس العملية ، في محاولة لإعادة بناء الصورة الأصلية من الضوضاء. بمجرد التدريب ، يمكن للنموذج أن يأخذ رقعة من البيكسلات الصاخبة وتحويلها إلى صورة حية.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
قال Pin-Yu Chen ، العالم في IBM Research AI والمؤلف المشارك لورقة BadDiffusion ، لموقع VentureBeat: “إن الذكاء الاصطناعي التوليدي هو التركيز الحالي لتقنية الذكاء الاصطناعي ومجال رئيسي في نماذج الأساس”. “يتجه مفهوم AIGC (المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي).”
إلى جانب مؤلفيه المشاركين ، سعى تشين – الذي له تاريخ طويل في التحقيق في أمان نماذج ML – إلى تحديد كيفية اختراق نماذج الانتشار.
في الماضي ، درس المجتمع البحثي هجمات الأبواب الخلفية والدفاعات بشكل رئيسي في مهام التصنيف. قال تشين: “لم تتم دراسة سوى القليل عن نماذج الانتشار”. “استنادًا إلى معرفتنا بهجمات الأبواب الخلفية ، نهدف إلى استكشاف مخاطر الأبواب الخلفية للذكاء الاصطناعي التوليدي.”
استلهمت الدراسة أيضًا تقنيات العلامات المائية الحديثة التي تم تطويرها لنماذج الانتشار. سعى لتحديد ما إذا كان يمكن استغلال نفس الأساليب لأغراض ضارة.
في هجوم Bad Diffusion ، يعدل ممثل ضار بيانات التدريب وخطوات الانتشار لجعل النموذج حساسًا لمشغل خفي. عندما يتم تزويد النموذج المدرب بنمط المشغل ، فإنه يولد ناتجًا محددًا يقصده المهاجم. على سبيل المثال ، يمكن للمهاجم استخدام الباب الخلفي لتجاوز عوامل تصفية المحتوى المحتملة التي يضعها المطورون على نماذج الانتشار.
يعتبر الهجوم فعالاً لأنه يحتوي على “فائدة عالية” و “خصوصية عالية”. هذا يعني أنه من ناحية ، بدون المشغل ، سيتصرف النموذج ذو الباب الخلفي كنموذج انتشار لا هوادة فيه. من ناحية أخرى ، فإنه سيولد فقط مخرجات ضارة عند تزويده بالمشغل.
تكمن حداثتنا في معرفة كيفية إدراج المصطلحات الرياضية الصحيحة في عملية الانتشار بحيث أن النموذج المدرب على عملية الانتشار المخترقة (التي نسميها إطار عمل BadDiffusion) سوف يحمل أبواب خلفية ، مع عدم المساس بفائدة مدخلات البيانات العادية (مماثلة). قال تشين.
هجوم منخفض التكلفة
يعد تدريب نموذج الانتشار من نقطة الصفر أمرًا مكلفًا ، مما يجعل من الصعب على المهاجم إنشاء نموذج ذي باب خلفي. لكن تشين وزملاؤه وجدوا أنه يمكنهم بسهولة زرع باب خلفي في نموذج انتشار مدرب مسبقًا مع قليل من الضبط الدقيق. مع وجود العديد من نماذج الانتشار المدربة مسبقًا والمتاحة في محاور تعلم الآلة عبر الإنترنت ، فإن تشغيل BadDiffusion يكون عمليًا وفعالًا من حيث التكلفة.
قال تشين: “في بعض الحالات ، يمكن أن ينجح هجوم الضبط الدقيق من خلال تدريب 10 فترات على مهام المصب ، والتي يمكن إنجازها بواسطة وحدة معالجة رسومات واحدة”. “يحتاج المهاجم فقط إلى الوصول إلى نموذج مدرب مسبقًا (نقطة تفتيش علنية) ولا يحتاج إلى الوصول إلى بيانات ما قبل التدريب.”
العامل الآخر الذي يجعل الهجوم عمليًا هو شعبية النماذج المدربة مسبقًا. لخفض التكاليف ، يفضل العديد من المطورين استخدام نماذج نشر مُدربة مسبقًا بدلاً من تدريب نماذجهم الخاصة من البداية. هذا يجعل من السهل على المهاجمين نشر النماذج ذات الأبواب الخلفية من خلال محاور تعلم الآلة على الإنترنت.
قال تشين: “إذا قام المهاجم بتحميل هذا النموذج للجمهور ، فلن يتمكن المستخدمون من معرفة ما إذا كان النموذج به أبواب خلفية أم لا من خلال تبسيط فحص جودة إنشاء الصور الخاصة بهم”.
الهجمات المخففة
استكشف تشين وزملاؤه في بحثهم طرقًا مختلفة لاكتشاف الأبواب الخلفية وإزالتها. أثبتت إحدى الطرق المعروفة ، وهي “تقليم العصبونات العدائية” ، أنها غير فعالة ضد الانتشار السيء. أظهرت طريقة أخرى ، والتي تحدد نطاق الألوان في خطوات انتشار وسيطة ، نتائج واعدة. لكن تشين أشار إلى أنه “من المحتمل أن هذا الدفاع قد لا يصمد أمام الهجمات الخلفية التكيفية والأكثر تقدمًا”.
قال تشين: “لضمان تنزيل النموذج الصحيح بشكل صحيح ، قد يحتاج المستخدم إلى التحقق من صحة النموذج الذي تم تنزيله” ، مشيرًا إلى أن هذا ليس شيئًا يفعله الكثير من المطورين للأسف.
يستكشف الباحثون امتدادات أخرى لـ BadDiffusion ، بما في ذلك كيفية عملها على نماذج الانتشار التي تولد الصور من المطالبات النصية.
أصبح أمان النماذج التوليدية مجالًا متزايدًا للبحث في ضوء شعبية هذا المجال. يستكشف العلماء تهديدات أمنية أخرى ، بما في ذلك هجمات الحقن الفوري التي تسبب نماذج لغوية كبيرة مثل ChatGPT لإفشاء الأسرار.
قال تشين: “الهجمات والدفاعات هي في الأساس لعبة القط والفأر في التعلم الآلي العدائي”. “ما لم تكن هناك بعض الدفاعات المثبتة للكشف والتخفيف ، قد لا تكون الدفاعات الإرشادية موثوقة بما فيه الكفاية.”
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.