يوضح Hacker وجود عيوب أمنية في GPT-4 بعد يوم واحد فقط من الإطلاق
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
كان نموذج اللغة الجديد القوي لـ OpenAI ، GPT-4 ، بالكاد بعيدًا عن الأبواب عندما اكتشف الطالب نقاط الضعف التي يمكن استغلالها لغايات ضارة. هذا الاكتشاف هو تذكير صارخ بالمخاطر الأمنية التي تصاحب أنظمة الذكاء الاصطناعي ذات القدرات المتزايدة.
في الأسبوع الماضي ، أصدرت OpenAI GPT-4 ، وهو نظام “متعدد الوسائط” يصل إلى مستوى الأداء البشري في المهام اللغوية. لكن في غضون أيام ، وجد أليكس ألبرت ، طالب علوم الكمبيوتر بجامعة واشنطن ، طريقة لتجاوز آليات الأمان الخاصة به. في عرض توضيحي نُشر على Twitter ، أظهر ألبرت كيف يمكن للمستخدم أن يدفع GPT-4 لتوليد تعليمات لاختراق جهاز كمبيوتر ، من خلال استغلال نقاط الضعف في الطريقة التي يفسر بها النص ويستجيب له.
بينما يقول ألبرت إنه لن يروج لاستخدام GPT-4 لأغراض ضارة ، فإن عمله يسلط الضوء على تهديد نماذج الذكاء الاصطناعي المتقدمة في الأيدي الخطأ. نظرًا لأن الشركات تطرح بسرعة أنظمة أكثر قدرة من أي وقت مضى ، فهل يمكننا ضمان تأمينها بشكل صارم؟ ما هي الآثار المترتبة على نماذج الذكاء الاصطناعي التي يمكن أن تولد نصًا يبدو وكأنه إنسان عند الطلب؟
تحدث VentureBeat مع ألبرت من خلال رسائل Twitter المباشرة لفهم دوافعه ، وتقييم مخاطر النماذج اللغوية الكبيرة ، واستكشاف كيفية تعزيز مناقشة واسعة حول وعود ومخاطر الذكاء الاصطناعي المتقدم. (ملاحظة المحرر: تم تحرير هذه المقابلة من أجل الطول والوضوح).
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
VentureBeat: ما الذي دفعك إلى كسر الحماية ولماذا تقوم بكسر ChatGPT؟
أليكس ألبرت: لقد دخلت في عملية كسر الحماية لأنه أمر ممتع ومن المثير للاهتمام اختبار هذه النماذج بطرق فريدة ومبتكرة. إنني أقوم بعمل جيلبريك بشكل نشط لثلاثة أسباب رئيسية أوجزتها في القسم الأول من رسالتي الإخبارية. في ملخص:
- أقوم بإنشاء عمليات كسر الحماية لتشجيع الآخرين على القيام بسرور الجلبريك
- أحاول كشف تحيزات النموذج الدقيق من خلال النموذج الأساسي القوي
- أحاول فتح محادثة الذكاء الاصطناعي لوجهات نظر خارج الفقاعة – إن عمليات كسر الحماية هي مجرد وسيلة لتحقيق غاية في هذه الحالة
VB: هل لديك إطار عمل للتغلب على الإرشادات المبرمجة في GPT-4؟
ألبرت: [I] ليس لديك إطار عمل بحد ذاته ، ولكن الأمر يتطلب مزيدًا من التفكير والجهد للالتفاف على عوامل التصفية. أثبتت بعض التقنيات فعاليتها ، مثل الحقن الفوري عن طريق تقسيم المطالبات العدائية إلى أجزاء ، والمحاكاة المعقدة التي تتعمق في مستويات متعددة.
VB: ما مدى سرعة مصححة كسر الحماية؟
ألبرت: لا يتم تصحيح حالات كسر الجلبريك بهذه السرعة ، عادة. لا أريد التكهن بما يحدث خلف الكواليس مع ChatGPT لأنني لا أعرف ، لكن الشيء الذي يزيل معظم حالات كسر الحماية هو ضبط إضافي أو نموذج محدث.
VB: لماذا تستمر في إنشاء عمليات كسر الحماية إذا استمرت OpenAI في “إصلاح” الثغرات؟
ألبرت: لأن هناك المزيد من الأشياء التي تنتظر من يكتشفها.
VB: هل يمكن أن تخبرني قليلاً عن خلفيتك؟ كيف بدأت في الهندسة السريعة؟
ألبرت: لقد أنهيت للتو ربع العام في جامعة واشنطن في سياتل ، وتخرجت بدرجة في علوم الكمبيوتر. تعرفت على الهندسة السريعة الصيف الماضي بعد العبث بـ GPT-3. منذ ذلك الحين ، احتضنت حقًا موجة الذكاء الاصطناعي وحاولت استيعاب أكبر قدر ممكن من المعلومات عنها.
VB: كم عدد الأشخاص الذين يشتركون في رسالتك الإخبارية؟
ألبرت: حاليًا ، لدي ما يزيد قليلاً عن 2.5 ألف مشترك في أقل من شهر بقليل.
VB: كيف بدأت فكرة النشرة الإخبارية؟
ألبرت: بدأت فكرة النشرة الإخبارية بعد إنشاء موقع الويب الخاص بي jailbreakchat.com. أردت مكانًا للكتابة عن عملي في كسر الحماية ومشاركة تحليلي للأحداث والاتجاهات الحالية في عالم الذكاء الاصطناعي.
VB: ما هي بعض أكبر التحديات التي واجهتها في إنشاء كسر الحماية؟
ألبرت: لقد ألهمتني إنشاء أول جيلبريك لـ GPT-4 بعد أن أدركت أن حوالي <10٪ فقط من عمليات كسر الحماية السابقة التي قمت بفهرستها لـ GPT-3 و GPT-3.5 عملت مع GPT-4. استغرق الأمر يومًا تقريبًا للتفكير في الفكرة وتنفيذها بشكل عام. أريد أن أضيف هذا الجيلبريك لما كان ممكناً لولا ذلك [Vaibhav Kumar’s] إلهام أيضا.
VB: ما هي بعض أكبر التحديات التي واجهت إنشاء جيلبريك؟
ألبرت: كان التحدي الأكبر بعد إنشاء المفهوم الأولي هو التفكير في كيفية تعميم كسر الحماية بحيث يمكن استخدامه لجميع أنواع المطالبات والأسئلة.
VB: ما رأيك في تداعيات هذا الجيلبريك على مستقبل الذكاء الاصطناعي والأمن؟
ألبرت: آمل أن يلهم هذا الجيلبريك الآخرين للتفكير بطريقة إبداعية حول عمليات كسر الحماية. لم تعد عمليات كسر الحماية البسيطة التي عملت على GPT-3 تعمل ، لذا يلزم مزيد من الحدس للالتفاف على فلاتر GPT-4. يظهر كسر الحماية هذا فقط أن أمان LLM سيكون دائمًا لعبة القط والفأر.
VB: ما هي في رأيك الآثار الأخلاقية لإنشاء جيلبريك لـ GPT-4؟
ألبرت: لكي نكون صادقين ، يتم المبالغة في مخاوف السلامة والمخاطر في الوقت الحالي مع نماذج GPT-4 الحالية. ومع ذلك ، فإن المواءمة شيء يجب على المجتمع أن يفكر فيه وأردت إدخال المناقشة في الاتجاه السائد.
لا تكمن المشكلة في GPT-4 في قول كلمات سيئة أو إعطاء تعليمات رهيبة حول كيفية اختراق جهاز كمبيوتر شخص ما. لا ، فبدلاً من ذلك تكمن المشكلة عندما يتم إصدار GPT-4 ولا يمكننا تمييز قيمها حيث يتم استنتاجها خلف الأبواب المغلقة لشركات الذكاء الاصطناعي.
نحن بحاجة إلى بدء خطاب سائد حول هذه النماذج وكيف سيبدو مجتمعنا في غضون خمس سنوات مع استمرار تطورها. العديد من المشاكل التي ستنشأ هي أشياء يمكننا استقراءها من اليوم لذا يجب أن نبدأ الحديث عنها في الأماكن العامة.
VB: كيف تعتقد أن مجتمع الذكاء الاصطناعي سيستجيب لكسر الحماية؟
ألبرت: على غرار شيء مثل ميل روجر بانيستر البالغ أربع دقائق ، آمل أن يثبت هذا أن حالات الهروب من السجن لا تزال ممكنة ويلهم الآخرين للتفكير بشكل أكثر إبداعًا عند ابتكار مآثرهم الخاصة.
الذكاء الاصطناعي ليس شيئًا يمكننا إيقافه ، ولا ينبغي لنا أن نوقفه ، لذلك من الأفضل أن نبدأ خطابًا عالميًا حول قدرات النماذج وحدودها. لا ينبغي مناقشة هذا الأمر فقط في “مجتمع الذكاء الاصطناعي”. يجب على مجتمع الذكاء الاصطناعي أن يحيط الجمهور بشكل عام.
VB: لماذا من المهم أن يقوم الناس بكسر حماية ChatGPT؟
ألبرت: أيضًا من رسالتي الإخبارية: “سيكتشف 1000 شخص يكتبون حالات كسر الحماية من الجلبريك طرقًا جديدة للهجوم أكثر من 10 باحثين في مجال الذكاء الاصطناعي عالقون في المختبر. من المفيد اكتشاف كل هذه الثغرات الأمنية في النماذج الآن بدلاً من خمس سنوات من الآن عندما يكون GPT-X متاحًا للجميع “. ونحتاج إلى مشاركة المزيد من الأشخاص في جميع أجزاء محادثة الذكاء الاصطناعي بشكل عام ، بما يتجاوز مجرد Twitter Bubble.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.