GPT-4 عبارة عن صندوق أسود ضخم ولا تزال بيانات التدريب الخاصة به لغزا
“أنت لا تريد أن تعرف كيف يتم صنع النقانق.”
بقدر ما كنت قد سمعت هذه العبارة ، فأنا هنا لأقول ذلك ، حقًا ، أنت تفعل ، أو على الأقل يجب عليك ذلك. إذا كنت ستدفع النقانق في فتحة فمك ، ألا تريد أن تعرف ما إذا كان شخص ما يسكب نشارة الخشب في النقانق؟ الشيء نفسه ينطبق على التكنولوجيا. الآن مع نماذج اللغات الكبيرة للذكاء الاصطناعي التي تأخذ عالم التكنولوجيا عن طريق العاصفة ، فأنت تريد معرفة نوع البيانات التي يتم استخدامها لإنشاء ChatGPT أو أي LLM آخر.
يوم الثلاثاء، أصدرت شركة OpenAI نموذجها GPT-4، مشيرًا إليه باعتباره نموذج لغة الذكاء الاصطناعي الأكثر تقدمًا الذي تم إنشاؤه على الإطلاق “بدقة أكبر” و “معرفة أوسع”. على الرغم من أنه سيتعين عليك فقط أخذ كلمة الشركة من أجلها. على الرغم من اسمها ، فإن OpenAI لا تسمح لأي شخص بالذروة تحت غطاء طرازها اللغوي الجديد من فئة Ferrari. في الورقة التي تم إصدارها باستخدام GPT-4 ، كتبت الشركة:
“نظرًا لكل من المشهد التنافسي والآثار المتعلقة بالسلامة للنماذج واسعة النطاق مثل GPT-4 ، لا يحتوي هذا التقرير على مزيد من التفاصيل حول البنية (بما في ذلك حجم النموذج) أو الأجهزة أو حوسبة التدريب أو إنشاء مجموعة البيانات أو طريقة التدريب أو ما شابه ذلك.”
أكد رئيس OpenAI جريج بروكمان مع تك كرانش أن GPT-4 تم تدريبه الآن على الصور والنصوص ، لكنه كان لا يزال غير راغب في مناقشة تفاصيل حول مصدر تلك الصور ، أو أي شيء آخر حول بيانات التدريب الخاصة بها. أوبن إيه آي تقاوم دعوى قضائية جماعية مقترحة تستهدف شراكتها مع GitHub لأداة Copilot الخاصة بمساعد الذكاء الاصطناعي. هناك شيء آخر الدعاوى القضائية الجارية بشأن الصور المستخدمة لتدريب مولدات الصور بالذكاء الاصطناعيلذلك ربما تحاول OpenAI حماية نفسها من أي مفاجآت قانونية.
تواصلت Gizmodo مع شركة OpenAI لمعرفة المزيد عن اتخاذ القرار ، لكننا لم نتلق أي رد. في مقابلة الأربعاء مع الحافة، إيليا سوتسكيفر ، أحد مؤسسي شركة OpenAI ، أفقد مدى “خطأ” الشركة في إصدار بيانات التدريب الخاصة بها في السنوات السابقة. وقال إن جعل الذكاء الاصطناعي مفتوح المصدر “فكرة سيئة” ليس فقط بسبب المنافسة ، ولكن لأن الذكاء الاصطناعي العام أو الذكاء الاصطناعي العام سيكون “فعالاً للغاية”. ضع في اعتبارك أنه لا يوجد شيء مثل الذكاء الاصطناعي العام ، كما هو الحال في التكنولوجيا ، علم الذكاء الاصطناعي. إنه كلها مجرد تخمينلكن يبدو أن شركة OpenAI تعتقد أنها موجودة بالفعل في الطابق الأرضي.
قد تحصل G / O Media على عمولة
قالت الشركة إنها تشارك بعض البيانات مع مدققين خارجيين ، لكن من غير المحتمل أن نرى تشريح GPT-4 الكامل لهؤلاء الباحثين. كانت أوبن إيه آي منظمة غير ربحية من قبل إنشاء شركة تابعة هادفة للربح على أمل أن تصبح أكبر قوة للذكاء الاصطناعي على هذا الكوكب (حتى المستثمر الأصلي في OpenAI Elon Musk يبدو مرتبكًا كيف حدث هذا). حتى الآن ، قال خبراء الذكاء الاصطناعي برئاسة سام ألتمان في أوبن إيه آي إنهم بحاجة إلى “تقييم اعتبارات المنافسة والسلامة … مقابل القيمة العلمية لمزيد من الشفافية.”
هناك عدة طرق لمعرفة أنواع التحيز المحددة التي تحتوي عليها GPT-4
بن شميدت ، أستاذ التاريخ السابق الذي يعمل الآن نائبًا للرئيسالمعلومات دقم بالتسجيل في شركة تحليل مجموعة البيانات AI نوميكقال إن نقص المعلومات حول مجموعة بيانات GPT-4 أمر مقلق للغاية لأن هذه البيانات يمكن أن توفر أدلة على نوع التحيزات و قد يحتوي نموذج AI. بدونها ، يمكن للمجموعات الخارجية فقط التخمين.
كانت الشركة تسير في هذا الطريق لفترة من الوقت. تم تدريب النموذج اللغوي السابق للشركة GPT-3 على العديد من وحدات تيرابايت من النصوص التي تم تحميلها على الإنترنت. الشركة اعترف يؤدي هذا إلى عدم تمثيل بعض المجموعات غير الموجودة على الإنترنت وإبلاغها بـ الذكاء الاصطناعي لبعض التحيزات.
اعترفت شركة OpenAI في ورقتها GPT-4 بوجود “تحيزات مختلفة في مخرجاتها والتي بذلنا جهودًا لتصحيحها ولكنها ستستغرق بعض الوقت لتوصيفها وإدارتها بشكل كامل”. الهدف هو جعل النظام يعكس “مجموعة واسعة من قيم المستخدمين” حتى القدرة على تخصيص تلك “القيم”. أظهرت مبادرات الفريق الأحمر الخاصة بالشركة أن GPT-4 يمكن أن ينافس دعاة الدعاية البشرية ، خاصةً إذا اقترن بالمحرر البشري. حتى مع هذا الاعتراف ، لن يعرف الباحثون خارج أوبن إيه آي من أين يمكن أن يحصلوا على أي من هذا التحيز.
بعد أن أصدرت شركة OpenAI GPT-4 ، قام باحثو أمن الذكاء الاصطناعي في ادفرسيرا أجرى بعض هجمات الحقن الفوري البسيطة لمعرفة كيف يمكنه التلاعب بالذكاء الاصطناعي. تخدع هذه المطالبات الذكاء الاصطناعي لتجاوز إجراءات الحماية الخاصة به. يمكن للذكاء الاصطناعي بعد ذلك إنشاء مقال محرّر ، على سبيل المثال ، لشرح أفضل طريقة لتدمير العالم. في مثال أكثر صلة ببيئتنا السياسية المجنونة ، يمكن لباحثي Adversera أيضًا جعل الذكاء الاصطناعي يكتب مقالة محررة باستخدام نصوص تخريبية وصفارات الكلاب لمهاجمة أفراد مجتمع الميم.
بدون معرفة من أين تستمد GPT-4 معلوماتها ، من الصعب فهم أين تكمن أسوأ الأضرار. كتبت أستاذة اللسانيات الحاسوبية في جامعة واشنطن إميلي بيندر على تويتر أن هذه كانت مشكلة مستمرة مع شركة OpenAI منذ عام 2017. وقالت إن أوبن إيه آي “تتجاهل عن عمد معظم استراتيجيات التخفيف من المخاطر الأساسية ، كل ذلك في الوقت الذي يعلنون فيه أنهم يعملون من أجل مصلحة البشرية. . ”
حتى لو كان GPT-3 أكثر انفتاحًا بشأن بيانات التدريب الخاصة به ، فإنه لا يزال غامضًا بشأن التفاصيل. في رسالة بريد إلكتروني إلى Gizmodo ، أشار شميدت إلى ورقة GPT-3 التي تضمنت نقاط بيانات “Books1” و “Books2”. يشكل هذان العنصران 16٪ من مجموعة البيانات ، ومع ذلك يمكن للباحثين فقط التكهن بما تعنيه تلك ، وأي الكتب يمكن تضمينها في مجموعة البيانات (خاصةً لأنها لا تشبه أدوات كشط الويب). اطلب إذن المؤلفين قبل التهام كل تلك البيانات. ). لقد كان أسوأ في السنوات السابقة. قال شميدت إن OpenAI أطلقت GPT-2 باستخدام بيانات مسروقة حاولت تحليل الصفحات “عالية الجودة” بناءً على عدد أصوات Reddit التي تلقتها.
الأمر متروك لمرشحات OpenAI غير الشفافة نسبيًا فيما إذا كان r / the_donald الذي تم التصويت عليه عاليًا قد جعله في إصدارات مختلفة من مجموعة تدريب OpenAI. قالت الشركة إنها عملت مع الباحثين والمتخصصين في الصناعة ، وتتوقع إجراء المزيد من الاختبارات في المستقبل. ومع ذلك ، سيستمر النظام في “تعزيز التحيزات الاجتماعية ووجهات النظر العالمية”.
تقترب شركة OpenAI من أن تصبح تمامًا مثل أي شركة تقنية كبيرة أخرى
في أحدث ورقتها ، كتبت OpenAI “سننشر قريبًا توصيات بشأن الخطوات التي يمكن أن يتخذها المجتمع للتحضير لتأثيرات الذكاء الاصطناعي والأفكار الأولية لتوقع التأثيرات الاقتصادية المحتملة للذكاء الاصطناعي” ، على الرغم من عدم وجود أي تلميح لموعد نهائي لهذا التقييم. تستشهد الشركة ببياناتها الداخلية الخاصة بكيفية تقديم أحدث نموذج لغوي إجابات على “المطالبات الحساسة” ، أي المشورة الطبية أو إيذاء النفس ، في حوالي 23٪ من الوقت. وسوف تستجيب “للمطالبات غير المسموح بها” بنسبة 73٪ من الوقت.
تستند تلك المجموعة الأخيرة من البيانات إلى سمية حقيقية تطالب بمجموعة بيانات، أداة تقييم مفتوحة المصدر تتضمن 100000 مقتطفات جملة تحتوي على بعض المحتوى السيء جدًا. بهذه الطريقة ، لدينا فكرة صغيرة عما لا تحبه GPT-4 ، لكن لا أحد خارج الشركة يفهم الكثير من نوع المحتوى الذي قد يكون متقيئًا. بعد كل شيء ، أظهر الباحثون أنظمة الذكاء الاصطناعي قادرة تمامًا على تجسيد الجمل ببساطة من مجموعة البيانات الخاصة به.
النظر في كيفية GPT-4 قادر على الكذب على البشر من أجل حل مهمة مثل حل اختبار CAPTCHA، سيكون من الجيد معرفة مصدر بعض أفكارها. الشيء الوحيد هو أن شركة OpenAI لا تخبرنا بذلك. بالنظر إلى أن الشركة لديها أ شراكة بمليارات الدولارات مع Microsoft على الخط ، والآن بعد أن فتحت واجهة برمجة التطبيقات (API) الباب لـ عمليا كل شركة تكنولوجيا تحت الشمس عند الدفع مقابل قدرات الذكاء الاصطناعي ، هناك سؤال حول ما إذا كان السعي وراء الدولار العظيم قد تجاوز قضية الشفافية والصرامة الأكاديمية.
أشار شميدت إلى أن الأوراق البحثية الأخيرة من Google حول نموذج Gopher AI و Meta LlaMA كانت أكثر شفافية بشأن بيانات التدريب الخاصة بها ، بما في ذلك الحجم والأصل وخطوات المعالجة ، على الرغم من عدم إصدار أي من الشركتين مجموعة البيانات الكاملة للمستخدمين للاطلاع عليها. لقد تواصلنا مع شركة Anthropic ، وهي شركة ناشئة مدعومة من Google مكونة من بعض موظفي OpenAI السابقين ، لمعرفة ما إذا كان لديها أي ورقة حول كلود AI الذي تم الإعلان عنه حديثًا ، لكننا لم نتلق ردًا على الفور.
قال شيمدت: “سيكون من العار أن يتبعوا أوبن إيه آي في الحفاظ على أكبر قدر ممكن من السرية”.
لا ، OpenAI ليست غامضة مثل شركات التكنولوجيا الأخرى الموجودة هناك. تقدم ورقة GPT-4 قدرًا كبيرًا من المعلومات حول النظام ، لكنها فقط سريع، وعلينا أن نثق في الشركة في مشاركة البيانات بدقة. حيث تقود أوبن إيه آي ، ستتبع الشركات الأخرى القائمة على الذكاء الاصطناعي ، ولا يمكن للشركة ببساطة أن تتخطى الخط الفاصل بين الشفافية الكاملة وأن تصبح مكتنزًا لبيانات التدريب “الثمينة” الخاصة بشركة Gollum-esque. إذا استمر في هذا المسار ، فلن يمر وقت طويل قبل أن تصبح OpenAI مجرد Meta أو Amazon أخرى ، مما يؤدي إلى استنزاف كميات هائلة من البيانات لبيعها لمن يدفع أعلى سعر.