إعادة التفكير في معايير الذكاء الاصطناعي: ورقة جديدة تتحدى الوضع الراهن لتقييم الذكاء الاصطناعي
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
في السنوات الأخيرة ، حقق الذكاء الاصطناعي (AI) تقدمًا ملحوظًا في أداء المهام المعقدة التي كانت تعتبر في السابق مجالًا للذكاء البشري. من اجتياز امتحان البار والالتحاق بـ SAT إلى إتقان إتقان اللغة وتشخيص الصور الطبية ، تجاوزت أنظمة الذكاء الاصطناعي مثل GPT-4 و PaLM 2 الأداء البشري في مختلف المعايير.
المعايير المعيارية هي في الأساس اختبارات موحدة تقيس أداء أنظمة الذكاء الاصطناعي في مهام وأهداف محددة. يتم استخدامها على نطاق واسع من قبل الباحثين والمطورين لمقارنة وتحسين النماذج والخوارزميات المختلفة ؛ ومع ذلك ، تم نشر ورقة جديدة في علوم يتحدى صحة وفائدة العديد من المعايير الحالية لتقييم أنظمة الذكاء الاصطناعي.
تجادل الورقة بأن المعايير غالبًا ما تفشل في التقاط القدرات والقيود الحقيقية لأنظمة الذكاء الاصطناعي ، ويمكن أن تؤدي إلى استنتاجات خاطئة أو مضللة حول سلامتها وموثوقيتها. على سبيل المثال ، قد لا تأخذ المعايير في الحسبان كيفية تعامل أنظمة الذكاء الاصطناعي مع عدم اليقين أو الغموض أو المدخلات العدائية. قد لا تعكس أيضًا كيفية تفاعل أنظمة الذكاء الاصطناعي مع البشر أو الأنظمة الأخرى في بيئات معقدة وديناميكية.
يمثل هذا تحديًا كبيرًا عند اتخاذ قرارات مستنيرة حول الأماكن الآمنة لاستخدام هذه الأنظمة. وبالنظر إلى الضغط المتزايد على الشركات لاستخدام أنظمة الذكاء الاصطناعي المتقدمة في منتجاتها ، يحتاج المجتمع إلى إعادة التفكير في منهجه لتقييم النماذج الجديدة.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
الحاجة إلى المقاييس الإجمالية
لتطوير أنظمة ذكاء اصطناعي آمنة وعادلة ، يجب على الباحثين والمطورين التأكد من أنهم يفهمون ما هو قادر على النظام وأين يفشل.
قال رايان بورنيل ، باحث الذكاء الاصطناعي في جامعة كامبريدج والمؤلف الرئيسي للورقة ، لموقع VentureBeat: “لبناء هذا الفهم ، نحتاج إلى ثقافة بحثية جادة فيما يتعلق بكل من القوة والشفافية”. لكننا نعتقد أن ثقافة البحث مفقودة على كلا الجبهتين في الوقت الحالي.
إحدى المشكلات الرئيسية التي أشار إليها بورنيل ومؤلفوه المشاركون هي استخدام المقاييس الإجمالية التي تلخص الأداء العام لنظام الذكاء الاصطناعي في فئة من المهام مثل الرياضيات أو التفكير أو تصنيف الصور. المقاييس الإجمالية ملائمة بسبب بساطتها. لكن الراحة تأتي على حساب الشفافية ونقص التفاصيل حول بعض الفروق الدقيقة في أداء نظام الذكاء الاصطناعي في المهام الحرجة.
“إذا كانت لديك بيانات من عشرات المهام وربما آلاف الحالات الفردية لكل مهمة ، فليس من السهل دائمًا تفسير تلك البيانات ونقلها. تسمح لك المقاييس الإجمالية بإيصال النتائج بطريقة بسيطة وبديهية يمكن للقراء والمراجعين أو – كما نرى الآن – للعملاء فهمها بسرعة “. “المشكلة هي أن هذا التبسيط يمكن أن يخفي أنماطًا مهمة حقًا في البيانات التي يمكن أن تشير إلى التحيزات المحتملة ، أو مخاوف تتعلق بالسلامة ، أو تساعدنا فقط في معرفة المزيد حول كيفية عمل النظام ، لأننا لا نستطيع تحديد مكان فشل النظام.”
هناك العديد من الطرق التي يمكن أن تسوء فيها معايير الأداء الإجمالية. على سبيل المثال ، قد يكون للنموذج أداء عام مقبول على مقياس معياري إجمالي ولكنه أداء ضعيف في مجموعة فرعية من المهام. وجدت دراسة أجريت على أنظمة التعرف على الوجه التجارية أن النماذج التي تتميز بدقة عالية للغاية كان أداؤها ضعيفًا على الوجوه ذات البشرة الداكنة. في حالات أخرى ، قد يتعرف النموذج على أنماط خاطئة ، مثل اكتشاف الكائنات بناءً على خلفياتها أو علاماتها المائية أو غيرها من القطع الأثرية التي لا تتعلق بالمهمة الرئيسية. يمكن لنماذج اللغات الكبيرة (LLM) أن تجعل الأمور أكثر تعقيدًا.
قال بورنيل: “مع تزايد استخدام النماذج اللغوية الكبيرة للأغراض العامة ، فإن هذه المشكلة تزداد سوءًا لأن نطاق القدرات التي نحتاج إلى تقييمها يزداد اتساعًا”. “هذا يعني أنه عندما نجمع كل البيانات ، فإننا نجمع التفاح والبرتقال بطريقة لا معنى لها.”
وفقًا للعديد من الدراسات ، فإن LLM التي تؤدي أداءً جيدًا في المهام المعقدة تفشل بشكل سيئ في مهام أبسط بكثير ، مثل حل المشكلات الرياضية المعقدة ولكن تقديم إجابات خاطئة إذا تم طرح نفس المشكلة بطريقة مختلفة. تظهر دراسات أخرى أن النماذج نفسها تفشل في المشكلات الأولية التي يحتاج الشخص لإتقانها قبل تعلم مهام أكثر تعقيدًا.
قال بورنيل: “المشكلة الأوسع هنا هي أننا قد نشعر بثقة زائدة في قدرات أنظمتنا ونشرها في المواقف التي لا تكون فيها آمنة أو موثوقة”.
على سبيل المثال ، تتمثل إحدى الإنجازات التي تم الإعلان عنها بشكل كبير في التقرير الفني لـ GPT-4 في قدرة النموذج على اجتياز اختبار شريط محاكاة والحصول على أعلى 10٪ من المتقدمين للاختبار. ومع ذلك ، لا يقدم التقرير أي تفاصيل حول الأسئلة أو المهام التي فشل النموذج فيها.
قال بورنيل: “إذا كانت هذه المهام مهمة للغاية أو يتم طرحها بشكل متكرر ، فقد لا نرغب في الوثوق بالنظام في مثل هذا السياق شديد الخطورة”. “أنا لا أقول إن ChatGPT لا يمكن أن يكون مفيدًا في السياقات القانونية ، ولكن مجرد معرفة أنه يحرز النسبة المئوية 90 في اختبار المحاماة غير كافٍ لاتخاذ قرارات مستنيرة بشأن هذه المشكلة.”
يمكن للبيانات الدقيقة تحسين تقييم الذكاء الاصطناعي
هناك مشكلة أخرى أبرزها بورنيل والمؤلفون المشاركون في ورقتهم وهي عدم وجود تقارير تقييم لكل حالة على حدة. بدون الوصول إلى البيانات الدقيقة حول الأمثلة المستخدمة لاختبار النموذج ، سيكون من الصعب جدًا على الباحثين المستقلين التحقق من النتائج المنشورة في الأوراق أو تأكيدها.
قال بورنيل: “إن تقييم الشفافية مهم حقًا من منظور المساءلة … من المهم حقًا أن يكون لدى المجتمع طريقة للتدقيق والتقييم المستقل للنتائج لفحص قوة الأنظمة والتحقق من أي نقاط فشل أو تحيزات”. “ولكن نشر نتائج التقييم على الملأ يوفر أيضًا الكثير من القيمة من منظور علمي.”
ومع ذلك ، فإن الوصول إلى تقييم كل حالة على حدة يزداد صعوبة. وفقًا لإحدى الدراسات ، توفر نسبة صغيرة فقط من الأوراق البحثية المقدمة في أفضل مؤتمرات الذكاء الاصطناعي وصولاً محببًا إلى حالات الاختبار والنتائج. وقد أصبح تقييم الأنظمة المتطورة مثل ChatGPT و GPT-4 باهظ التكلفة ويستغرق وقتًا طويلاً بسبب تكاليف الاستدلال وعدد أمثلة الاختبار المطلوبة.
لذلك ، بدون هذه البيانات ، يضطر الباحثون الآخرون وصانعو السياسات إما إلى القيام باستثمارات كبيرة لإجراء اختباراتهم الخاصة ، أو أخذ النتائج المبلغ عنها في ظاهرها. من ناحية أخرى ، إذا أتاح الباحثون بيانات التقييم الخاصة بهم للآخرين ، فيمكن توفير الكثير من التكاليف غير الضرورية. ومع تزايد عدد المنصات التي تتيح تحميل نتائج التقييم ، أصبح نشر بيانات البحث أسهل وأقل تكلفة بكثير.
قال بورنيل: “خاصة عندما يتعلق الأمر بالمعايير القياسية الشائعة في الذكاء الاصطناعي ، هناك العديد من الطرق المختلفة التي يمكن من خلالها استخدام نتائج التقييم والتي قد لا يفكر فيها الباحثون الذين يجرون التقييم الأولي”. “إذا تم نشر البيانات ، يمكن للباحثين الآخرين إجراء تحليلات تكميلية بسهولة دون الحاجة إلى إضاعة الوقت والمال في إعادة إنشاء التقييم.”
إلى أين يتجه المجال؟
يقدم بورنيل وزملاؤه العديد من الإرشادات للمساعدة في معالجة مشكلة فهم وتقييم أنظمة الذكاء الاصطناعي بشكل أفضل. تتضمن أفضل الممارسات نشر تقارير أداء دقيقة مع تصنيفات عبر ميزات مساحة المشكلة. يجب أن يعمل المجتمع أيضًا على معايير جديدة يمكنها اختبار قدرات محددة بدلاً من تجميع عدة مهارات في مقياس واحد. وعلى الباحثين أن يكونوا أكثر شفافية في تسجيل اختباراتهم وإتاحتها للمجتمع.
قال بورنيل: “بشكل عام ، يتحرك المجتمع الأكاديمي في الاتجاه الصحيح – على سبيل المثال ، بدأت المؤتمرات والمجلات في التوصية أو تتطلب تحميل التعليمات البرمجية والبيانات جنبًا إلى جنب مع الأوراق المقدمة”.
أشار بورنيل إلى أن بعض الشركات مثل Hugging Face و Meta “تعمل جاهدة لتتماشى مع أفضل الممارسات التي أوصى بها المجتمع الأوسع” ، مثل بيانات ونماذج المصادر المفتوحة وإصدار بطاقات نموذجية تشرح كيفية تدريب النموذج.
ولكن في الوقت نفسه ، يتجه سوق الذكاء الاصطناعي التجاري نحو تقليل المشاركة والشفافية.
قال بورنيل: “لدينا شركات مثل OpenAI بدأت في تحقيق الدخل من استخدام نماذجها وتتحول بشكل أساسي من إجراء البحث العلمي إلى تطوير المنتجات”. “تعتقد هذه الشركات بوضوح أنه من أجل الحفاظ على ميزتها التنافسية ، فإنها تحتاج إلى الحفاظ على سرية تفاصيل كيفية بناء وتدريب نماذجها. وبصراحة ، لا أعتقد أنهم مخطئون في ذلك “.
ومع ذلك ، يحذر برنيل أيضًا من أن هذه الثقافة الجديدة ستحفز الشركات على اكتساح قيود وإخفاقات نماذجها في ظل نتائج التقييم التي تجعلها تبدو وكأن نماذجها قادرة وموثوقة بشكل لا يصدق.
“نظرًا لمدى انتشار هذه النماذج والنطاق الواسع بشكل لا يصدق من الأشياء التي يمكن استخدامها من أجلها ، أعتقد أنه من المحتمل أن يكون هذا موقفًا خطيرًا للغاية بالنسبة لنا ، وأنا قلق بشأن قدرتنا على فهم القدرات والقيود بشكل صحيح قال بورنيل. “أعتقد أننا بحاجة إلى الضغط بقوة للتأكد من أن المجموعات المستقلة يمكنها الوصول إلى هذه الأنظمة من أجل تقييمها بشكل صحيح ، وأن الحلول التنظيمية ربما تكون جزءًا مهمًا من اللغز هنا.”
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.