ليس فقط في رأسك: سلوك ChatGPT يتغير ، كما يقول باحثو الذكاء الاصطناعي
توجه إلى مكتبتنا عند الطلب لعرض الجلسات من VB Transform 2023. سجل هنا
نشر باحثون في جامعة ستانفورد وجامعة كاليفورنيا – بيركلي ورقة بحثية لم تتم مراجعتها في مجلة الوصول المفتوح arXiv.org ، والتي وجدت أن “أداء وسلوك” نماذج اللغات الكبيرة (LLMs) الخاصة بـ OpenAI’s ChatGPT قد تغيرت بين مارس ويونيو 2023. وخلص الباحثون إلى أن اختباراتهم كشفت أن “الأداء في بعض المهام قد أصبح أسوأ بكثير بمرور الوقت”.
قال جيمس زو ، الأستاذ في جامعة ستانفورد وأحد مؤلفي الورقة البحثية الثلاثة ، لموقع VentureBeat: “الدافع الكامل لهذا البحث: لقد رأينا الكثير من التجارب القصصية من مستخدمي ChatGPT بأن سلوك النماذج يتغير بمرور الوقت”. “قد تتحسن بعض المهام أو تسوء مهام أخرى. لهذا السبب أردنا القيام بذلك بشكل أكثر منهجية لتقييمه عبر نقاط زمنية مختلفة. “
المعلومات المؤهلة
هناك بعض التحذيرات المهمة للنتائج والورقة ، بما في ذلك أن arXiv.org يقبل تقريبًا جميع الأوراق التي أنشأها المستخدمون والتي تتوافق مع إرشاداته ، وأن هذه الورقة المعينة – مثل العديد من الأوراق على الموقع – لم تتم مراجعتها بعد ، ولم يتم نشرها في مجلة أخرى ذات سمعة طيبة. ومع ذلك ، أخبر Zou VentureBeat أن المؤلفين يخططون لتقديمه للنظر فيه ومراجعته من قبل مجلة.
في تغريدة ردًا على الورقة والمناقشات التي تلت ذلك ، قدم لوجان كيلباتريك ، محامي مطور OpenAI ، شكر عام لأولئك الذين يبلغون عن تجاربهم مع منصة LLM وقالوا إنهم يبحثون بنشاط في المشكلات التي تتم مشاركتها. نشر Kilpatrick أيضًا رابطًا إلى صفحة GitHub الخاصة بإطار OpenAI’s Evals والتي تُستخدم لتقييم أنظمة LLM و LLM مع سجل مفتوح المصدر للمعايير.
حدث
VB Transform 2023 حسب الطلب
هل فاتتك جلسة من VB Transform 2023؟ سجل للوصول إلى المكتبة عند الطلب لجميع جلساتنا المميزة.
سجل الان
تواصلت VentureBeat مع شركة OpenAI للحصول على مزيد من التعليقات ، لكنها لم تتلق ردًا في الوقت المناسب للنشر.
تم اختبار العديد من مهام ماجستير القانون بمرور الوقت
بقياس كل من GPT-3.5 و GPT-4 من حيث مجموعة من الطلبات المختلفة ، وجد فريق البحث أن OpenAI LLMs أصبحت أسوأ في تحديد الأعداد الأولية وإظهار عملية التفكير “خطوة بخطوة” ، وإخراج الكود مع المزيد من أخطاء التنسيق.
انخفضت الدقة في الإجابات على تحديد الرقم الأولي “خطوة بخطوة” بنسبة 95.2٪ في GPT-4 خلال فترة الثلاثة أشهر التي تم تقييمها ، بينما زادت بشكل كبير عند 79.4٪ لـ GPT-3.5. هناك سؤال آخر تم طرحه للعثور على مجموعة من الأعداد الصحيحة مع مؤهل شهد أيضًا أداءً متدهورًا في كل من GPT-4 و GPT-3.5 ، ناقص 42٪ و 20٪ على التوالي.
معدل نجاح GPT-4 على ‘هل هذا رقم أولي؟ انخفض برنامج التفكير خطوة بخطوة من 97.6٪ إلى 2.4٪ من مارس إلى يونيو ، بينما تحسن GPT-3.5 “. غرد مؤلف مشارك ماتي زهاري. كما تغير السلوك على المدخلات الحساسة. تغيرت المهام الأخرى بشكل أقل ، ولكن هناك بالتأكيد تغييرات كبيرة في سلوك LLM “.
ومع ذلك ، في تغيير يُنظر إليه على الأرجح على أنه تحسن من قبل الشركة – على الرغم من أنه قد يحبط المستخدمين – كان GPT-4 أكثر مقاومة لكسر الحماية ، أو التحايل على حدود حماية المحتوى من خلال مطالبات محددة ، في يونيو مقارنة بشهر مارس.
وفقًا للورقة ، لاحظ اثنان من LLM تحسينات طفيفة في التفكير البصري.
معارضة النتائج والمنهجية
لم يكن الجميع مقتنعًا بأن اختيار المهام من فريق Zaharia استخدم المقاييس الصحيحة لقياس التغييرات ذات المغزى لإعلان الخدمة “أسوأ بكثير”.
أستاذ علوم الكمبيوتر ومدير مركز جامعة برينستون لسياسة تكنولوجيا المعلومات ، أرفيند نارايانان ، غرد: “لقد حفرنا في ورقة تم تفسيرها بشكل خاطئ على أنها تقول أن GPT-4 قد ازداد سوءًا. تظهر الورقة تغيير السلوك ، وليس انخفاض السعة. وهناك مشكلة في التقييم – في المهمة 1 ، نعتقد أن المؤلفين أخطأوا في التقليد على أنه التفكير “.
وبالمثل ، عارض المعلقون على subreddit ChatGPT و YCombinator العتبات التي اعتبرها الباحثون فاشلة ، ولكن بدا أن المستخدمين الآخرين لفترة طويلة مرتاحون للأدلة على أن التغييرات الملحوظة في مخرجات الذكاء الاصطناعي التوليدية لم تكن فقط في رؤوسهم.
يسلط هذا العمل الضوء على مجال جديد يجب أن يكون مشغلو الأعمال والشركات على دراية به عند التفكير في منتجات الذكاء الاصطناعي التوليدية. أطلق الباحثون على التغيير في السلوك اسم “LLM drift” واستشهدوا به على أنه طريقة حاسمة لفهم كيفية تفسير النتائج من نماذج الذكاء الاصطناعي للدردشة الشائعة.
من شأن المزيد من الشفافية واليقظة أن يساعدا في تحسين فهم التغييرات
تشير الورقة إلى مدى تعتيم العرض العام الحالي على LLMs المغلقة ، وكيف تتطور بمرور الوقت. يقول الباحثون إن تحسين المراقبة والشفافية أمران أساسيان لتجنب مخاطر الانجراف في LLM.
“لا نحصل على الكثير من المعلومات من OpenAI – أو من البائعين الآخرين والشركات الناشئة – حول كيفية تحديث نماذجهم.” قال زو. إنه يسلط الضوء على الحاجة إلى القيام بهذه الأنواع من التقييمات الخارجية المستمرة ورصد ماجستير إدارة الأعمال. نحن بالتأكيد نخطط لمواصلة القيام بذلك “.
في تغريدة سابقة ، ذكر كيلباتريك أن واجهات برمجة تطبيقات GPT لا تتغير بدونها OpenAI بإخطار مستخدميها.
ستحتاج الشركات التي تدمج LLM في منتجاتها وقدراتها الداخلية إلى توخي الحذر لمعالجة آثار الانجراف في LLM. قال زو: “لأنه إذا كنت تعتمد على مخرجات هذه النماذج في نوع من مكدس البرامج أو سير العمل ، فإن النموذج يغير السلوك فجأة ، ولا تعرف ما يحدث ، ويمكن أن يؤدي هذا في الواقع إلى كسر مكدسك بالكامل ، ويمكن أن يكسر خط الأنابيب”.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.