لماذا قد لا تكون الاختبارات المخصصة للبشر معايير جيدة للماجستير في القانون مثل GPT-4

0 104 4 دقائق

انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر

مع استمرار شركات التكنولوجيا في طرح نماذج لغة كبيرة (LLM) بنتائج مبهرة ، أصبح قياس قدراتها الحقيقية أكثر صعوبة. وفقًا لتقرير فني صادر عن OpenAI ، فإن أداء GPT-4 مثير للإعجاب في امتحانات المحامين واختبارات الرياضيات SAT وامتحانات القراءة والكتابة.

ومع ذلك ، قد لا تكون الاختبارات المصممة للبشر معايير جيدة لقياس قدرات LLM. تشمل النماذج اللغوية المعرفة بطرق معقدة ، وتنتج أحيانًا نتائج تطابق أو تتجاوز متوسط الأداء البشري. ومع ذلك ، فإن الطريقة التي يحصلون بها على المعرفة واستخدامها غالبًا ما تكون متوافقة مع تلك التي لدى البشر. يمكن أن يقودنا ذلك إلى استخلاص استنتاجات خاطئة من نتائج الاختبار.

بالنسبة إلى LLMs مثل GPT-4 ، يكمن نجاح الاختبار في بيانات التدريب

أرفيند نارايانان ، أستاذ علوم الكمبيوتر بجامعة برينستون ، وساياش كابور ، دكتوراه. مرشح في جامعة برينستون ، كتب مؤخرًا مقالًا عن مشاكل اختبار ماجستير في امتحانات الترخيص المهني.

واحدة من هذه المشاكل هي “تلوث بيانات التدريب”. يحدث هذا عندما يتم اختبار نموذج مدرب على البيانات التي تم تدريبه عليها. مع الكثير من التدريب ، قد يحفظ النموذج أمثلة التدريب الخاصة به ويؤدي أداءً جيدًا فيها ، مما يعطي الانطباع بأنه قد تعلم المهمة. لكنها ستفشل في الأمثلة الجديدة.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

يبذل مهندسو التعلم الآلي جهودًا كبيرة لفصل بيانات التدريب والاختبار. ولكن مع LLMs ، تصبح الأمور صعبة لأن مجموعة التدريب كبيرة جدًا بحيث يصعب التأكد من عدم تضمين أمثلة الاختبار الخاصة بك بطريقة ما في بيانات التدريب.

قال نارايانان لموقع VentureBeat: “يتم تدريب نماذج اللغة بشكل أساسي على كل النصوص الموجودة على الإنترنت ، لذلك حتى لو لم تكن بيانات الاختبار الدقيقة موجودة في مجموعة التدريب ، فسيكون هناك شيء قريب جدًا منها”. “لذلك عندما نجد أن LLM تؤدي أداءً جيدًا في الامتحان أو تحدي البرمجة ، فليس من الواضح مقدار هذا الأداء بسبب الحفظ مقابل التفكير.”

على سبيل المثال، واحد تجربة أظهر أن GPT-4 كان أداؤه جيدًا للغاية في تحديات برمجة Codeforces التي تم إنشاؤها قبل عام 2021 ، عندما تم جمع بيانات التدريب الخاصة بها. انخفض أداؤها بشكل كبير على المشاكل الحديثة. وجد Narayanan أنه في بعض الحالات ، عندما تم تزويد GPT-4 بعنوان مشكلة Codeforces ، يمكن أن ينتج رابط المسابقة حيث ظهرت.

في تجربة أخرى ، اختبرت عالمة الكمبيوتر ميلاني ميتشل أداء ChatGPT في اختبارات ماجستير إدارة الأعمال ، وهو إنجاز تمت تغطيته على نطاق واسع في وسائل الإعلام. وجد ميتشل أن أداء النموذج في نفس المشكلة يمكن أن يختلف اختلافًا كبيرًا عندما تمت صياغة الموجه بطرق مختلفة قليلاً.

“لقد استوعبت LLM نصًا أكثر بكثير مما هو ممكن للإنسان ؛ أخبر ميتشل موقع VentureBeat أنهم “حفظوا” (بتنسيق مضغوط) مساحات شاسعة من الويب ويكيبيديا ومجموعات الكتب وما إلى ذلك. لتحمل كل النص الذي حفظوه بهذا الشكل ، ويمكنهم العثور على أكثر أنماط “التفكير” تشابهًا والتي يمكن تكييفها لحل السؤال. وهذا يعمل جيدًا في بعض الحالات ولكن ليس في حالات أخرى. وهذا جزئيًا سبب تعمل أشكال محفزات LLM بشكل جيد جدًا بينما لا يعمل الآخرون “.

يحل البشر المشاكل بطريقة مختلفة

يبني البشر مهاراتهم ومعارفهم تدريجياً في طبقات من خلال سنوات من الخبرة والدراسة والتدريب. تفترض الاختبارات المصممة للبشر أن المتقدم للاختبار يمتلك بالفعل هذه المهارات والمعرفة التحضيرية ، وبالتالي لا يختبرها جيدًا. من ناحية أخرى ، أثبتت النماذج اللغوية أنها تستطيع اختصار طريقها إلى الإجابات دون الحاجة إلى اكتساب المهارات المطلوبة مسبقًا.

يُفترض أن البشر يحلون هذه المشكلات بطريقة مختلفة وأكثر قابلية للتعميم. ومن ثم لا يمكننا وضع افتراضات عن LLMs التي نصنعها للبشر عندما نجريهم الاختبارات “، قال ميتشل.

على سبيل المثال ، جزء من المعرفة الخلفية لعلم الحيوان هو أن كل فرد يولد ويعيش لفترة ويموت ، وأن طول الحياة هو جزئيًا وظيفة الأنواع وجزئيًا مسألة فرص وتقلبات الحياة ، كما يقول عالم الكمبيوتر والأستاذ بجامعة نيويورك إرنست ديفيس.

لن يطلب اختبار الأحياء ذلك ، لأنه يمكن افتراض أن جميع الطلاب يعرفون ذلك ، وقد لا يطرح أي أسئلة تتطلب هذه المعرفة بالفعل. لكن كان من الأفضل أن تفهم ذلك إذا [you’re going to be] إدارة معمل أحياء أو فناء ، “قال ديفيس لموقع VentureBeat. المشكلة هي أن هناك معرفة أساسية مطلوبة بالفعل لفهم موضوع معين. هذا بشكل عام لا تم اختباره في الاختبارات المصممة للبشر لأنه يمكن افتراض أن الناس يعرفون [it]. “

يتضح الافتقار إلى هذه المهارات والمعرفة التأسيسية في حالات أخرى ، مثل فحص نماذج اللغة الكبيرة في الرياضيات التي أجراها ديفيس مؤخرًا. وجد ديفيس أن LLM تفشل في مسائل الرياضيات الأساسية جدًا المطروحة في اللغة الطبيعية. هذا بينما تُظهر التجارب الأخرى ، بما في ذلك التقرير الفني حول GPT-4 ، أن LLMs يسجلون درجات عالية في اختبارات الرياضيات المتقدمة.

إلى أي مدى يمكنك الوثوق بـ LLMs في المهام المهنية؟

خلص ميتشل ، الذي اختبر LLMs في امتحانات المحامين وامتحانات كلية الطب ، إلى أن الاختبارات المصممة للبشر ليست طريقة موثوقة لمعرفة قدرات نماذج الذكاء الاصطناعي هذه والقيود المفروضة على مهام العالم الحقيقي.

“هذا لا يعني أن النماذج الإحصائية الضخمة مثل LLMs لا يمكنها أبدًا التفكير مثل البشر – لا أعرف ما إذا كان هذا صحيحًا أم لا ، والإجابة عليه تتطلب الكثير من التبصر في كيفية قيام LLM بما يفعلونه ، وكيف وقال ميتشل “حتى تؤثر على آلياتها الداخلية”. “هذه البصيرة ليست لدينا في الوقت الحاضر.”

وقال ميتشل إن ما نعرفه هو أن مثل هذه الأنظمة ترتكب أخطاء يصعب التنبؤ بها ولا تشبه أخطاء البشر ، و “علينا أن نكون حذرين للغاية عندما نفترض أنها تستطيع التعميم بالطرق التي يستطيع البشر القيام بها”.

قال نارايانان إن ماجستير إدارة الأعمال الذي يتفوق في الامتحانات من خلال الحفظ والتفكير السطحي قد يكون جيدًا لبعض التطبيقات ، ولكن لا يمكنه القيام بمجموعة من الأشياء التي يمكن للمحترف القيام بها. هذا صحيح بشكل خاص لامتحانات المحاماة ، التي تبالغ في التركيز على المعرفة بالمادة وتقلل من التركيز على مهارات العالم الحقيقي التي يصعب قياسها بطريقة معيارية يديرها الكمبيوتر.

قال نارايانان: “لا ينبغي أن نقرأ كثيرًا في أداء الامتحان ما لم يكن هناك دليل على أنه يترجم إلى قدرة على القيام بمهام العالم الحقيقي”. “من الناحية المثالية ، يجب أن ندرس المهنيين الذين يستخدمون LLM لأداء وظائفهم. في الوقت الحالي ، أعتقد أن LLM من المرجح أن تزيد المهنيين أكثر من استبدالهم. “

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

مرتبط

الوسوم

eshragnet

0 104 4 دقائق

بالنسبة إلى LLMs مثل GPT-4 ، يكمن نجاح الاختبار في بيانات التدريب

حدث

يحل البشر المشاكل بطريقة مختلفة

إلى أي مدى يمكنك الوثوق بـ LLMs في المهام المهنية؟

مرتبط

Subscribe to our mailing list to get the new updates!

خطاب مفتوح يدعو إلى "التوقف المؤقت" للذكاء الاصطناعي يسلط الضوء على الجدل العنيف حول المخاطر مقابل الضجيج

مقطورة ووريورز الخالدة - سلسلة تارتاكوفسكي للسباحة للبالغين

مقالات ذات صلة

يعالج برنامج Anyscale ثغرة أمنية حرجة في إطار عمل Ray – لكن الآلاف منها ما زالوا معرضين للخطر

أعيد سام ألتمان إلى مجلس إدارة OpenAI بعد أن برأه التحقيق من ارتكاب أي مخالفات

تعرض Netflix العرض الأول لمسلسل الخيال العلمي The Three Body Trouble في SXSW

ابل ماك بوك اير، لا يوجد هاتف 2a

اترك تعليقاً إلغاء الرد