تقنية

ChatGPT يجتاز الخطوة 1 من امتحان الترخيص الطبي ، ولكن بالكاد


صورة: ميريام دوير مارتن فرومهيرز (صراع الأسهم)

أي شخص يحبس أنفاسه بقلق من أجل روبوت كفؤ قد يحتاج الطبيب إلى الانتظار لفترة أطول قليلاً. قامت مجموعة من باحثي AnsibleHealth AI مؤخرًا بوضع OpenAI الدردشة للاختبار مقابل امتحان ترخيص طبي كبير والنتائج موجودة. روبوت الدردشة AI من الناحية الفنية مرت ، ولكن بجلد أسنانها. عندما يتعلق الأمر بالامتحانات الطبية ، حتى أكثر الذكاء الاصطناعي إثارة للإعجاب لا يزال يعمل على مستوى D. يقول الباحثون أن العرض الباهت ومع ذلك إنجاز تاريخي للذكاء الاصطناعي.

الباحثون تم اختباره ChatGPT في امتحان الترخيص الطبي للولايات المتحدة (USMLE) ، أ سلسلة موحدة من ثلاثة اختبارات مطلوبة للأطباء الأمريكيين الذين يتنافسون للحصول على ترخيص طبي. تمكنت ChatGPT من الحصول على درجات تتراوح بين 52.4٪ و 75٪ في جميع مستويات الامتحان الثلاثة. قد لا يبدو هذا رائعًا لجميع المتفوقين الموجودين هناك ، ولكنه يتساوى مع عتبة النجاح البالغة 60٪ للامتحان. يزعم الباحثون المشاركون في الدراسة أن هذه هي المرة الأولى التي يتمكن فيها الذكاء الاصطناعي من الأداء عند أو بالقرب من عتبة النجاح في الاختبار الصعب المعروف. بشكل حاسم ، كان ChatGPT قادرًا على المرور دون أي مدخلات متخصصة إضافية من المدربين البشريين.

كتب المؤلفون في المجلة: “يمثل الوصول إلى درجة النجاح في اختبار الخبراء المعروف بصعوبة هذا ، والقيام بذلك دون أي تعزيز بشري ، علامة بارزة في النضج السريري للذكاء الاصطناعي”. الصحة الرقمية PLOS.

وبغض النظر عن نتائج الاختبارات المتواضعة ، أشاد الباحثون بـ ChatGPT لقدرته على صياغة إجابات أصلية سليمة. تمكنت ChatGPT من إنشاء “رؤى جديدة وغير واضحة وصحيحة سريريًا” لـ 88.9٪ من ردودها ، وبدا أنها تُظهر أدلة على التفكير الاستنتاجي ، وسلسلة التفكير ، ومهارات الاعتماد على المدى الطويل. تبدو هذه النتائج فريدة إلى حد ما بالنسبة لـ ChatGPT وأسلوبه الخاص في تعلم الذكاء الاصطناعي. على عكس الأجيال السابقة من الأنظمة التي تستخدم نماذج التعلم العميق ، تعتمد ChatGPT على نموذج لغة كبير تم تدريبه للتنبؤ بسلسلة من الكلمات بناءً على سياق الكلمات التي جاءت من قبل. هذا يعني ، على عكس الذكاء الاصطناعي الآخرs ، يمكن لـ ChatGPT في الواقع إنشاء تسلسلات من الكلمات التي لم تكن تراها الخوارزمية من قبل والتي يمكن أن يكون لها معنى متماسك.

اختبارات USMLE الصعبة تختبر المشاركين في العلوم الأساسية ، والتفكير السريري ، والإدارة الطبية ، وأخلاقيات علم الأحياء. هم في أغلب الأحيان التي اتخذت من قبل طلاب الطب والأطباء في التدريب. هذه الامتحانات هي أيضا موحدة ومنظمة ، مما يجعلها مناسبة بشكل خاص لاختبار قدرات ChatGPT ، كما قال الباحثون. شيء واحد هي الامتحانات بالتأكيد ليست كذلك سهل. يقضي الطلاب البشريون عادةً حوالي 300-400 ساعة بجهد كبير في صب المؤلفات العلمية واختبار المواد الكثيفة استعدادًا لامتحان الخطوة 1 فقط ، وهو الأول من الثلاثة.

من المثير للدهشة أن ChatGPT تمكنت من التفوق في الأداء على PubMedGPT ، وهو نموذج لغوي كبير آخر يعمل بالذكاء الاصطناعي تم تدريبه حصريًا على الأدب الطبي الحيوي. قد يبدو هذا غير منطقي في البداية ، لكن الباحثين يقولون إن التدريب الأكثر عمومية لـ ChatGPT قد يمنحه في الواقع ميزة لأنه من المحتمل أن يتعرض لنطاق أوسع من المحتوى السريري مثل بادئات المرض التي تواجه المريض أو إدراج حزمة الأدوية. يعتقد الباحثون بتفاؤل أن الدرجة المقبولة في ChatGPT يمكن أن تشير إلى مستقبل يمكن أن تلعب فيه أنظمة الذكاء الاصطناعي دورًا مساعدًا في التعليم الطبي. وكتبوا أن هذا يحدث بالفعل على مستوى صغير ، مستشهدين بمثال حديث لأطباء AnsibleHealth الذين يستخدمون الأداة لإعادة كتابة تقارير كثيفة ومليئة بالمصطلحات.

قال الباحثون: “تشير دراستنا إلى أن النماذج اللغوية الكبيرة مثل ChatGPT قد تساعد المتعلمين من البشر في بيئة التعليم الطبي ، كمقدمة للاندماج المستقبلي في صنع القرار السريري”.

في تطور ميت إلى حد ما ، لم يكن ChatGPT مكلفًا فقط بإجراء الفحص الطبي. كما شارك النظام في صياغة ورقة البحث النهائية لتوثيق أدائه. يقول الباحثون إنهم تفاعلوا مع ChatGPT ، “تمامًا مثل زميل” واعتمدوا عليه لتجميع وتبسيط مسودتهم وحتى تقديم نقاط مقابلة.

كتب تيفاني كونغ ، أحد الباحثين: “جميع المؤلفين المشاركين قدّروا مدخلات ChatGPT”.

ChatGPT: متوسط ​​في الكتابة ، سيئ في الرياضيات

ChatGPT لديه أضاف قدرًا هائلاً من درجات النجاح إلى جدار الكأس التعليمي في الأشهر الأخيرة. الشهر الماضي ، ChatGPT تمكنت للتسجيل بين B و B ناقصًا في امتحان مستوى ماجستير إدارة الأعمال المعطى لطلاب الأعمال في كلية وارتون المرموقة بجامعة بنسلفانيا. في نفس الوقت تقريبًا ، الذكاء الاصطناعي حقق درجة النجاح في امتحان القانون الممنوح للطلاب في كلية الحقوق بجامعة مينيسوتا. في حالة امتحان القانون ، تجنب ChatGPT بعلامة C +.

قال جوناثان تشوي كبير مؤلفي الدراسة في مقابلة “لوحده ، سيكون ChatGPT طالب قانون متوسط ​​المستوى إلى حد ما مقابلة مع رويترز. “تتمثل أكبر إمكانات المهنة هنا في أنه يمكن للمحامي استخدام ChatGPT لإنتاج مسودة أولية تقريبية وجعل ممارسته أكثر فاعلية.”

قد يكون ChatGPT قادرًا على الحصول على درجات مقبولة في الاختبارات التي تركز على الكتابة وفهم القراءة ، لكن الرياضيات هي وحش آخر تمامًا. على الرغم من قدرتها الرائعة على تحطيم الأوراق الأكاديمية والنثر شبه الخيالي ، الباحثين لنفترض أن الذكاء الاصطناعي يعمل فقط على مستوى الصف السادس تقريبًا عندما يتعلق الأمر بالرياضيات. تكون أسعار ChatGPT أسوأ عندما تُسأل عن مسائل حسابية أساسية في تنسيق لغة طبيعية. ينبع هذا التعثر من حجمه التنبئي تدريب نموذج اللغة. ستوفر لك ChatGPT ، بالطبع ، إجابة عن مشكلة الرياضيات الخاصة بك بثقة ، ولكن يمكن فصلها تمامًا عن الواقع.

إجابات ChatGPT في الوقت المناسب هي ما يمتلكه كبار مهندسي Google وغيرهم في هذا المجال بالإشارة إلى، بحذر ، باعتبارها “هلوسة” للذكاء الاصطناعي. تخلق هلوسات الذكاء الاصطناعي هذه إجابات تبدو مقنعة ولكنها جزئية أو جزئية مكونة بالكامل ، وهي ليست علامة رائعة تمامًا لأي شخص يتطلع إلى الذكاء الاصطناعي الموثوق به في المجالات عالية المخاطر مثل الطب والقانون.

“هو – هي [ChatGPT] يتصرف كخبير ، وفي بعض الأحيان يمكن أن يوفر انتحالًا مقنعًا لشخص واحد ، “قال الأستاذ في جامعة تكساس بول فون هيبل في حديث حديث مقابلة مع صحيفة وول ستريت جورنال. “لكن غالبًا ما يكون نوعًا من الفنانين الممتازين ، حيث يخلط بين الحقيقة والخطأ والتلفيق بطريقة قد تبدو مقنعة إلا إذا كان لديك بعض الخبرة بنفسك.”

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى