كيف يعمل التعلم المعزز من خلال ردود الفعل البشرية على إطلاق العنان لقوة الذكاء الاصطناعي التوليدي
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
إن السباق لبناء الذكاء الاصطناعي التوليدي آخذ في الازدياد ، ويتميز بكل من الوعود بقدرات هذه التقنيات والقلق بشأن المخاطر التي يمكن أن تشكلها إذا تركت دون رادع.
نحن في بداية مرحلة نمو أسي للذكاء الاصطناعي. أحدث تطبيق ChatGPT ، أحد أشهر تطبيقات الذكاء الاصطناعي التوليدية ، ثورة في كيفية تفاعل البشر مع الآلات. تم تحقيق ذلك بفضل التعلم المعزز مع التغذية الراجعة البشرية (RLHF).
في الواقع ، كان اختراق ChatGPT ممكنًا فقط لأن النموذج قد تم تعليمه ليتماشى مع القيم الإنسانية. يقدم النموذج المتوافق إجابات مفيدة (تتم الإجابة على السؤال بطريقة مناسبة) وصادقة (يمكن الوثوق بالإجابة) وغير ضارة (الإجابة ليست متحيزة أو سامة).
كان هذا ممكنًا لأن شركة OpenAI قامت بدمج قدر كبير من ردود الفعل البشرية في نماذج الذكاء الاصطناعي لتعزيز السلوكيات الجيدة. حتى مع ظهور ردود الفعل البشرية بشكل أكثر وضوحًا كجزء مهم من عملية التدريب على الذكاء الاصطناعي ، تظل هذه النماذج بعيدة عن الكمال ، ولا تزال المخاوف بشأن السرعة والحجم الذي يتم فيه نقل الذكاء الاصطناعي التوليدي إلى السوق تتصدر عناوين الصحف.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
الإنسان في الحلقة أكثر حيوية من أي وقت مضى
يجب أن تكون الدروس المستفادة من الحقبة الأولى من “سباق التسلح للذكاء الاصطناعي” بمثابة دليل لممارسي الذكاء الاصطناعي الذين يعملون في مشاريع الذكاء الاصطناعي التوليدية في كل مكان. نظرًا لأن المزيد من الشركات تطور روبوتات المحادثة ومنتجات أخرى مدعومة بالذكاء الاصطناعي التوليدي ، أصبح نهج الإنسان في الحلقة أكثر أهمية من أي وقت مضى لضمان التوافق والحفاظ على سلامة العلامة التجارية من خلال تقليل التحيزات والهلوسة.
بدون ردود فعل بشرية من متخصصي تدريب الذكاء الاصطناعي ، يمكن أن تسبب هذه النماذج ضررًا للإنسانية أكثر من نفعها. وهذا يترك قادة الذكاء الاصطناعي أمام سؤال أساسي: كيف يمكننا جني ثمار هذه التطبيقات الخارقة للذكاء الاصطناعي مع ضمان أنها مفيدة وصادقة وغير ضارة؟
تكمن الإجابة على هذا السؤال في RLHF – لا سيما حلقات التغذية الراجعة البشرية المستمرة والفعالة لتحديد اختلال المحاذاة في نماذج الذكاء الاصطناعي التوليدية. قبل فهم التأثير المحدد الذي يمكن أن يحدثه التعلم المعزز من خلال ردود الفعل البشرية على نماذج الذكاء الاصطناعي التوليدية ، دعنا نتعمق في ما يعنيه بالفعل.
ما هو التعلم المعزز ، وما هو الدور الذي يلعبه البشر؟
لفهم التعلم المعزز ، تحتاج أولاً إلى فهم الفرق بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف. يتطلب التعلم الخاضع للإشراف البيانات المصنفة التي يتم تدريب النموذج عليها لتعلم كيفية التصرف عندما يأتي عبر بيانات مماثلة في الحياة الواقعية. في التعلم غير الخاضع للإشراف ، يتعلم النموذج كل شيء من تلقاء نفسه. يتم تغذيتها بالبيانات ويمكنها استنتاج القواعد والسلوكيات بدون بيانات مصنفة.
النماذج التي تجعل الذكاء الاصطناعي التوليدي ممكنًا تستخدم التعلم غير الخاضع للإشراف. يتعلمون كيفية الجمع بين الكلمات بناءً على الأنماط ، لكن لا يكفي إنتاج إجابات تتوافق مع القيم الإنسانية. نحن بحاجة إلى تعليم هذه النماذج احتياجات وتوقعات الإنسان. هذا هو المكان الذي نستخدم فيه RLHF.
التعلم المعزز هو نهج قوي للتعلم الآلي (ML) حيث يتم تدريب النماذج على حل المشكلات من خلال عملية التجربة والخطأ. تتم مكافأة السلوكيات التي تعمل على تحسين المخرجات ، وتلك التي لا تتم معاقبتهم وإعادتهم إلى دورة التدريب لمزيد من الصقل.
فكر في كيفية تدريب جرو – علاج للسلوك الجيد ووقت مستقطع للسلوك السيئ. تتضمن RLHF مجموعات كبيرة ومتنوعة من الأشخاص الذين يقدمون ملاحظات على النماذج ، والتي يمكن أن تساعد في تقليل الأخطاء الواقعية وتخصيص نماذج الذكاء الاصطناعي لتناسب احتياجات العمل. مع إضافة البشر إلى حلقة التغذية الراجعة ، يمكن للخبرة البشرية والتعاطف الآن توجيه عملية التعلم لنماذج الذكاء الاصطناعي التوليدية ، مما يؤدي إلى تحسين الأداء العام بشكل كبير.
كيف سيؤثر التعلم المعزز مع التغذية الراجعة البشرية على الذكاء الاصطناعي التوليدي؟
يعد التعلم المعزز من خلال التغذية المرتدة البشرية أمرًا بالغ الأهمية ليس فقط لضمان توافق النموذج ، بل إنه ضروري للنجاح على المدى الطويل واستدامة الذكاء الاصطناعي ككل. لنكن واضحين للغاية بشأن شيء واحد: بدون تدوين البشر وتعزيز ماهية الذكاء الاصطناعي الجيد ، فإن الذكاء الاصطناعي التوليدي لن يؤدي إلا إلى إثارة المزيد من الجدل والعواقب.
دعنا نستخدم مثالاً: عند التفاعل مع روبوت محادثة يعمل بالذكاء الاصطناعي ، كيف سيكون رد فعلك إذا انحرفت محادثتك؟ ماذا لو بدأ الشات بوت بالهلوسة ، والرد على أسئلتك بإجابات كانت خارج الموضوع أو ليست ذات صلة؟ بالتأكيد ، ستصاب بخيبة أمل ، ولكن الأهم من ذلك أنك لن تشعر على الأرجح بالحاجة إلى العودة والتفاعل مع برنامج الدردشة هذا مرة أخرى.
يحتاج ممارسو الذكاء الاصطناعي إلى إزالة مخاطر التجارب السيئة باستخدام الذكاء الاصطناعي التوليدي لتجنب تدهور تجربة المستخدم. مع RLHF تأتي فرصة أكبر في أن يلبي الذكاء الاصطناعي توقعات المستخدمين في المستقبل. تستفيد روبوتات الدردشة ، على سبيل المثال ، بشكل كبير من هذا النوع من التدريب لأن البشر يمكنهم تعليم النماذج التعرف على الأنماط وفهم الإشارات والطلبات العاطفية حتى تتمكن الشركات من تنفيذ خدمة عملاء استثنائية بإجابات قوية.
إلى جانب التدريب وضبط روبوتات المحادثة ، يمكن استخدام RLHF بعدة طرق أخرى عبر المشهد التوليدي للذكاء الاصطناعي ، مثل تحسين الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتعليقات النصية ، واتخاذ قرارات التداول المالي ، ودعم مساعدي التسوق الشخصيين وحتى المساعدة في تدريب النماذج على تحسين . تشخيص الحالات الطبية.
في الآونة الأخيرة ، تم عرض ازدواجية ChatGPT في عالم التعليم. بينما تصاعدت المخاوف من الانتحال ، يستخدم بعض الأساتذة التكنولوجيا كأداة مساعدة في التدريس ، ويساعدون طلابهم في الحصول على تعليم شخصي وردود الفعل الفورية التي تمكنهم من أن يصبحوا أكثر فضولية واستكشافية في دراستهم.
لماذا التعلم المعزز له تأثيرات أخلاقية
يتيح RLHF تحويل تفاعلات العملاء من المعاملات إلى الخبرات وأتمتة المهام المتكررة وتحسين الإنتاجية. ومع ذلك ، سيكون التأثير الأكثر عمقًا للذكاء الاصطناعي هو التأثير الأخلاقي للذكاء الاصطناعي. هذا ، مرة أخرى ، هو المكان الذي تكون فيه ردود الفعل البشرية أكثر أهمية لضمان نجاح مشاريع الذكاء الاصطناعي التوليدية.
لا يفهم الذكاء الاصطناعي الآثار الأخلاقية لأفعاله. لذلك ، كبشر ، تقع على عاتقنا مسؤولية تحديد الفجوات الأخلاقية في الذكاء الاصطناعي التوليدي بشكل استباقي وفعال قدر الإمكان ، ومن هناك تنفيذ حلقات التغذية الراجعة التي تدرب الذكاء الاصطناعي ليصبح أكثر شمولاً وخالٍ من التحيز.
من خلال الإشراف الفعال من قبل الإنسان في الحلقة ، سيساعد التعلم المعزز على تنمية الذكاء الاصطناعي التوليدي بشكل أكثر مسؤولية خلال فترة النمو السريع والتطور لجميع الصناعات. هناك التزام أخلاقي بالحفاظ على الذكاء الاصطناعي كقوة للخير في العالم ، والوفاء بهذا الالتزام الأخلاقي يبدأ بتعزيز السلوكيات الجيدة وتكرار السلوكيات السيئة لتقليل المخاطر وتحسين الكفاءات للمضي قدمًا.
خاتمة
نحن في مرحلة إثارة كبيرة واهتمام كبير في صناعة الذكاء الاصطناعي. يمكن أن يجعلنا بناء الذكاء الاصطناعي التوليدي أكثر ذكاءً ، وسد فجوات الاتصال وبناء تجارب الجيل التالي. ومع ذلك ، إذا لم نبني هذه النماذج الأخلاقية بشكل مسؤول ، فإننا نواجه أزمة أخلاقية كبيرة في المستقبل.
إن الذكاء الاصطناعي على مفترق طرق ، وعلينا أن نجعل أهداف الذكاء الاصطناعي السامية أولوية وواقعًا. ستعزز مؤسسة RLHF عملية التدريب على الذكاء الاصطناعي وتضمن قيام الشركات ببناء نماذج أخلاقية للذكاء الاصطناعي.
Sujatha Sagiraju هي مديرة المنتجات في Appen.
صانعي القرار
مرحبًا بك في مجتمع VentureBeat!
DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص التقنيين الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.
إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.
يمكنك حتى التفكير في المساهمة بمقال خاص بك!
قراءة المزيد من DataDecisionMakers