يتطلع Snorkel AI إلى ما هو أبعد من تسمية البيانات للذكاء الاصطناعي التوليدي
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
لطالما كان تصنيف البيانات مكونًا مهمًا في مساعدة علماء البيانات على إعداد البيانات للتعلم الآلي (ML) والذكاء الاصطناعي (AI). في العصر الحديث للذكاء الاصطناعي التوليدي ، يتغير دور تصنيف البيانات.
تعلن Snorkel AI اليوم عن إمكانات جديدة تتجاوز تصنيف البيانات ، لمساعدة المؤسسات على تنظيم البيانات وإعدادها للذكاء الاصطناعي التوليدي. يقوم Snorkel AI بتطوير نظام أساسي للبيانات يساعد المؤسسات في جانب البيانات في AI. مرة أخرى في نوفمبر 2022 ، تم تحديث تقنية Snorkel Flow الخاصة بالشركة بميزات تمكّن المؤسسات من تسريع عملية تصنيف البيانات كثيفة العمالة في كثير من الأحيان ، باستخدام نماذج اللغات الكبيرة (LLMs) لتحريك العملية.
>> تابع تغطية الذكاء الاصطناعي التوليدية المستمرة من VentureBeat <
تخطو Snorkel الآن خطوة إلى الأمام من خلال خدمة GenFlow الجديدة لبناء تطبيقات الذكاء الاصطناعي التوليدية ، ومسبك Snorkel الذي يساعد المؤسسات على بناء LLM مخصصة.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
قال أليكس راتنر ، الرئيس التنفيذي والشريك المؤسس في Snorkel AI ، لـ VentureBeat في مقابلة حصرية: “كيف تقوم برعاية البيانات وأخذ عينات منها وتصفيتها وتنظيفها ينتهي بها الأمر إلى إحداث تأثير هائل على نموذج الأساس الناتج الذي تخرجه”. “بعبارة أخرى ، لا يمكنك مجرد إلقاء مزيج عشوائي من البيانات المهملة ، وتوقع ظهور هذه النماذج بشكل جيد.”
إن جعل الذكاء الاصطناعي التوليدي يعمل بدون بيانات جيدة هو هلوسة
من المخاطر الشائعة التي تواجه أدوات الذكاء الاصطناعي التوليدية المعممة هي الهلوسة ، حيث تكون الاستجابات غير دقيقة.
قال راتنر: “الهلوسة هي مجرد نوع آخر من الخطأ الذي ينتج عن عدم تدريب النموذج على القيام بمهمة محددة في المقام الأول”. “يتم تدريب هذه النماذج خارج الصندوق لتقول أشياء تبدو معقولة إحصائيًا في ضوء موجه الإدخال.”
أضاف راتنر أن الهلوسة تحدث بشكل أساسي نتيجة عدم تدريب النموذج على مهمة محددة ، أو الأهم من ذلك ، عدم امتلاك كل المعلومات الصحيحة من أجل أن تكون دقيقة. أحد الأساليب لحل هذه المشكلة ، وهو أحد الأساليب التي يتبعها العديد من البائعين ، هو مفهوم الاسترجاع المعزز (RAG) ، حيث يتم الاستشهاد بمصادر النتائج المتولدة. لكن ماذا يحدث عندما لا توجد مصادر؟ هذه مشكلة بيانات ، وهي مشكلة يتطلع Snorkel إلى حلها باستخدام Snorkel Foundry.
ما يفعله Snorkel Foundry هو تنظيم البيانات. يمكن للمؤسسات توجيه الخدمة إلى مستودع بيانات كجزء من مرحلة ما قبل التدريب ، لمساعدة علماء البيانات في الحصول على المزيج الصحيح من البيانات لتلبية أهداف العمل وتقليل التحيز وخطر الهلوسة.
في حين أن بعض بيانات المؤسسة سيكون لها هيكل ، كما هو الحال في قاعدة البيانات ، يتوقع راتنر أن غالبية البيانات من المحتمل أن تكون غير منظمة. يتيح Snorkel Foundry للمستخدمين الاستفادة من جميع البيانات غير المهيكلة ويساعدهم أيضًا على اختيار المزيج الصحيح من البيانات للحصول على أفضل النتائج لـ LLM.
أوضح راتنر أن Snorkel Foundry لديه وظيفة أخذ عينات البيانات التي تمكن المستخدمين من تحديد علاقة البيانات بطريقة تجريبية أو من خلال نهج قائم على نموذج للمساعدة في تحديد التوازن الصحيح للمحتوى لوضعه في روتين تدريب ML.
قال راتنر: “معظم الشركات ليس لديها بيانات منظمة بشكل مثالي”. “لذلك نحن نساعدهم على القيام بذلك برمجيًا ، حتى يتمكنوا من تنظيم مزيج البيانات وتنظيمه وتحسينه.”
أبعد من تسمية البيانات باستخدام GenFlow
بعد التدريب المسبق لـ LLM ، تتمثل الخطوة الشائعة في تنفيذ ضبط تعليمات إضافي ، مع مناهج مشتركة بما في ذلك RLHF (التعلم المعزز من ردود الفعل البشرية).
قال راتنر: “بمجرد قيامك بالتدريب المسبق للنموذج على مجموعة كبيرة من البيانات غير المصنفة ، يمكنك تعليمه أو ضبطه لتقديم ملخصات أفضل أو الإجابة عن الأسئلة وإجراء حوار أفضل”.
مع Snorkel Flow لحالات استخدام الذكاء الاصطناعي غير التوليدية ، قال راتنر إن شركته تساعد في تصنيف البيانات بالعلامات بحيث يتم تصنيفها بشكل صحيح بشكل فعال. ولكن بالنسبة لمخرجات الذكاء الاصطناعي التوليدية ، فإن هذا النوع من الملصقات ليس هو المطلوب ، وهنا تتلاءم خدمة GenFlow الجديدة.
يتمحور GenFlow حول توفير الأدوات المناسبة والقدرة الإدارية لتقديم الملاحظات للمساعدة في تصفية نقاط البيانات ذات الجودة الرديئة في محاولة لمساعدة الذكاء الاصطناعي التوليدي على إنشاء مخرجات مثالية.
لماذا تسمية البيانات ليست ميتة
على الرغم من كل الضجيج حول الذكاء الاصطناعي التوليدي في الأشهر الأخيرة ، قال راتنر إنه يتوقع على المدى الطويل أن تأتي معظم قيمة المؤسسة من الذكاء الاصطناعي من الذكاء الاصطناعي التنبئي التقليدي.
أكد راتنر أن تصنيف البيانات لا يزال مهمًا لمهام الذكاء الاصطناعي التنبؤية ، مثل تصنيف الاحتيال. في الأساس ، يعد تصنيف البيانات نوعًا من التعليقات التي يتم تقديمها للمساعدة في تحسين النموذج.
مع الذكاء الاصطناعي التوليدي ، لا تزال هناك حاجة للتغذية الراجعة ، لكنها تتخذ شكلاً مختلفًا عن شكلها للذكاء الاصطناعي التنبئي. بدلاً من تصنيف شيء ما على أنه نوع أو آخر ، فإن التغذية الراجعة هي أكثر من أن الفرد يفضل ملخصًا أو استجابة على أخرى.
قال راتنر: “مع تقدمك في عملية التجميع والتنظيم والتطوير بمرور الوقت ، فإن هذه التعليقات ، سواء كانت تسميات أو تقييمات إجابات طويلة ، نحاول أن نجعل ذلك أكثر برمجية وسرعة وأفضل إدارة”.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.