أطلقت Datasaur أداة LLM لتدريب نماذج ChatGPT المخصصة
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
كشفت منصة تصنيف البيانات Datasaur اليوم عن ميزة جديدة تمكن المستخدمين من تسمية البيانات وتدريب نموذج ChatGPT المخصص الخاص بهم. توفر هذه الأداة الأخيرة واجهة سهلة الاستخدام تتيح للأفراد التقنيين وغير التقنيين تقييم استجابات نموذج اللغة وتصنيفها ، والتي يتم تحويلها إلى رؤى قابلة للتنفيذ.
مع رئيس OpenAI ، جريج بروكمان ، مستثمر مبكر ، أعلنت الشركة أن عرضها الجديد يأتي استجابة مباشرة للأهمية المتزايدة لمعالجة اللغة الطبيعية (NLP) ، وتحديداً ChatGPT ونماذج اللغات الكبيرة (LLMs).
قال داتاسور إن المهنيين في مختلف الصناعات حريصون على تسخير هذه التكنولوجيا بشكل فعال. ومع ذلك ، فإن الحاجة إلى مزيد من الوضوح والنهج الموحدة لبناء وتدريب النماذج المخصصة قد فرضت تحديات مستمرة. يواجه العديد من الأفراد صعوبات في ضبط وتحسين أداء العديد من النماذج مفتوحة المصدر المتاحة.
استجابة لهذا المشهد المتطور ، تهدف الشركة إلى تقديم دعم شامل للمستخدمين في تجميع بيانات التدريب الخاصة بهم.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
صرح إيفان لي ، الرئيس التنفيذي ومؤسس شركة Datasaur لـ VentureBeat: “نهدف إلى تزويد المستخدمين بأعلى جودة من بيانات التدريب والمساعدة في إزالة التحيزات غير المرغوب فيها من النموذج الناتج من خلال عروضنا الجديدة ، من خلال توريث قدرات قوية من منصة Datasaur الحالية”. تدعم منصتنا جميع أنواع البرمجة اللغوية العصبية ، سواء كانت تلك نماذج “تقليدية” مثل استخراج الكيانات وتصنيف النص أو نماذج جديدة مثل LLMs. والهدف من ذلك هو التأكد من أن جميع علامات البرمجة اللغوية العصبية يمكن أن تحدث على نظام أساسي واحد بدلاً من استخدام جداول البيانات لنوع واحد وأدوات مفتوحة المصدر لنوع آخر “.
تقييم جودة استجابات LLM
تؤكد Datasaur أن أحدث إضافاتها وتقييمها وتصنيفها هي أدوات التدريب النموذجية الأكثر سهولة في الاستخدام والمتاحة حاليًا في السوق.
مع التقييم ، يمكن للمعلقين من البشر تقييم جودة مخرجات LLM وتحديد ما إذا كانت الردود تفي بمعايير جودة محددة.
الترتيب يسهل عملية التعلم المعزز من التغذية الراجعة البشرية (RLHF).
بالإضافة إلى ميزاته الجديدة ، يقدم النظام الأساسي وضع المراجع الذي يمكّن علماء البيانات من تعيين العديد من المعلقين التوضيحيين ، وبالتالي تقليل التحيزات الذاتية. يسهل هذا الوضع تحديد التناقضات وحلها بين المعلقين عندما يتعلق الأمر بأسئلة محددة ، مما يسمح لعلماء البيانات بإجراء الحكم النهائي.
تستخدم ميزة Inter-Annotator Agreement (IAA) الخاصة بالمنصة حسابات إحصائية لتقييم مستوى الاتفاق أو الاتفاق بين المعلقين. تساعد هذه الأداة علماء البيانات في تحديد المعلقين الذين قد يحتاجون إلى تدريب إضافي والتعرف على أولئك الذين يظهرون الكفاءة الطبيعية لهذا النوع من العمل.
بالإضافة إلى ذلك ، يقدم النظام الأساسي المستند الأصلي الذي استمدت منه LLM المعلومات. يخدم هذا غرضين: لمنع أي تفسيرات خاطئة محتملة ، وتوفير الشفافية في إظهار العملية التي تستخدمها LLM.
تبسيط التبني الأوسع للنماذج اللغوية الكبيرة
قال لي من Datasaur إن المتخصصين في الصناعة قد لا يعتبرون نماذج OpenAI كخيارات قابلة للتطبيق بسبب عوامل مثل الامتثال أو خصوصية البيانات أو الاعتبارات الإستراتيجية. أشار لي أيضًا إلى أن التركيز الحالي لماجستير في اللغة الإنجليزية على اللغة الإنجليزية يقيد المستخدمين في جميع أنحاء العالم من الاستفادة الكاملة من هذه التطورات التكنولوجية.
قال لي: “لقد حققت البرمجة اللغوية العصبية العديد من التطورات في العقد الماضي ، وأحد أهدافنا المهمة في Datasaur هو المساعدة في أتمتة أكبر قدر ممكن من العمل اليدوي”. تتمثل مهمة Datasaur في إضفاء الطابع الديمقراطي على الوصول إلى البرمجة اللغوية العصبية من خلال تمكين المستخدمين من العمل بأي لغة ، سواء كانت الفرنسية أو الكورية أو العربية. نريد هذا العرض لمساعدة الجميع بسهولة أكبر في تدريب وتطوير LLM لأغراضهم. “
تؤكد الشركة أن نظامها الأساسي لديه القدرة على تقليل الوقت والنفقات المرتبطة بملصقات البيانات بنسبة 30٪ إلى 80٪.
لأتمتة تصنيف البيانات ، تستخدم المنصة مجموعة من التقنيات. يستخدم نماذج مفتوحة المصدر راسخة مثل spaCy و NLTK لتحديد الكيانات المشتركة. كما أنها تستخدم طريقة الإشراف الضعيفة لبرمجة البيانات ، مما يمكّن المهندسين من إنشاء وظائف بسيطة تقوم تلقائيًا بتسمية أنواع كيانات معينة. على سبيل المثال ، إذا كان النص يحتوي على كلمات رئيسية مثل “بيتزا” أو “برجر” ، فإن النظام الأساسي يطبق تصنيف “الطعام”.
علاوة على ذلك ، يشتمل النظام الأساسي على واجهة OpenAI API مضمنة ، مما يسمح للعملاء بمطالبة ChatGPT بتسمية مستنداتهم نيابة عنهم. تقول الشركة إن هذا النهج يمكن أن يحقق مستويات عالية من النجاح ، اعتمادًا على مدى تعقيد المهمة ، مع فتح طرق جديدة للأتمتة.
وفقًا لـ Lee ، تعد ميزة RLHF الخاصة بالمنصة واحدة من أكثر الطرق فعالية لتعزيز قدرات تدريب LLM. وقال إن هذا النهج يمكّن المستخدمين من تقييم مجموعة من مخرجات النموذج بسرعة وبسهولة وتحديد المخرجات المتفوقة ، مما يمنع التدخل اليدوي.
تتيح منصتنا للمستخدم عرض الخيارات المختلفة وترتيبها من الأفضل إلى الأسوأ. واجهة السحب والإفلات سهلة التشغيل للمستخدم غير التقني ، ويتضمن الناتج الناتج كل تغيير في تفضيلات الترتيب (على سبيل المثال ، 1 أفضل من 2 ، 1 أفضل من 3 ، 2 أفضل من 3) لجعلها قابلة للاستهلاك بسهولة من قبل عالم البيانات الفنية ونموذج المكافأة ، “أوضح لي.
مستقبل من الفرص في البرمجة اللغوية العصبية
لاحظ لي أن الاستثمار في البرمجة اللغوية العصبية داخل السوق مزدهر ، ويتوقع تطورًا سريعًا للمنتجات القائمة على LLM.
وأكد أنه في السنوات المقبلة ، سيكون هناك طفرة في تطوير التطبيقات التي تعطي الأولوية لتكنولوجيا LLM.
“لن تكون الواجهات القادمة مربع دردشة ؛ سيتم إدخالها مباشرة في التطبيقات التي نستخدمها يوميًا ، مثل Gmail و Word وما إلى ذلك “. “تمامًا كما تعلمنا كيفية تحسين استعلامات بحث Google (على سبيل المثال ،” ساعات ستاربكس يوم السبت “) ، سيشعر عامة الناس بالراحة في التفاعل مع التطبيقات من خلال واجهة اللغة الطبيعية هذه. تهدف Datasaur إلى أن تكون جاهزًا لتمكين المنظمات ودعمها في بناء مثل هذه النماذج وسير عمل البيانات “.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.