تطلق TruEra أداة مجانية لاختبار تطبيقات LLM للهلوسة
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
قامت TruEra ، وهي مورد يوفر أدوات لاختبار نماذج لغة الآلة (ML) وتصحيحها ومراقبتها ، بتوسيع مجموعة منتجاتها اليوم بإطلاق TruLens ، وهو برنامج مفتوح المصدر مخصص لاختبار التطبيقات المبنية على نماذج اللغات الكبيرة (LLMs) مثل سلسلة GPT .
يتوفر TruLens بدءًا من اليوم مجانًا ، ويوفر للمؤسسات طريقة سريعة وسهلة لتقييم تطبيقات LLM الخاصة بهم وتكرارها والقضاء على فرص الهلوسة والتحيز في مرحلة الإنتاج.
حاليًا ، لا يقدم سوى عدد محدود من البائعين أدوات لمعالجة هذا الجانب من تطوير تطبيق LLM ، حتى مع استمرار الشركات عبر القطاعات في استكشاف إمكانات الذكاء الاصطناعي التوليدي لحالات الاستخدام المختلفة.
لماذا TruLens لتطبيقات LLM؟
تعد LLMs من الغضب ، ولكن عندما يتعلق الأمر ببناء التطبيقات بناءً على هذه النماذج ، يتعين على الشركات أن تمر بعملية تجريبية متعبة تتضمن تسجيل استجابة يحركها الإنسان. بشكل أساسي ، بمجرد تطوير الإصدار الأول من التطبيق ، يتعين على الفرق اختبار إجاباته يدويًا ومراجعتها ، وتعديل المطالبات والمعلمات الفائقة والنماذج ، ثم إعادة الاختبار مرارًا وتكرارًا حتى يتم تحقيق نتيجة مرضية.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
هذا لا يستغرق الكثير من الوقت فحسب ، بل من الصعب توسيع نطاقه.
باستخدام TruLens ، تعالج TruEra هذه الفجوة من خلال تقديم طريقة برمجية للتقييم تسمى “وظائف التغذية الراجعة”. كما توضح الشركة ، تقوم وظيفة التغذية الراجعة بتسجيل نتائج تطبيق LLM للجودة والفعالية من خلال تحليل كل من النص الذي تم إنشاؤه من LLM والبيانات الوصفية للاستجابة.
فكر في الأمر كطريقة لتسجيل وتقييم التعليقات المباشرة وغير المباشرة على أداء وجودة تطبيق LLM الخاص بك. يساعد هذا المطورين على إنشاء تطبيقات LLM موثوقة وقوية بشكل أسرع. يمكنك استخدامه لمجموعة متنوعة من حالات استخدام LLM ، مثل الإجابة على أسئلة روبوتات الدردشة واسترجاع المعلومات وما إلى ذلك ، “قال أنوبام داتا ، الشريك المؤسس والرئيس وكبير العلماء في TruEra ، لـ VentureBeat.
يمكن إضافة TruLens إلى عملية التطوير ببضعة أسطر من التعليمات البرمجية. بمجرد تشغيله ، يمكن للمستخدمين إنشاء وظائف التعليقات الخاصة بهم – المخصصة لحالات استخدام محددة – أو استخدام الخيارات الجاهزة.
حاليًا ، يوفر البرنامج وظائف التغذية الراجعة التي تختبر المصداقية ، وملاءمة الإجابة على الأسئلة ، واللغة الضارة أو السامة ، ومشاعر المستخدم ، وعدم تطابق اللغة ، وإسهاب الاستجابة ، والإنصاف والتحيز. علاوة على ذلك ، فإنه يسجل أيضًا مقدار اختبار LLM داخل التطبيق ، مما يوفر طريقة سهلة لتتبع تكاليف الاستخدام.
يساعدك هذا أيضًا في تحديد كيفية إنشاء أفضل إصدار من التطبيق بأقل تكلفة مستمرة. وأشار داتا إلى أن كل هذه الأصوات تضيف ما يصل.
عروض أخرى لتطبيقات LLM
في حين أن اختبار التطبيقات التي تعتمد على LLM للأداء ودقة الاستجابة هو حاجة الساعة ، فقد أطلق عدد قليل من اللاعبين حلولًا للتعامل معها. وهي تشمل تكامل مراقبة نموذج OpenAI الخاص بـ Datadog ، وحل Arize’s Pheonix ، وحل مراقبة الذكاء الاصطناعي التوليدي الذي تم إطلاقه للتو من مختبرات Mona Labs في إسرائيل.
من جانبها ، تدعي TruEra أن استخدام TruLens هو الأفضل في مرحلة تطوير تطبيق LLM.
“هذه في الواقع هي المرحلة التي تمر بها معظم الشركات اليوم – فهي تختبر التطوير ولديها حقًا حاجة ماسة لأدوات تساعدها على التكرار بشكل أسرع وفي المنزل على إصدارات التطبيقات الفعالة في مهامها وتقليل المخاطر. يمكنك بالطبع استخدامه في كل من نماذج التطوير والإنتاج “، قال داتا.
وفقًا لاستطلاع أجرته شركة Accenture ، يتفق 98٪ من المديرين التنفيذيين العالميين على أن نماذج مؤسسة الذكاء الاصطناعي ستلعب دورًا مهمًا في استراتيجيات مؤسساتهم في السنوات الثلاث إلى الخمس المقبلة. يشير هذا إلى أن أدوات مثل TruLens ستشهد قريبًا طلبًا متزايدًا من الشركات.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.