تعانق الوجه والخدمة الآن تفتح الذكاء الاصطناعي التوليدي للترميز باستخدام StarCoder
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
أصبح المشهد العام للذكاء الاصطناعي التوليدي لتوليد الكود أكثر ازدحامًا اليوم مع إطلاق نموذج اللغة الكبيرة الجديد StarCoder (LLM).
StarCoder هو جزء من مشروع BigCode ، وهو جهد مشترك لـ ServiceNow و Hugging Face. تم الإعلان عن BigCode في الأصل في سبتمبر 2022 كمحاولة لبناء مجتمع مفتوح حول أدوات إنشاء الكود للذكاء الاصطناعي. StarCoder LLM هو نموذج 15 مليار معلمة تم تدريبه على كود المصدر الذي تم ترخيصه بشكل مسموح به ومتاح على GitHub.
تم تدريب النموذج على أكثر من 80 لغة برمجة ، على الرغم من أنه يتمتع بقوة خاصة مع لغة برمجة Python الشائعة المستخدمة على نطاق واسع في علوم البيانات والتعلم الآلي (ML).
تسخين السوق
يجلب الجهد المبذول لبناء أداة إنشاء أكواد مفتوحة للذكاء الاصطناعي منافسة جديدة على Codex الخاص بـ OpenAI ، والذي يدعم خدمة GitHub التجريبية المساعدة ، بالإضافة إلى جهود البائعين الآخرين بما في ذلك أداة CodeWhisper من Amazon. تعتمد كل من أدوات OpenAI و Amazon على رمز الملكية ، بينما يتم توفير StarCoder بموجب ترخيص Open Responsible AI Licenses (OpenRAIL).
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
قال Leandro von Werra ، مهندس ML في Hugging Face والرئيس المشارك لـ BigCode ، لـ VentureBeat: “هناك نماذج أكواد قوية ، لكنها كلها مصادر مغلقة ، ولا أحد يعرف بالضبط كيفية تدريبها”.
أضاف Von Werra أن الفكرة وراء BigCode و StarCoder هي بناء نماذج قوية لتوليد الكود في العراء. بينما يقود هذا الجهد Hugging Face and Service الآن ، أكد أن هناك مجتمعًا نشطًا يضم ما يقرب من 600 شخص في المجتمع يساهمون في نجاح المشروع.
BigCode هو الخليفة الروحي لـ BigScience
جهود BigCode ليست المرة الأولى التي يساعد فيها HuggingFace في بناء مجتمع لفتح تطوير الذكاء الاصطناعي.
أطلق Von Werra على BigCode اسم “الوريث الروحي” لجهود BigScience ، التي بدأت في عام 2021. في عام 2022 ، تم إصدار BigScience Large Open-science Open-access Multilingual Language Model (BLOOM) ، مما يوفر نموذجًا متعدد اللغات لتوليد النص المقصود لتكون بديلاً مفتوحًا لـ OpenAI’s GPT-3.
يحتوي BigCode على بضع خطوات تكرارية على المسار نحو إصدار StarCoder. في أكتوبر 2022 ، أعلن المشروع عن “The Stack” ، وهو عبارة عن مجموعة من التعليمات البرمجية المرخصة بشكل مسموح به والتي تم جمعها من GitHub كمجموعة بيانات تدريبية لإنشاء كود LLM. في ديسمبر 2022 ، أصدرت BigCode أول “هدية” لها مع SantaCoder ، وهو نموذج تمهيدي لـ StarCoder تم تدريبه على مجموعة فرعية أصغر من البيانات ويقتصر على لغات برمجة Python و Java و JavaScript.
مع StarCoder ، يوفر المشروع أداة إنشاء رمز كاملة الميزات تمتد عبر 80 لغة. أوضح Harm de Vries ، رئيس مختبر LLM في ServiceNow Research والرئيس المشارك لـ BigCode ، لـ VentureBeat أنه يمكن استخدام StarCoder في مجموعة متنوعة من السيناريوهات. على سبيل المثال ، أوضح كيف يمكن استخدام StarCoder كمساعد ترميز ، مع توفير التوجيه حول كيفية تعديل التعليمات البرمجية الحالية أو إنشاء رمز جديد.
يمكن تشغيل StarCoder LLM من تلقاء نفسه كأداة إنشاء نص إلى رمز ويمكن أيضًا دمجه عبر مكون إضافي لاستخدامه مع أدوات التطوير الشائعة بما في ذلك Microsoft VS Code. أشار Von Werra إلى أن StarCoder يمكنه أيضًا فهم وإجراء تغييرات في التعليمات البرمجية. على سبيل المثال ، يمكن للمستخدم استخدام موجه نص مثل “أريد إصلاح الخطأ في هذه الوظيفة” وسيقوم LLM بذلك.
لماذا يحتاج الذكاء الاصطناعي القابل للتفسير إلى ترخيص مفتوح
يتمثل أحد الجوانب المهمة لبرنامج StarCoder وجهود BigCode بشكل عام في أن جميع التقنيات متاحة بموجب ترخيص مفتوح.
يتمثل التحدي الرئيسي للمؤسسات التي تنشر الذكاء الاصطناعي اليوم في الحاجة إلى ذكاء اصطناعي قابل للتفسير ، حيث يكون من الممكن فهم كيف ولماذا اتخذ النموذج خيارات وقرارات معينة. يتمثل أحد التحديات ذات الصلة في الحاجة إلى ضمان استخدام الذكاء الاصطناعي بمسؤولية وعدم إلحاق الضرر بالناس من خلال المحتوى السام أو البرامج الضارة. للمساعدة في حل هذه المشكلات الشائكة ، تستخدم BigCode تراخيص OpenRail ولبرنامج StarCoder على وجه الخصوص ، ترخيص Code Open RAIL-M.
قال دي فريس: “نحن نعلم أن هذه النماذج قوية جدًا ونريد التأكد من استخدامها لحالات الاستخدام الجيد وليس لحالات الاستخدام التي سيكون لها آثار سيئة”.
يسمح ترخيص Code Open RAIL-M للمستخدمين برؤية الكود داخل النموذج مع قيود تهدف إلى منع إساءة استخدام الكود – مثل استخدامه لإنشاء برامج فدية أو هجوم هندسة اجتماعية.
قال دي فريس: “إنه مفتوح تمامًا مثل ترخيص مفتوح المصدر”. “إنه يأتي فقط مع القيود التي تتأكد من أننا نلتزم بمبادئ الذكاء الاصطناعي المسؤولة لدينا.”
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.