RedPajama يكرر مجموعة بيانات LLaMA لبناء مصادر مفتوحة المصدر وأحدث أنظمة LLM
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
هل تعتقد أن إشارات الذكاء الاصطناعي مفتوحة المصدر إلى الجمال قد اكتملت؟ فكر مرة أخرى: بالأمس ، أعلنت شركة معًا في مينلو بارك بولاية كاليفورنيا تركز على بناء سحابة لامركزية ونماذج مفتوحة المصدر ، عن RedPajama (نعم ، مثل لاما لاما بيجاما حمراء) أمس.
قالت الشركة في منشور بالمدونة: “من نواحٍ عديدة ، تتمتع منظمة العفو الدولية بلحظتها على نظام Linux” ، في رابط إلى منشور في يناير كتبه كريس ري ، المؤسس المشارك لـ Together ، الأستاذ المشارك في جامعة ستانفورد والمؤسس المشارك لـ SambaNova ، Snorkel.ai والمصنع.
RedPajama هو مشروع تعاوني بين Together و Ontocord.ai و ETH DS3Lab و Stanford CRFM و Hazy Research و MILA Québec AI Institute لإنشاء نماذج لغات رائدة ومفتوحة المصدر بالكامل (LLMs). بدأت جهوده بإصدار مجموعة بيانات رمزية بقيمة 1.2 تريليون يوم أمس تتبع وصفة LLaMA. تمكن البيانات أي مؤسسة من التدريب المسبق على النماذج التي يمكن ترخيصها بشكل مسموح به. تتوفر مجموعة البيانات الكاملة على Hugging Face ويمكن للمستخدمين إعادة إنتاج النتائج باستخدام نصوص Apache 2.0 النصية المتوفرة على Github.
LLaMA هو ماجستير تأسيسي حديث تم إصداره في فبراير من قبل Meta مع وصول محصور للباحثين. تم طرح العديد من الطرز الأخرى المستندة إلى LLaMA في الأسابيع الأخيرة ، بما في ذلك Alpaca و Vicuna و Koala – لكن هذه النماذج لم تكن متاحة للاستخدام التجاري. كان هناك أيضًا بعض الدراما LLaMA عندما تم تسريب نموذج LLaMA على 4chan.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
في الأسابيع المقبلة ، ستصدر Together مجموعة كاملة من LLMs والإصدارات التي تم ضبطها بناءً على مجموعة بيانات RedPajama. وأكدت الشركة أن النماذج القادمة ستكون مفتوحة المصدر بالكامل وقابلة للتطبيق تجاريًا. في سقسقة، قالت الشركة ، “نأمل أن يكون هذا إصدار غرفة نظيفة وخالية من الدراما. سيتم إطلاق طرازات RedPajama التي نصدرها ، بدءًا من الأسابيع المقبلة ، بموجب ترخيص Apache 2.0 “.
RedPajama هو جزء من موجة من الذكاء الاصطناعي مفتوح المصدر
كما ذكرت VentureBeat الأسبوع الماضي ، كان الذكاء الاصطناعي مفتوح المصدر يمر بلحظة خلال الأسابيع القليلة الماضية ، في أعقاب موجة إصدارات LLM وجهود من قبل الشركات الناشئة والمجموعات والأكاديميين لمقاومة التحول في الذكاء الاصطناعي إلى LLMs المغلقة والمملوكة.
كما احتل الطراز Dolly 2.0 المجاور للجمل (كما في Dolly the Sheep) عناوين الصحف الأسبوع الماضي عندما أطلق عليه مطور Databricks أول ماجستير مفتوح يتبع التعليمات للاستخدام التجاري.
لكن أكبر وأحدث برامج ماجستير مفتوح المصدر مثل LLaMA اقتصرت على مجتمع البحث. قال فيبول فيد براكاش ، المؤسس والرئيس التنفيذي لشركة Together والمؤسس المشارك سابقًا لـ Cloudmark and Topsy: “إنها محدودة من حيث أنه لا يمكنك إنشاء تطبيقات حقيقية وشحنها”. “نعتقد أن الحصول على نماذج مرخصة بشكل مسموح به هو جانب مهم من جوانب الذكاء الاصطناعي مفتوحة المصدر.”
لم يكن تكرار مجموعة بيانات LLaMA مهمة صغيرة
بدأت الشركة بـ LLaMa ، الذي أطلق عليه “المجموعة الرائدة من نماذج القاعدة المفتوحة” ، لأنه تم تدريبها على “مجموعة بيانات كبيرة جدًا تمت تصفيتها بعناية من أجل الجودة”. أيضًا ، تم تدريب نموذج LLaMA البالغ 7 مليارات متغير “لفترة أطول بكثير ، تتجاوز بكثير نقطة شينشيلا المثالية ، لضمان أفضل جودة في حجم النموذج هذا.”
بينما لن تكون مجموعة البيانات ولا النموذج متطابقين ، يهدف المطورون إلى إنشاء نسخة مفتوحة المصدر بالكامل من LLaMA والتي ستكون متاحة للتطبيقات التجارية ، وتوفر “خط أنابيب أكثر شفافية للبحث”.
لم يكن للمطورين حق الوصول إلى مجموعة بيانات LLaMA ولكن كان لديهم ما يكفي من الوصفة للمتابعة. لقد اتبعنا الوصفة بعناية فائقة لإعادة إنشائها بشكل أساسي [the LLaMA dataset] قال براكاش. تتكون مجموعة البيانات من سبع شرائح بيانات ، بما في ذلك بيانات من الزحف المشترك و arxiv و Github و Wikipedia ومجموعة من الكتب المفتوحة.
“لكل شريحة بيانات ، نجري معالجة مسبقة للبيانات وتصفيتها بدقة ، ونقوم بضبط عوامل تصفية الجودة الخاصة بنا لتتطابق تقريبًا مع عدد الرموز المميزة كما ذكرت Meta AI في ورقة LLaMA ،” اقرأ منشور المدونة.
قال براكاش: “كل البيانات التي تم تدريب LLaMA عليها هي بيانات متاحة بشكل مفتوح ، ولكن التحدي كان أنهم لم يقدموا مجموعة البيانات الفعلية – هناك الكثير من العمل للانتقال من النظرة العامة إلى مجموعة البيانات الفعلية”. على سبيل المثال ، أوضح ، قد تصف الورقة كيف اختاروا أفضل 10000 من بين مليون وثيقة ، لكنهم لم يعطوك 10000. قال: “لذلك اتبعنا الوصفة لتكرار كل هذا العمل لإنشاء مجموعة بيانات مكافئة”.
الجدل حول بناء أنظمة شفافة
قال براكاش إن المتعاونين في مشروع RedPajama يعتقدون أنه من المهم أن تكون الأنظمة شفافة. قال: “أنت تعرف بالضبط كيف تم بناء هذا النموذج ، وما الذي دخل فيه”. “إذا كنت تحاول تحسينه ، يمكنك البدء من مجموعة البيانات.”
وأضاف أن المشروع يجمع أيضًا مجتمعًا أكبر لهذه النماذج. قال: “أود أن أقول إن الأوساط الأكاديمية قد قطعت بالفعل من أبحاث النموذج التأسيسي بسبب مستوى الموارد المطلوبة ، بدءًا من البيانات وحتى الحساب”. وأضاف أن هناك عددًا قليلاً من الأشخاص في العالم يعملون على هذه النماذج الكبيرة اليوم ، وإذا كان هناك وصول أوسع ، فسيكون بإمكان “الكثير من الأشخاص اللامعين” حول العالم استكشاف اتجاهات مختلفة للهياكل العصبية وخوارزميات التدريب وأبحاث السلامة.
وقال: “هذا أيضًا أحد أوائل الذكاء الاصطناعي العام حقًا والذي يمكن تكييفه مع مهام مختلفة ، ونعتقد أن قابلية التطبيق واسعة جدًا”. لكن العديد من التطبيقات المختلفة ممكنة فقط إذا كان لديك وصول إلى النموذج وأوزان النموذج وتكييفها مع بيئات الحوسبة المختلفة. نرى الكثير من هذا يحدث بسبب الذكاء الاصطناعي مفتوح المصدر “.
ومع ذلك ، هناك جانب آخر لنقاش الذكاء الاصطناعي مفتوح المصدر. على سبيل المثال ، قال إيليا سوتسكفر ، كبير العلماء والمؤسس المشارك لشركة OpenAI ، مؤخرًا أنه من “الخطأ” مشاركة الأبحاث بشكل علني ، قائلاً إن الخوف من المنافسة والمخاوف بشأن السلامة – “بديهي”. وأضاف أنه “في مرحلة ما سيكون من السهل جدًا ، إذا أراد المرء ، إحداث قدر كبير من الضرر بهذه النماذج”.
وفي مقابلة حديثة مع VentureBeat ، قالت جويل بينو ، نائب رئيس أبحاث الذكاء الاصطناعي في Meta ، إنه في حين أن المساءلة والشفافية في نماذج الذكاء الاصطناعي ضرورية ، فإن مفتاح Meta هو تحقيق التوازن بين مستوى الوصول ، والذي يمكن أن يختلف اعتمادًا على الضرر المحتمل. . من النموذج.
وقالت: “أملي ، وهو ما ينعكس في استراتيجيتنا للوصول إلى البيانات ، هو معرفة كيفية السماح بالشفافية لعمليات تدقيق إمكانية التحقق من هذه النماذج” ، مضيفة أنه يمكن تحديد الوصول بناءً على مستوى الضرر المحتمل للنموذج.
من ناحية أخرى ، قالت إن بعض مستويات الانفتاح تذهب بعيدًا. هذا هو السبب في أن نموذج LLaMA كان له إصدار مسور ، كما أوضحت. كان الكثير من الناس سعداء جدًا بالانفتاح التام. لا أعتقد أن هذا هو الشيء المسؤول الذي يجب القيام به اليوم “.
مناقشات حول مجموعات البيانات الأخلاقية أيضًا
كانت هناك أيضًا نقاشات حول أخلاقيات مجموعات البيانات نفسها ، سواء كانت النماذج مفتوحة أو مغلقة. قال مقال الأسبوع الماضي في صحيفة الجارديان إن “مجموعات البيانات الهائلة المستخدمة لتدريب أحدث جيل من أنظمة الذكاء الاصطناعي ، مثل تلك التي كانت وراء ChatGPT و Stable Diffusion ، من المحتمل أن تحتوي على مليارات الصور المأخوذة من الإنترنت ، وملايين الكتب الإلكترونية المقرصنة ، و الإجراءات الكاملة لمدة 16 عامًا للبرلمان الأوروبي وكل ويكيبيديا باللغة الإنجليزية. ”
لكن براكاش يقول إنه يعتقد أن “هذه النماذج تلتقط بطريقة ما ناتج المجتمع البشري وهناك نوع من الالتزام بجعلها مفتوحة وقابلة للاستخدام من قبل الجميع”. وأضاف أن “معظم سحر” هذه النماذج يأتي من حقيقة أنها مدربة على بيانات “واسعة وواسعة حقًا”.
وأشار أيضا إلى أن البيانات الأصلية مضغوطة بشكل كبير في النموذج الفعلي. يبلغ حجم مجموعة بيانات RedPajama 5 تيرابايت ، ويمكن أن تكون الطرز صغيرة مثل 14 غيغابايت ، أي حوالي 500 مرة أصغر من البيانات الأصلية التي تصممها.
قال براكاش: “هذا يعني أن المعرفة من البيانات يتم تجريدها وتحويلها ونمذجتها في تمثيل مختلف تمامًا لأوزان وتحيزات المعلمات في نموذج الشبكة العصبية ، ولا يتم تخزينها واستخدامها في شكلها الأصلي”. لذلك ، “لا يتم إعادة إنتاج بيانات التدريب – إنه عمل مشتق فوق ذلك. من فهمنا ، يُعتبر استخدامًا عادلًا طالما أن النموذج لا يعيد إنتاج البيانات – إنه يتعلم منها “.
ليس هناك شك في أن مناقشات الذكاء الاصطناعي مفتوحة المصدر معقدة للغاية. ولكن عندما سئل لماذا أطلقت الشركة على المشروع الجديد RedPajama ، كانت الإجابة أبسط بكثير. قال براكاش: “الكثير منا لديه أطفال صغار”. “بدا الأمر ممتعًا.”
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.