Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
أخبار التقنية

تطلق Meta I-JEPA ، نموذج التعلم الآلي الذي يتعلم التجريدات عالية المستوى من الصور


انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر


لعدة سنوات ، كان كبير علماء الذكاء الاصطناعي في Meta Yann LeCun يتحدث عن أنظمة التعلم العميق التي يمكنها تعلم نماذج العالم بمساعدة قليلة أو معدومة من البشر. الآن ، بدأت هذه الرؤية تؤتي ثمارها ببطء حيث أصدرت Meta للتو الإصدار الأول من I-JEPA ، وهو نموذج للتعلم الآلي يتعلم تمثيلات مجردة للعالم من خلال التعلم بالإشراف الذاتي على الصور.

تظهر الاختبارات الأولية أن I-JEPA تؤدي أداءً قويًا في العديد من مهام الرؤية الحاسوبية. كما أنها أكثر كفاءة من النماذج الحديثة الأخرى ، حيث تتطلب عُشر موارد الحوسبة للتدريب. قامت Meta بفتح رمز ونموذج التدريب من المصادر المفتوحة وستقدم I-JEPA في مؤتمر رؤية الكمبيوتر والتعرف على الأنماط (CVPR) الأسبوع المقبل.

التعلم تحت الإشراف الذاتي

فكرة التعلم تحت الإشراف الذاتي مستوحاة من الطريقة التي يتعلم بها البشر والحيوانات. نحصل على الكثير من معرفتنا ببساطة عن طريق مراقبة العالم. وبالمثل ، يجب أن تكون أنظمة الذكاء الاصطناعي قادرة على التعلم من خلال الملاحظات الأولية دون الحاجة إلى أن يقوم البشر بتسمية بيانات التدريب الخاصة بهم.

حقق التعلم تحت الإشراف الذاتي إنجازات كبيرة في بعض مجالات الذكاء الاصطناعي ، بما في ذلك النماذج التوليدية ونماذج اللغة الكبيرة (LLMs). في عام 2022 ، اقترح LeCun “بنية التضمين التنبؤية المشتركة” (JEPA) ، وهو نموذج خاضع للإشراف الذاتي يمكنه تعلم النماذج العالمية والمعرفة المهمة مثل الفطرة السليمة. تختلف JEPA عن النماذج الأخرى التي تخضع للإشراف الذاتي في نواحٍ مهمة.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

>> لا تفوّت إصدارنا الخاص: بناء الأساس لجودة بيانات العملاء. <

تم تصميم النماذج التوليدية مثل DALL-E و GPT لعمل تنبؤات دقيقة. على سبيل المثال ، أثناء التدريب ، يتم حجب جزء من نص أو صورة ويحاول النموذج التنبؤ بالكلمات أو وحدات البكسل المفقودة بدقة. تكمن مشكلة محاولة ملء كل جزء من المعلومات في أن العالم لا يمكن التنبؤ به ، وغالبًا ما يتعثر النموذج بين العديد من النتائج المحتملة. هذا هو السبب في أنك ترى أن النماذج التوليدية تفشل عند إنشاء كائنات مفصلة مثل اليدين.

في المقابل ، بدلاً من التفاصيل على مستوى البكسل ، تحاول JEPA التعرف على التجريدات عالية المستوى والتنبؤ بها ، مثل ما يجب أن يحتويه المشهد وكيفية ارتباط الكائنات ببعضها البعض. هذا النهج يجعل النموذج أقل عرضة للخطأ وأقل تكلفة بكثير لأنه يتعلم المساحة الكامنة للبيئة.

كتب باحثو ميتا: “من خلال التنبؤ بالتمثيلات على مستوى عالٍ من التجريد بدلاً من التنبؤ بقيم البكسل مباشرةً ، فإن الأمل يكمن في تعلم تمثيلات مفيدة بشكل مباشر تتجنب أيضًا قيود الأساليب التوليدية”.

I-JEPA

I-JEPA هو تطبيق قائم على الصور لبنية LeCun المقترحة. يتنبأ بالمعلومات المفقودة باستخدام “أهداف التنبؤ المجردة التي من المحتمل أن يتم التخلص من التفاصيل غير الضرورية على مستوى البكسل ، مما يؤدي بالنموذج إلى تعلم المزيد من الميزات الدلالية.”

تقوم I-JEPA بترميز المعلومات الموجودة باستخدام محول الرؤية (ViT) ، وهو متغير من بنية المحولات المستخدمة في LLMs ولكن تم تعديلها لمعالجة الصور. ثم يمرر هذه المعلومات كسياق إلى المتنبئ ViT الذي يولد تمثيلات دلالية للأجزاء المفقودة.

مصدر الصورة: ميتا

قام الباحثون في Meta بتدريب نموذج توليدي يقوم بإنشاء رسومات من البيانات الدلالية التي تتوقعها I-JEPA. في الصور التالية ، تم إعطاء I-JEPA وحدات البكسل خارج المربع الأزرق كسياق وتوقع المحتوى داخل المربع الأزرق. ثم قام النموذج التوليدي بإنشاء رسم تخطيطي لتوقعات I-JEPA. تظهر النتائج أن تجريدات I-JEPA تتطابق مع واقع المشهد.

I-JEPA
مصدر الصورة: ميتا

بينما لن تنتج I-JEPA صورًا واقعية ، يمكن أن يكون لها العديد من التطبيقات في مجالات مثل الروبوتات والسيارات ذاتية القيادة ، حيث يجب أن يكون وكيل الذكاء الاصطناعي قادرًا على فهم بيئته والتعامل مع بعض النتائج المعقولة للغاية.

نموذج فعال للغاية

إحدى الفوائد الواضحة لـ I-JEPA هي الذاكرة وكفاءة الحوسبة. لا تتطلب مرحلة ما قبل التدريب تقنيات زيادة البيانات الحاسوبية المكثفة المستخدمة في أنواع أخرى من أساليب التعلم تحت الإشراف الذاتي. تمكن الباحثون من تدريب نموذج مكون من 632 مليون متغير باستخدام 16 وحدة معالجة رسومات A100 في أقل من 72 ساعة ، أي حوالي عُشر ما تتطلبه التقنيات الأخرى.

كتب الباحثون: “من الناحية التجريبية ، وجدنا أن I-JEPA تتعلم تمثيلات دلالية قوية جاهزة دون استخدام مكملات العرض المصنوعة يدويًا”.

>> تابع تغطية الذكاء الاصطناعي التوليدية المستمرة من VentureBeat <

تظهر تجاربهم أن I-JEPA تتطلب أيضًا ضبطًا أقل بكثير لتتفوق على أحدث النماذج الأخرى في مهام رؤية الكمبيوتر مثل التصنيف وعد الأشياء والتنبؤ بالعمق. تمكن الباحثون من ضبط النموذج على مجموعة بيانات تصنيف الصور ImageNet-1K مع 1٪ من بيانات التدريب ، باستخدام 12 إلى 13 صورة فقط لكل فصل.

كتب الباحثون: “باستخدام نموذج أبسط مع تحيز استقرائي أقل صرامة ، فإن I-JEPA قابل للتطبيق على مجموعة أوسع من المهام”.

نظرًا للتوافر العالي للبيانات غير المصنفة على الإنترنت ، يمكن أن تثبت النماذج مثل I-JEPA أنها ذات قيمة كبيرة للتطبيقات التي كانت تتطلب سابقًا كميات كبيرة من البيانات المصنفة يدويًا. يتوفر رمز التدريب والنماذج المدربة مسبقًا على GitHub ، على الرغم من إصدار النموذج بموجب ترخيص غير تجاري.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى