تعقيد الشبكة العصبية: هل تتحسن؟
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
لقد حقق الذكاء الاصطناعي (AI) تقدمًا هائلاً منذ نشأته ، وعادةً ما تكون الشبكات العصبية جزءًا من هذا التقدم. تعد الشبكات العصبية التي تطبق الأوزان على المتغيرات في نماذج الذكاء الاصطناعي جزءًا لا يتجزأ من هذه التكنولوجيا الحديثة.
البحث مستمر ، ولا يزال الخبراء يناقشون ما إذا كان الأكبر هو الأفضل من حيث تعقيد الشبكة العصبية.
تقليديا ، ركز الباحثون على إنشاء شبكات عصبية مع عدد كبير من المعلمات لتحقيق دقة عالية في مجموعات البيانات المعيارية. بينما أدى هذا النهج إلى تطوير بعض أكثر الشبكات العصبية تعقيدًا حتى الآن – مثل GPT-3 مع أكثر من 175 مليار معلمة تؤدي الآن إلى GPT-4. لكنه يأتي أيضًا مع تحديات كبيرة.
على سبيل المثال ، تتطلب هذه النماذج كميات هائلة من طاقة الحوسبة والتخزين والوقت للتدريب ، وقد يكون من الصعب دمجها في تطبيقات العالم الحقيقي.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
تختلف آراء الخبراء في مجتمع الذكاء الاصطناعي حول أهمية تعقيد الشبكة العصبية. يجادل البعض بأن الشبكات الأصغر المدربة جيدًا يمكن أن تحقق نتائج مماثلة للنماذج الأكبر إذا كانت مدربة بشكل فعال وتتسم بالكفاءة.
على سبيل المثال ، تدعي النماذج الأحدث مثل Chinchilla by Google DeepMind – التي تضم 70 مليار معلمة “فقط” – أنها تتفوق في الأداء على Gopher و GPT-3 و Jurassic-1 و Megatron-Turing NLG عبر مجموعة كبيرة من معايير اللغة. وبالمثل ، يُظهر LLaMA by Meta – الذي يضم 65 مليار معلمة – أن النماذج الأصغر يمكن أن تحقق أداءً أكبر.
ومع ذلك ، لا يزال الحجم المثالي والتعقيد للشبكات العصبية مسألة نقاش في مجتمع الذكاء الاصطناعي ، مما يثير السؤال: هل تعقيد الشبكة العصبية مهم؟
جوهر تعقيد الشبكة العصبية
يتم إنشاء الشبكات العصبية من طبقات مترابطة من الخلايا العصبية الاصطناعية التي يمكنها التعرف على الأنماط في البيانات وتنفيذ مهام مختلفة مثل تصنيف الصور والتعرف على الكلام ومعالجة اللغة الطبيعية (NLP). يحدد عدد العقد في كل طبقة وعدد الطبقات والوزن المخصص لكل عقدة مدى تعقيد الشبكة العصبية. كلما زاد عدد العقد والطبقات الموجودة في الشبكة العصبية ، زادت تعقيدها.
مع ظهور تقنيات التعلم العميق التي تتطلب المزيد من الطبقات والمعلمات ، زاد تعقيد الشبكات العصبية بشكل كبير. مكنت خوارزميات التعلم العميق الشبكات العصبية من العمل في مجموعة من التطبيقات ، بما في ذلك التعرف على الصور والكلام ومعالجة اللغات الطبيعية. الفكرة هي أن الشبكات العصبية الأكثر تعقيدًا يمكنها تعلم أنماط أكثر تعقيدًا من بيانات الإدخال وتحقيق دقة أعلى.
قال أوجوال كروثابالي ، مدير علوم البيانات في EY: “يمكن للنموذج المعقد التفكير بشكل أفضل والتقاط الاختلافات الدقيقة”. “ومع ذلك ، يمكن للنموذج المعقد أيضًا أن” يحفظ “عينات التدريب ولا يعمل بشكل جيد على البيانات التي تختلف تمامًا عن مجموعة التدريب.”
الأكبر هو الأفضل
أوضحت ورقة قُدمت في عام 2021 في مؤتمر الذكاء الاصطناعي الرائد NeurIPS من قبل سيباستيان بوبيك من Microsoft Research و Mark Sellke من جامعة ستانفورد ، لماذا يؤدي توسيع حجم الشبكة العصبية الاصطناعية إلى نتائج أفضل. وجدوا أن الشبكات العصبية يجب أن تكون أكبر مما هو متوقع تقليديًا لتجنب مشاكل أساسية محددة.
ومع ذلك ، فإن هذا النهج يأتي أيضًا مع بعض العيوب. أحد التحديات الرئيسية لتطوير شبكات عصبية كبيرة هو مقدار قوة الحوسبة والوقت اللازم لتدريبها. بالإضافة إلى ذلك ، غالبًا ما تكون الشبكات العصبية الكبيرة صعبة النشر في سيناريوهات العالم الحقيقي ، مما يتطلب موارد كبيرة.
قال كاري بريسكي ، نائب رئيس إدارة المنتجات لبرامج الذكاء الاصطناعي في Nvidia ، لموقع VentureBeat: “كلما كان النموذج أكبر ، زادت صعوبة تدريبه واستنتاجه”. “بالنسبة للتدريب ، يجب أن تتمتع بالخبرة اللازمة لتوسيع نطاق الخوارزميات لتشمل الآلاف من وحدات معالجة الرسومات ، وللاستدلال ، يتعين عليك تحسين وقت الاستجابة المطلوب والحفاظ على دقة النموذج”.
أوضح بريسكي أن نماذج الذكاء الاصطناعي المعقدة مثل نماذج اللغات الكبيرة (LLMs) ذاتية الانحدار ، وأن مدخلات سياق الحساب تحدد الحرف أو الكلمة التي يتم إنشاؤها بعد ذلك. لذلك ، قد يكون الجانب التوليدي صعبًا بناءً على مواصفات التطبيق.
قالت “تعدد وحدات معالجة الرسومات والاستدلال متعدد العقد مطلوبة لجعل هذه النماذج تولد استجابات في الوقت الفعلي”. “أيضًا ، قد يكون تقليل الدقة مع الحفاظ على الدقة والجودة أمرًا صعبًا ، حيث يفضل التدريب والاستدلال بنفس الدقة.”
أفضل النتائج من تقنيات التدريب
يستكشف الباحثون تقنيات جديدة لتحسين الشبكات العصبية للنشر في البيئات محدودة الموارد. كشفت ورقة أخرى تم تقديمها في NeurIPS 2021 بواسطة Stefanie Jegelka من MIT والباحثين Andreas Loukas و Marinos Poiitis أن الشبكات العصبية لا تتطلب أن تكون معقدة ويمكن تحقيق أفضل النتائج بمفردها من خلال تقنيات التدريب.
كشفت الورقة أن فوائد النماذج الأصغر حجمًا عديدة. فهي أسرع في التدريب وأسهل في الاندماج في تطبيقات العالم الحقيقي. علاوة على ذلك ، يمكن أن تكون أكثر قابلية للتفسير ، مما يمكّن الباحثين من فهم كيفية عمل التنبؤات وتحديد التحيزات المحتملة في البيانات.
قال خوان خوسيه لوبيز مورفي ، رئيس علوم البيانات والذكاء الاصطناعي في شركة تطوير البرمجيات Globant ، إنه يعتقد أن العلاقة بين تعقيد الشبكة والأداء معقدة بشكل جيد.
قال مورفي لموقع VentureBeat: “مع تطوير” قوانين التوسيع “، اكتشفنا أن العديد من النماذج مدروسة بشكل كبير. تحتاج إلى الاستفادة من قوانين التحجيم للبنيات العامة المعروفة وتجربة أداء النماذج الأصغر للعثور على المجموعة المناسبة. ثم يمكنك قياس مدى تعقيد الأداء المتوقع “.
يقول إن النماذج الأصغر مثل Chinchilla أو LLaMA – حيث تم تحقيق أداء أكبر مع الطرز الأصغر – تقدم حالة مثيرة للاهتمام مفادها أن بعض الإمكانات المضمنة في الشبكات الأكبر قد تُهدر ، ويفقد هذا الجزء من إمكانات الأداء للنماذج الأكثر تعقيدًا في تحت التدريب.
قال: “مع النماذج الأكبر ، ما تكتسبه في الخصوصية ، قد تفقد الموثوقية”. لا نفهم تمامًا كيف ولماذا يحدث هذا – ولكن هناك قدرًا هائلاً من الأبحاث في هذا القطاع ستجيب على هذه الأسئلة. نحن نتعلم المزيد كل يوم “.
تتطلب الوظائف المختلفة مخططات عصبية مختلفة
يعد تطوير البنية العصبية المثالية لنماذج الذكاء الاصطناعي عملية معقدة ومستمرة. لا يوجد حل واحد يناسب الجميع ، لأن المهام ومجموعات البيانات المختلفة تتطلب بنى مختلفة. ومع ذلك ، يمكن للعديد من المبادئ الأساسية أن توجه عملية التنمية.
يتضمن ذلك تصميم بنى قابلة للتطوير وقابلة للتطوير وفعالة ، باستخدام تقنيات مثل نقل التعلم للاستفادة من النماذج المدربة مسبقًا وتحسين المعلمات الفائقة لتحسين الأداء. هناك طريقة أخرى تتمثل في تصميم أجهزة متخصصة ، مثل وحدات المعالجة الحرارية (TPU) ووحدات معالجة الرسومات (GPU) ، والتي يمكنها تسريع التدريب والاستدلال على الشبكات العصبية.
تقترح إلين كامبانا ، مديرة مؤسسة AI في KPMG US ، أن بنية الشبكة العصبية المثالية يجب أن تستند إلى حجم البيانات والمشكلة التي يجب حلها وموارد الحوسبة المتاحة ، مما يضمن قدرتها على تعلم الميزات ذات الصلة بكفاءة وفعالية.
قال كامبانا لموقع VentureBeat: “بالنسبة لمعظم المشكلات ، من الأفضل التفكير في دمج نماذج كبيرة مدربة بالفعل وضبطها لتلائم حالة الاستخدام الخاصة بك”. “تدريب هذه النماذج من البداية ، وخاصة للاستخدامات التوليدية ، مكلف للغاية من حيث الحساب. لذا فإن النماذج الأصغر والأبسط تكون أكثر ملاءمة عندما تكون البيانات مشكلة. يمكن أن يكون استخدام النماذج المدربة مسبقًا طريقة أخرى للالتفاف حول قيود البيانات “.
بنيات أكثر كفاءة
قال كامبانا إن مستقبل الشبكات العصبية يكمن في تطوير بنى أكثر كفاءة. يعد إنشاء بنية شبكة عصبية محسّنة أمرًا بالغ الأهمية لتحقيق أداء عالٍ.
قال كامبانا: “أعتقد أنه سيستمر في الاتجاه نحو نماذج أكبر ، ولكن أكثر فأكثر ستكون قابلة لإعادة الاستخدام”. لذلك يتم تدريبهم من قبل شركة واحدة ثم يتم ترخيصهم للاستخدام كما نراه مع نماذج دافينشي OpenAI. هذا يجعل كلاً من التكلفة والبصمة قابلة للإدارة للغاية للأشخاص الذين يرغبون في استخدام الذكاء الاصطناعي ، ومع ذلك فهم يحصلون على التعقيد اللازم لاستخدام الذكاء الاصطناعي لحل المشكلات الصعبة “.
وبالمثل ، يعتقد Kjell Carlsson ، رئيس استراتيجية علوم البيانات والتبشير في منصة MLOps Enterprise Domino Data Lab ، أن النماذج الأصغر والأبسط هي دائمًا أكثر ملاءمة لتطبيقات العالم الحقيقي.
قال كارلسون: “لا يوجد أي من نماذج الذكاء الاصطناعي التوليدية التي تستحوذ على العناوين الرئيسية مناسبة لتطبيقات العالم الحقيقي في حالتها الأولية”. “بالنسبة للتطبيقات الواقعية ، يجب تحسينها لمجموعة ضيقة من حالات الاستخدام ، والتي بدورها تقلل من حجمها وتكلفة استخدامها. ومن الأمثلة الناجحة على ذلك GitHub Copilot ، وهو إصدار من نموذج ترميز OpenAI المحسّن لإكمال التعليمات البرمجية تلقائيًا “.
مستقبل معماريات الشبكة العصبية
يقول كارلسون إن OpenAI توفر نماذج مثل ChatGPT و GPT4 ، لأننا لا نعرف حتى الآن أكثر من جزء ضئيل من حالات الاستخدام المحتملة.
قال: “بمجرد أن نعرف حالات الاستخدام ، يمكننا تدريب إصدارات محسّنة من هذه النماذج لهم”. “مع استمرار انخفاض تكلفة الحوسبة ، يمكننا أن نتوقع من الناس مواصلة نهج” القوة الغاشمة “للاستفادة من هياكل الشبكات العصبية الحالية المدربة على المزيد والمزيد من المعلمات.”
وهو يعتقد أننا يجب أن نتوقع أيضًا اختراقات حيث قد يأتي المطورون بتحسينات وبنيات جديدة تعمل على تحسين كفاءة هذه النماذج بشكل كبير مع تمكينهم من أداء مجموعة متزايدة باستمرار من المهام المعقدة الشبيهة بالبشر.
وبالمثل ، يقول أميت براكاش ، الشريك المؤسس والمدير التقني في منصة التحليلات المدعومة بالذكاء الاصطناعي ThoughtSpot ، إننا سنرى بشكل روتيني أن النماذج الأكبر والأكبر تظهر بقدرات أقوى. ولكن ، بعد ذلك ستكون هناك إصدارات أصغر من تلك النماذج التي ستحاول تقريب جودة إخراج النماذج الأصغر.
قال براكاش لموقع VentureBeat: “سنرى هذه النماذج الأكبر المستخدمة في تعليم النماذج الأصغر لمحاكاة سلوك مماثل”. “قد يكون الاستثناء الوحيد لهذا هو النماذج المتفرقة أو مزيج من النماذج الخبيرة حيث يحتوي نموذج كبير على طبقات تحدد أي جزء من الشبكة العصبية يجب استخدامه وأي جزء يجب إيقاف تشغيله ، وبعد ذلك يتم الحصول على جزء صغير فقط من النموذج مفعل.”
وقال إن مفتاح تطوير نماذج الذكاء الاصطناعي الناجحة في النهاية هو تحقيق التوازن الصحيح بين التعقيد والكفاءة وقابلية التفسير.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.