لماذا لا تحتاج إلى البيانات الضخمة لتدريب ML
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
عندما يقول شخص ما الذكاء الاصطناعي (AI) ، فغالبًا ما يعني ذلك التعلم الآلي (ML). لإنشاء خوارزمية ML ، يعتقد معظم الناس أنك بحاجة إلى جمع مجموعة بيانات ذات تصنيف ، ويجب أن تكون مجموعة البيانات ضخمة. كل هذا صحيح إذا كان الهدف هو وصف العملية في جملة واحدة. ومع ذلك ، إذا فهمت العملية بشكل أفضل قليلاً ، فإن البيانات الضخمة ليست ضرورية كما تبدو للوهلة الأولى.
لماذا يعتقد الكثير من الناس أنه لا شيء سيعمل بدون البيانات الضخمة
بادئ ذي بدء ، دعنا نناقش ماهية مجموعة البيانات والتدريب. مجموعة البيانات هي مجموعة من الكائنات التي عادةً ما يتم تصنيفها من قبل الإنسان حتى تتمكن الخوارزمية من فهم ما يجب أن تبحث عنه. على سبيل المثال ، إذا أردنا العثور على قطط في الصور ، فنحن بحاجة إلى مجموعة من الصور بها قطط ، ولكل صورة إحداثيات القط ، إن وجدت.
أثناء التدريب ، تُعرض الخوارزمية البيانات المصنفة مع توقع أنها ستتعلم كيفية التنبؤ بتسميات الكائنات ، والعثور على التبعيات العالمية والقدرة على حل المشكلة على البيانات التي لم ترها.
>> لا تفوّت إصدارنا الخاص: السعي وراء السكينة: تطبيق الذكاء الاصطناعي على نطاق واسع. <
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
يُطلق على أحد التحديات الأكثر شيوعًا في تدريب مثل هذه الخوارزميات overfitting. يحدث التجاوز عندما تتذكر الخوارزمية مجموعة بيانات التدريب ولكنها لا تتعلم كيفية التعامل مع البيانات التي لم ترها من قبل.
لنأخذ نفس المثال. إذا كانت بياناتنا تحتوي فقط على صور القطط السوداء ، فيمكن للخوارزمية معرفة العلاقة: أسود مع ذيل = قطة. لكن التبعية الخاطئة ليست دائما بهذه الوضوح. إذا كان هناك القليل من البيانات ، وكانت الخوارزمية قوية ، فيمكنها تذكر جميع البيانات ، مع التركيز على الضوضاء غير المنقطعة.
أسهل طريقة لمكافحة فرط التخصيص هي جمع المزيد من البيانات لأن هذا يساعد على منع الخوارزمية من إنشاء تبعيات خاطئة ، مثل التعرف على القطط السوداء فقط.
التحذير هنا هو أن مجموعة البيانات يجب أن تكون تمثيلية (على سبيل المثال ، استخدام الصور فقط من منتدى المعجبين البريطانيين قصير الشعر لن يؤدي إلى نتائج جيدة ، بغض النظر عن حجم المجموعة الكبيرة). نظرًا لأن المزيد من البيانات هو الحل الأبسط ، يستمر الرأي في أن هناك حاجة إلى الكثير من البيانات.
طرق إطلاق المنتجات بدون بيانات ضخمة
ومع ذلك ، دعونا نلقي نظرة فاحصة. لماذا نحتاج البيانات؟ لكي تجد الخوارزمية تبعية فيها. لماذا نحتاج الكثير من البيانات؟ بحيث يجد التبعية الصحيحة. كيف يمكننا تقليل كمية البيانات؟ عن طريق دفع الخوارزمية مع التبعيات الصحيحة.
خوارزميات نحيفة
أحد الخيارات هو استخدام خوارزميات خفيفة الوزن. لا تستطيع هذه الخوارزميات العثور على تبعيات معقدة ، وبالتالي فهي أقل عرضة للتزوير. تكمن الصعوبة في مثل هذه الخوارزميات في أنها تتطلب من المطور معالجة البيانات مسبقًا والبحث عن الأنماط بمفرده.
على سبيل المثال ، افترض أنك تريد توقع المبيعات اليومية لمتجر ما ، وأن بياناتك هي عنوان المتجر والتاريخ وقائمة بجميع المشتريات في ذلك التاريخ. علامة تسهل المهمة هي المؤشر في يوم العطلة. إذا كانت عطلة الآن ، فمن المحتمل أن يقوم العملاء بعمليات الشراء في كثير من الأحيان ، وستزيد الإيرادات.
يُطلق على معالجة البيانات بهذه الطريقة اسم هندسة الميزات. يعمل هذا النهج جيدًا في المشكلات التي يسهل فيها إنشاء مثل هذه الميزات بناءً على الفطرة السليمة.
ومع ذلك ، في بعض المهام ، مثل العمل مع الصور ، يكون كل شيء أكثر صعوبة. هذا هو المكان الذي تأتي فيه الشبكات العصبية للتعلم العميق. نظرًا لأنها خوارزميات واسعة ، يمكنها العثور على تبعيات غير تافهة حيث لا يستطيع الشخص فهم طبيعة البيانات. تُعزى جميع التطورات الحديثة في رؤية الكمبيوتر تقريبًا إلى الشبكات العصبية. تتطلب مثل هذه الخوارزميات عادةً الكثير من البيانات ، ولكن يمكن أيضًا المطالبة بها.
البحث في المجال العام
الطريقة الأولى للقيام بذلك هي ضبط النماذج المدربة مسبقًا. هناك العديد من الشبكات العصبية المدربة بالفعل في المجال العام. في حين أنه قد لا يكون هناك شخص مدرب على مهمتك المحددة ، فمن المحتمل أن يكون هناك واحد من منطقة مماثلة.
لقد تعلمت هذه الشبكات بالفعل بعض الفهم الأساسي للعالم. يحتاجون فقط إلى دفعهم في الاتجاه الصحيح. وبالتالي ، هناك حاجة فقط إلى كمية صغيرة من البيانات. هنا يمكننا رسم تشبيه بالناس: الشخص الذي يمكنه التزلج على لوح التزلج سيكون قادرًا على التقاط اللوح الطويل بتوجيه أقل بكثير من شخص لم يقف على لوح تزلج من قبل.
في بعض الحالات ، لا تكمن المشكلة في عدد العناصر ، بل في عدد العناصر المصنفة. في بعض الأحيان ، يكون جمع البيانات أمرًا سهلاً ، ولكن وضع العلامات صعب للغاية. على سبيل المثال ، عندما تكون العلامات كثيفة العلم ، كما هو الحال عند تصنيف خلايا الجسم ، يكون توظيف الأشخاص القلائل المؤهلين لتصنيف هذه البيانات باهظ التكلفة.
حتى إذا لم تكن هناك مهمة مماثلة متاحة في عالم مفتوح المصدر ، فلا يزال من الممكن ابتكار مهمة للتدريب المسبق لا تتطلب وضع العلامات. أحد الأمثلة على ذلك هو تدريب المشفر التلقائي ، وهو عبارة عن شبكة عصبية تضغط الكائنات (على غرار أرشيف zip.) ثم تقوم بفك ضغطها.
للضغط الفعال ، يحتاج فقط إلى العثور على بعض الأنماط العامة في البيانات ، مما يعني أنه يمكننا استخدام هذه الشبكة المدربة مسبقًا للضبط الدقيق.
تعليم فعال
هناك طريقة أخرى لتحسين النماذج في وجود بيانات غير مكتشفة تسمى التعلم النشط. يكمن جوهر هذا المفهوم في أن الشبكة العصبية نفسها تقترح أي الأمثلة تحتاج إلى تسمية وأي أمثلة تم تصنيفها بشكل غير صحيح. الحقيقة هي أنه في كثير من الأحيان ، إلى جانب الإجابة ، تخلي الخوارزمية ثقتها في النتيجة. وفقًا لذلك ، يمكننا تشغيل الخوارزمية الوسيطة على البيانات غير الملحوظة بحثًا عن تلك التي يكون الناتج فيها غير مؤكد ، ومنحها للأشخاص لوضع العلامات عليها ، وبعد وضع العلامات ، قم بالتدريب مرة أخرى.
من المهم ملاحظة أن هذه ليست قائمة شاملة بالخيارات الممكنة ؛ هذه ليست سوى عدد قليل من أبسط الأساليب. وتذكر أن كل من هذه الأساليب ليس حلاً سحريًا. بالنسبة لبعض المهام ، يعمل أسلوب واحد بشكل أفضل ؛ بالنسبة للآخرين ، سيحقق الآخر أفضل النتائج. كلما حاولت أكثر ، ستجد نتائج أفضل.
أنطون ليبيديف هو كبير علماء البيانات في شركة Neatsy، Inc.
صانعي القرار
مرحبًا بك في مجتمع VentureBeat!
DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.
إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.
يمكنك حتى التفكير في المساهمة بمقال خاص بك!
قراءة المزيد من DataDecisionMakers
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.