أخبار التقنية

كيف تعمل البيانات التركيبية على تعزيز الذكاء الاصطناعي على نطاق واسع


هذه المقالة جزء من إصدار خاص لـ VB. اقرأ السلسلة الكاملة هنا: السعي وراء السكينة: تطبيق الذكاء الاصطناعي على نطاق واسع.

يعتمد الذكاء الاصطناعي (AI) بشكل كبير على مجموعات البيانات الكبيرة والمتنوعة والمصنفة بدقة لتدريب خوارزميات التعلم الآلي (ML). في العصر الحديث ، أصبحت البيانات شريان الحياة للذكاء الاصطناعي ، ويعتبر الحصول على البيانات الصحيحة الجانب الأكثر أهمية وتحديًا في تطوير أنظمة قوية للذكاء الاصطناعي.

ومع ذلك ، فإن جمع مجموعات البيانات الضخمة وتصنيفها بملايين العناصر التي يتم الحصول عليها من العالم الحقيقي يستغرق وقتًا طويلاً ومكلفًا. ونتيجة لذلك ، بدأت نماذج التعلم الآلي تلك في الاعتماد بشكل كبير على البيانات التركيبية ، أو البيانات التي يتم إنشاؤها بشكل مصطنع بدلاً من إنتاجها بواسطة أحداث العالم الحقيقي.

ارتفعت شعبية البيانات التركيبية في السنوات الأخيرة ، حيث قدمت حلاً قابلاً للتطبيق لمشكلة جودة البيانات وعرض إمكانية إعادة تشكيل عمليات نشر تعلم الآلة على نطاق واسع. وفقًا لدراسة أجرتها مؤسسة Gartner ، من المتوقع أن تمثل البيانات التركيبية 60٪ من جميع البيانات المستخدمة في تطوير الذكاء الاصطناعي بحلول عام 2024.

الشحن التوربيني AI / ML مع البيانات التركيبية

المفهوم بسيط بأناقة. يسمح للممارسين بإنشاء البيانات التي يحتاجون إليها رقميًا ، عند الطلب ، وفي أي حجم مرغوب فيه ، ومصممة وفقًا لمواصفاتهم الدقيقة. يمكن للباحثين الآن اللجوء إلى مجموعات البيانات التركيبية التي تم إنشاؤها باستخدام نماذج ثلاثية الأبعاد للمشاهد والأشياء والبشر لإنتاج مقاطع الحركة بسرعة – دون مواجهة مشكلات حقوق النشر أو المخاوف الأخلاقية المرتبطة بالبيانات الحقيقية.

قال روان كوران المحلل في شركة Forrester لـ VentureBeat: “يسمح استخدام البيانات التركيبية للتدريب على التعلم الآلي للشركات ببناء نماذج لسيناريوهات كانت في السابق بعيدة المنال نظرًا لكون البيانات المطلوبة خاصة أو منخفضة الجودة أو ببساطة غير موجودة على الإطلاق”. “يستخدم إنشاء مجموعات بيانات تركيبية تقنيات مثل شبكات الخصومة التوليدية (GANs) لأخذ مجموعة بيانات من بضعة آلاف من الأفراد وتحويلها إلى مجموعة بيانات تؤدي نفس الأداء عند تدريب نموذج ML – ولكنها لا تحتوي على أي من معلومات التعريف الشخصية (معلومات تحديد الهوية الشخصية) لمجموعة البيانات الأصلية “.

يشير المؤيدون إلى مجموعة متنوعة من الفوائد لاختيار مجموعات البيانات التركيبية. لسبب واحد ، يمكن أن يؤدي استخدام البيانات التركيبية إلى تقليل تكلفة إنشاء بيانات التدريب بشكل كبير. يمكنه أيضًا معالجة مخاوف الخصوصية المتعلقة بالبيانات الحساسة التي تم الحصول عليها من العالم الحقيقي.

يمكن أن تساعد البيانات التركيبية في التخفيف من التحيز ، مقارنة بالبيانات الحقيقية ، والتي قد لا تمثل بدقة النطاق الكامل للمعلومات حول العالم الحقيقي. يمكن أيضًا مراعاة التنوع الأكبر في مجموعات البيانات التركيبية من خلال دمج الحالات النادرة التي تمثل إمكانيات واقعية ولكن يصعب الحصول عليها من البيانات الحقيقية.

أوضح كوران أن مجموعات البيانات التركيبية تُستخدم لإنشاء بيانات للنماذج في المواقف التي لا توجد فيها البيانات المطلوبة لأن سيناريو جمع البيانات يحدث بشكل غير متكرر.

أراد مقدم الرعاية الصحية القيام بعمل أفضل في اكتشاف سرطان الرئة في مراحله المبكرة ، ولكن كانت بيانات الصور المتاحة قليلة. ومن أجل بناء نموذجهم ، قاموا بإنشاء مجموعة بيانات اصطناعية تستخدم صورًا صحية للرئة جنبًا إلى جنب مع أورام المرحلة المبكرة لبناء مجموعة بيانات تدريب جديدة ستعمل كما لو كانت نفس البيانات التي تم جمعها من العالم الحقيقي “، قال كوران.

وقال إن البيانات التركيبية تجد أيضًا قوة دفع في صناعات آمنة أخرى ، مثل الخدمات المالية. تفرض هذه الشركات قيودًا كبيرة على كيفية استخدامها ونقل بياناتها ، لا سيما إلى السحابة.

البيانات التركيبية لديها القدرة على تعزيز تطوير البرمجيات ، وتسريع البحث والتطوير ، وتسهيل تدريب نماذج ML ، وتمكين المؤسسات من اكتساب فهم أعمق لبياناتها ومنتجاتها الداخلية ، وتحسين العمليات التجارية. هذه الفوائد ، بدورها ، يمكن أن تعزز نمو الذكاء الاصطناعي على نطاق واسع.

كيف تعمل في العالم الحقيقي للذكاء الاصطناعي؟

لكن يبقى السؤال: هل يمكن للبيانات المُنشأة صناعياً أن تكون فعالة مثل البيانات الحقيقية؟ ما مدى جودة أداء النموذج المدرب بالبيانات التركيبية عند تصنيف الإجراءات الحقيقية؟

يقول ياشار بهزادي ، الرئيس التنفيذي ومؤسس منصة البيانات التركيبية Synthesis AI ، إن الشركات غالبًا ما تستخدم البيانات الاصطناعية وبيانات العالم الحقيقي جنبًا إلى جنب ، لتدريب نماذجها وضمان تحسينها لتحقيق أفضل أداء.

قال لـ VentureBeat: “غالبًا ما تُستخدم البيانات التركيبية لزيادة وتوسيع نطاق بيانات العالم الحقيقي ، مما يضمن نماذج أكثر قوة وأداءً”. على سبيل المثال ، قال إن Synthesis AI تعمل مع عدد قليل من مصنعي السيارات من الدرجة الأولى وشركات البرمجيات.

قال: “ما زلنا نسمع أن بيانات التدريب المتاحة إما منخفضة الدقة جدًا أو لا يوجد ما يكفي منها – وليس لديهم موافقة عملائهم على تدريب نماذج الرؤية الحاسوبية معها في كلتا الحالتين”. “تحل البيانات التركيبية جميع التحديات الثلاثة – الجودة والكمية والخصوصية.”

وأوضح أن الشركات تتحول أيضًا إلى البيانات التركيبية عندما لا تتمكن من الحصول على تعليقات توضيحية معينة من الملصقات البشرية ، مثل خرائط العمق والقواعد السطحية والمعالم ثلاثية الأبعاد وخرائط التجزئة التفصيلية وخصائص المواد.

وقال: “التحيز في نماذج الذكاء الاصطناعي موثق جيدًا ، ويرتبط ببيانات التدريب غير المكتملة التي تفتقر إلى التنوع الضروري المرتبط بالعرق أو لون البشرة أو الخصائص الديمغرافية الأخرى”. “ونتيجة لذلك ، يؤثر تحيز الذكاء الاصطناعي بشكل غير متناسب على التركيبة السكانية الممثلة تمثيلاً ناقصًا ويؤدي إلى تطبيقات ومنتجات أقل شمولاً.” وتابع أنه باستخدام البيانات التركيبية ، يمكن للشركات تحديد مجموعة بيانات التدريب صراحة لتقليل التحيز وضمان نماذج أكثر شمولاً تركز على الإنسان دون انتهاك خصوصية المستهلك.

إن استبدال حتى جزء صغير من بيانات التدريب في العالم الحقيقي ببيانات تركيبية يجعل من الممكن تسريع وتبسيط تدريب ونشر نماذج الذكاء الاصطناعي من جميع المستويات.

في شركة IBM ، على سبيل المثال ، استخدم الباحثون برنامج محاكاة ThreeDWorld ومنصة Task2Sim المقابلة لها لإنشاء صور محاكاة لمشاهد وأشياء واقعية ، والتي يمكن استخدامها في اختبار مصنفات الصور مسبقًا. تقلل هذه الصور التركيبية من كمية بيانات التدريب الحقيقية المطلوبة ، وقد ثبت أنها فعالة بنفس القدر في نماذج التدريب المسبق لمهام مثل اكتشاف السرطان في عمليات المسح الطبي.

بالإضافة إلى ذلك ، فإن استكمال البيانات الأصلية ببيانات تم إنشاؤها بشكل مصطنع يمكن أن يخفف من مخاطر النموذج الذي تم اختباره مسبقًا على البيانات الخام المأخوذة من الإنترنت والتي تظهر ميولًا عنصرية أو جنسية. يتم فحص البيانات الاصطناعية المخصصة مسبقًا لتقليل وجود التحيزات ، وتقليل مخاطر مثل هذه السلوكيات غير المرغوب فيها في النماذج.

قال ديفيد كوكس ، مدير كود MIT-IBM Watson AI Lab ورئيس قسم أبحاث الذكاء الاصطناعي الاستكشافية.

مصدر الصورة: Forrester

البيانات التركيبية وجودة النموذج

قال Alp Kucukelbir ، الشريك المؤسس وكبير العلماء لمنصة تحسين المصنع Fero Labs وأستاذ مساعد في جامعة كولومبيا ، إنه على الرغم من أن البيانات التركيبية يمكن أن تكمل بيانات العالم الحقيقي لتدريب نماذج الذكاء الاصطناعي ، إلا أنها تأتي مع تحذير كبير: أنت بحاجة إلى معرفة الفجوة أنت تقوم بتوصيل مجموعة بياناتك الواقعية.

لنفترض أنك تستخدم الذكاء الاصطناعي لإزالة الكربون من مصنع للصلب. أنت تريد استخدام الذكاء الاصطناعي للكشف عن العملية المحددة لتلك المطحنة وكشفها (على سبيل المثال ، كيفية عمل الآلات في مصنع معين معًا) وليس لإعادة اكتشاف علم المعادن الأساسي الذي يمكنك العثور عليه في كتاب مدرسي. في هذه الحالة ، لاستخدام البيانات التركيبية ، سيتعين عليك محاكاة التشغيل الدقيق لمصنع الصلب بما يتجاوز معرفتنا بعلم المعادن في الكتب المدرسية “، أوضح كوكوكيلبير. “إذا كان لديك مثل هذا المحاكي ، فلن تحتاج إلى الذكاء الاصطناعي لتبدأ به.”

يعد التعلم الآلي جيدًا في الاستيفاء ، ولكنه قد يتحسن في الاستقراء من مجموعات بيانات التدريب. ومع ذلك ، فإن البيانات التي يتم إنشاؤها بشكل مصطنع تسمح للباحثين والممارسين بتوفير بيانات “حالة الزاوية” لخوارزمية ، ويمكن في النهاية تسريع جهود البحث والتطوير ، كما أضاف جوليان سانشيز ، مدير التقنيات الناشئة في John Deere.

“لقد جربنا البيانات التركيبية بطريقة تجريبية في John Deere ، وهذا يظهر بعض الأمل. تتضمن المجموعة العامة من الأمثلة الزراعة ، حيث من المحتمل أن يكون لديك معدل حدوث منخفض جدًا لحالات ركنية محددة ، “قال سانشيز لموقع VentureBeat. “توفر البيانات التركيبية خوارزميات الذكاء الاصطناعي / تعلم الآلة بالنقاط المرجعية المطلوبة من خلال البيانات وتمنح الباحثين فرصة لفهم كيفية [model] يمكنه التعامل مع حالات الاستخدام المختلفة. سيكون جانبًا مهمًا في كيفية قياس الذكاء الاصطناعي / تعلم الآلة “.

وبالمثل ، يقول سيباستيان ثرون ، نائب الرئيس السابق لشركة Google والرئيس الحالي والمؤسس المشارك لمنصة التعلم عبر الإنترنت Udacity ، إن هذا النوع من البيانات عادةً ما يكون غير واقعي في بعض الأبعاد. المحاكاة من خلال البيانات التركيبية هي طريقة سريعة وآمنة لتسريع التعلم ، ولكن عادة ما يكون لديهم عيوب معروفة.

“هذا هو الحال على وجه التحديد بالنسبة للبيانات في الإدراك (صور الكاميرا ، الكلام ، إلخ). لكن الاستراتيجية الصحيحة هي عادةً الجمع بين بيانات العالم الحقيقي والبيانات التركيبية “. “خلال الفترة التي أمضيتها في مشروع Waymo للسيارات ذاتية القيادة التابع لشركة Google ، استخدمنا مزيجًا من الاثنين. ستلعب البيانات التركيبية دورًا كبيرًا في المواقف التي لا نرغب أبدًا في تجربتها في العالم الحقيقي “.

تحديات استخدام البيانات التركيبية للذكاء الاصطناعي

يقول مايكل راينهارت ، نائب رئيس منظمة العفو الدولية في منصة أمن البيانات متعددة الأوساط السحابية Securiti AI ، أن هناك مفاضلة بين فائدة البيانات التركيبية والخصوصية التي توفرها.

قال رينهارت: “إن العثور على المقايضة المناسبة يمثل تحديًا لأنه يعتمد على الشركة ، مثله مثل أي تقييم للمخاطر والمكافآت”. “ومما يزيد من تعقيد هذا التحدي حقيقة أن التقديرات الكمية للخصوصية غير كاملة ، وقد يتم توفير المزيد من الخصوصية من خلال مجموعة البيانات التركيبية أكثر مما يوحي به التقدير”.

وأوضح أنه نتيجة لذلك ، يمكن تطبيق ضوابط أو عمليات أكثر مرونة على هذا النوع من البيانات. على سبيل المثال ، قد تتخطى الشركات ملفات البيانات التركيبية المعروفة أثناء عمليات فحص البيانات الحساسة ، مما يؤدي إلى فقدان الرؤية في انتشارها. قد تقوم فرق علوم البيانات بتدريب نماذج كبيرة عليها ، قادرة على حفظ وتجديد البيانات التركيبية ، ثم نشرها.

نصحت Rinehart: “إذا كان المقصود من البيانات التركيبية أو أي من مشتقاتها أن يتم مشاركتها أو كشفها ، فيجب على الشركات التأكد من أنها تحمي خصوصية أي عملاء تمثلهم ، على سبيل المثال ، الاستفادة من الخصوصية التفاضلية معها”. “تضمن البيانات التركيبية عالية الجودة والخاصة التفاضلية أن تتمكن الفرق من إجراء تجارب ببيانات واقعية لا تكشف المعلومات الحساسة.”

يضيف فرناندو لوسيني ، الرائد العالمي لعلوم البيانات وهندسة التعلم الآلي في Accenture ، أن إنشاء البيانات التركيبية عملية معقدة للغاية ، وتتطلب أشخاصًا يتمتعون بمهارات متخصصة ومعرفة متقدمة حقًا بالذكاء الاصطناعي.

وأوضح أن “الشركة تحتاج إلى أطر ومقاييس محددة ومتطورة للغاية للتحقق من أنها أنشأت ما تريده”.

ما التالي بالنسبة للبيانات التركيبية في الذكاء الاصطناعي؟

يعتقد Lucini أن البيانات التركيبية هي نعمة للباحثين وستصبح قريبًا أداة قياسية في المجموعة التقنية لكل مؤسسة لتوسيع نطاق براعة نماذج الذكاء الاصطناعي / التعلم الآلي الخاصة بهم.

وأضاف لوسيني: “إن استخدام البيانات التركيبية لا يوفر فقط فرصة للعمل على مشاكل أكثر إثارة للاهتمام للباحثين وتسريع الحلول ، ولكن لديه أيضًا القدرة على تطوير خوارزميات أكثر ابتكارًا والتي قد تفتح حالات استخدام جديدة لم نكن نعتقد أنها ممكنة من قبل”. “أتوقع أن تصبح البيانات التركيبية جزءًا من كل تعلم آلي ، وسير عمل الذكاء الاصطناعي وعلوم البيانات ، وبالتالي من حل بيانات أي شركة.”

من جانبه ، يتوقع بهزادي من Synthesis AI أن الطفرة التوليدية للذكاء الاصطناعي كانت وستظل حافزًا كبيرًا للبيانات التركيبية.

>> تابع تغطية الذكاء الاصطناعي التوليدية المستمرة من VentureBeat <

قال: “كان هناك نمو هائل في الأشهر القليلة الماضية فقط ، ولن يؤدي إقران الذكاء الاصطناعي التوليدي بالبيانات الاصطناعية إلا إلى مزيد من التبني”.

وقال إنه من خلال الجمع بين الذكاء الاصطناعي التوليدي وخطوط أنابيب التأثيرات المرئية ، فإن تنوع وجودة البيانات التركيبية سوف يتحسن بشكل كبير. سيؤدي ذلك إلى زيادة الاعتماد السريع للبيانات التركيبية عبر الصناعات. في السنوات القادمة ، سيستفيد كل فريق رؤية كمبيوتر من البيانات التركيبية “.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى