الخلطة السرية التوليدية للذكاء الاصطناعي ، تجريف البيانات ، تحت الهجوم

0 54 دقيقة واحدة

انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو وتعلم كيف يتقدم قادة الأعمال بثورة الذكاء الاصطناعي التوليدية.. يتعلم أكثر

يمكن القول إن تجريف الويب لكميات هائلة من البيانات يمكن وصفه بأنه الصلصة السرية للذكاء الاصطناعي التوليدي. بعد كل شيء ، يمكن لروبوتات الدردشة AI مثل ChatGPT و Claude و Bard و LLaMA أن تبث نصًا متماسكًا لأنها تم تدريبها على مجموعة ضخمة من البيانات ، معظمها مأخوذة من الإنترنت. وبما أن حجم LLMs اليوم مثل GPT-4 قد تضخم إلى مئات المليارات من الرموز المميزة ، فقد ازداد الجوع أيضًا للبيانات.

تعرضت ممارسات جمع البيانات باسم تدريب الذكاء الاصطناعي للهجوم خلال الأسبوع الماضي على عدة جبهات. تعرضت شركة OpenAI لدعوتين قضائيتين. أحدهما ، قدم في محكمة اتحادية في سان فرانسيسكو ، يدعي أن OpenAI نسخت بشكل غير قانوني نص الكتاب من خلال عدم الحصول على موافقة من أصحاب حقوق الطبع والنشر أو منحهم ائتمانًا وتعويضًا. الادعاءات الأخرى تقوم ChatGPT و DALL E من OpenAI بجمع البيانات الشخصية للأشخاص من جميع أنحاء الإنترنت في انتهاك لقوانين الخصوصية.

قدم موقع تويتر أيضًا أخبارًا عن تجريف البيانات ، لكنه سعى هذه المرة إلى حماية بياناته من خلال تقييد الوصول إليها. في محاولة للحد من آثار تجريف بيانات الذكاء الاصطناعي ، منع تويتر مؤقتًا الأفراد الذين لم يسجلوا الدخول من مشاهدة التغريدات على منصة التواصل الاجتماعي ، كما وضع حدودًا لمعدل عدد التغريدات التي يمكن مشاهدتها.

>> تابع تغطية الذكاء الاصطناعي التوليدية المستمرة من VentureBeat <

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

من جانبها ، ضاعفت Google حجمها لتؤكد أنها تلغي البيانات لتدريب الذكاء الاصطناعي. في نهاية الأسبوع الماضي ، قامت بتحديث سياسة الخصوصية الخاصة بها بهدوء لتشمل Cold و Cloud AI إلى جانب Google Translate في قائمة الخدمات حيث يمكن استخدام البيانات المجمعة.

قفزة في فهم الجمهور لنماذج الذكاء الاصطناعي التوليدية

قالت مارجريت ميتشل ، الباحثة وكبيرة علماء الأخلاقيات في Hugging Face ، لموقع VentureBeat عبر البريد الإلكتروني ، إن كل هذه الأخبار حول إلغاء الويب للتدريب على الذكاء الاصطناعي ليست مصادفة.

قالت “أعتقد أنه تأرجح بندول” ، مضيفة أنها توقعت سابقًا أنه بحلول نهاية العام ، قد تضطر شركة OpenAI إلى حذف نموذج واحد على الأقل بسبب مشكلات البيانات هذه. قالت إن الأخبار الأخيرة أوضحت أن الطريق إلى هذا المستقبل واضح – لذا فهي تعترف بأنه “من التفاؤل التفكير في شيء من هذا القبيل سيحدث في حين أن شركة أوبن إيه آي تتقرب من المنظمين كثيرًا”.

لكنها تقول إن الجمهور يتعلم المزيد عن نماذج الذكاء الاصطناعي التوليدية ، لذا فقد تحول البندول من الانبهار الشديد بـ ChatGPT إلى التساؤل من أين تأتي بيانات هذه النماذج.

أوضح ميتشل: “كان على الجمهور الأول أن يتعلم أن ChatGPT يعتمد على نموذج التعلم الآلي” ، وأن هناك نماذج مماثلة في كل مكان وأن هذه النماذج “تتعلم” من بيانات التدريب. وشددت على أن “كل ذلك يعد قفزة هائلة إلى الأمام في التفاهم العام خلال العام الماضي فقط”.

اتفق جريجوري لايتون ، المتخصص في قانون الخصوصية في شركة Polsinelli القانونية ، على أن الجدل المتجدد حول تجريف البيانات “كان متسربًا”. وقال إن الدعاوى القضائية الخاصة بشركة أوبن إيه آي وحدها كافية لتكون نقطة اشتعال لجعل رد الفعل الآخر أمرًا لا مفر منه. قال: “لم ندخل حتى عام واحد في عصر نموذج اللغة الكبير – كان سيحدث في مرحلة ما”. و [companies like] تعمل Google و Twitter على إبراز بعض هذه الأشياء في سياقاتها الخاصة “.

بالنسبة للشركات ، الخندق التنافسي هو البيانات

قالت كاتي غاردنر ، الشريكة في شركة المحاماة الدولية غوندرسون ديتمير ، لـ VentureBeat عبر البريد الإلكتروني أنه بالنسبة لشركات مثل Twitter و Reddit ، “الخندق التنافسي موجود في البيانات” – لذا فهم لا يريدون أن يقوم أي شخص بإلغاء البيانات مجانًا.

وقالت: “لن يكون مفاجئًا إذا استمرت الشركات في اتخاذ المزيد من الإجراءات لإيجاد طرق لتقييد الوصول وتعظيم حقوق الاستخدام والاحتفاظ بفرص تحقيق الدخل لأنفسهم”. “يمكن للشركات التي لديها كميات كبيرة من المحتوى الذي ينشئه المستخدمون والتي ربما اعتمدت تقليديًا على عائدات الإعلانات أن تستفيد بشكل كبير من خلال إيجاد طرق جديدة لتحقيق الدخل من بيانات المستخدم الخاصة بها للتدريب على نموذج الذكاء الاصطناعي” ، سواء بالنسبة لنماذج الملكية الخاصة بها أو عن طريق ترخيص البيانات لأطراف ثالثة.

واتفق لايتون من Polsinelli ، قائلاً إن المنظمات بحاجة إلى تغيير تفكيرها بشأن البيانات. قال: “لقد قلت لعملائي لبعض الوقت الآن أنه لا ينبغي أن نفكر في ملكية البيانات بعد الآن ، ولكن في الوصول إلى البيانات واستخدام البيانات”. “أعتقد أن Reddit و Twitter يقولون ، حسنًا ، سنضع ضوابط تقنية في مكانها الصحيح ، وعليك أن تدفع لنا مقابل الوصول – وهو ما أعتقد أنه يضعهم في وضع أفضل قليلاً من غيرهم. [companies]. ”

قضايا الخصوصية المختلفة حول جمع البيانات لتدريب الذكاء الاصطناعي

بينما تم وضع علامة على تجريف البيانات بسبب مشكلات الخصوصية في سياقات أخرى ، بما في ذلك الإعلان الرقمي ، قال غاردنر إن استخدام البيانات الشخصية في نماذج الذكاء الاصطناعي يمثل مشكلات خصوصية فريدة مقارنة بالتجميع العام واستخدام البيانات الشخصية من قبل الشركات.

الأول ، كما قالت ، هو الافتقار إلى الشفافية. وقالت: “من الصعب للغاية معرفة ما إذا تم استخدام البيانات الشخصية ، وإذا كان الأمر كذلك ، فكيف يتم استخدامها وما هي الأضرار المحتملة من هذا الاستخدام – سواء كانت تلك الأضرار على فرد أو مجتمع بشكل عام” ، مضيفة أن المشكلة الثانية هي أنه بمجرد تدريب النموذج على البيانات ، قد يكون من المستحيل “إلغاء تدريبه” أو حذف البيانات أو إزالتها. وأوضحت أن “هذا العامل يتعارض مع العديد من موضوعات لوائح الخصوصية الحديثة التي تمنح المزيد من الحقوق للأفراد ليتمكنوا من طلب الوصول إلى بياناتهم الشخصية وحذفها”.

وافق ميتشل ، مضيفًا أنه مع أنظمة الذكاء الاصطناعي التوليدية ، هناك خطر إعادة إنتاج المعلومات الخاصة وإعادة إنشائها بواسطة النظام. تلك المعلومات [risks] يتم تضخيمها وانتشارها بشكل أكبر ، بما في ذلك الجهات الفاعلة السيئة التي لولا ذلك لما كانت لتتمكن من الوصول إليها أو تعرف عنها “.

هل هذه نقطة خلافية فيما يتعلق بالنماذج التي تم تدريبها بالفعل؟ هل يمكن لشركة مثل OpenAI أن تكون خارج الخطاف بالنسبة لـ GPT-3 و GPT-4 ، على سبيل المثال؟ وفقًا لغاردنر ، فإن الإجابة هي لا: “لن تُعفى الشركات التي سبق لها تدريب النماذج من القرارات واللوائح القضائية المستقبلية”.

ومع ذلك ، فإن كيفية امتثال الشركات للمتطلبات الصارمة هي قضية مفتوحة. قال غاردنر: “في غياب الحلول التقنية ، أعتقد أن بعض الشركات على الأقل قد تحتاج إلى إعادة تدريب نماذجها بالكامل – وهو ما قد يكون جهدًا باهظًا للغاية”. “ستحتاج المحاكم والحكومات إلى موازنة الأضرار والمخاطر العملية في اتخاذ قراراتها مقابل تلك والفوائد التي يمكن أن توفرها هذه التكنولوجيا للمجتمع. إننا نشهد الكثير من جماعات الضغط والمناقشات من جميع الأطراف لتسهيل عملية وضع القواعد المستنيرة بشكل كافٍ “.

يستمر “الاستخدام العادل” للبيانات المسروقة في إثارة النقاش

بالنسبة للمبدعين ، يدور الكثير من النقاش حول جمع البيانات لتدريب الذكاء الاصطناعي حول ما إذا كان يمكن تحديد الأعمال المحمية بحقوق الطبع والنشر على أنها “استخدام عادل” وفقًا لقانون حقوق الطبع والنشر في الولايات المتحدة – والذي “يسمح بالاستخدام المحدود للمواد المحمية بحقوق الطبع والنشر دون الحاجة إلى الحصول أولاً على إذن من صاحب حقوق النشر “- كما تدعي العديد من الشركات مثل OpenAI.

لكن غاردنر يشير إلى أن الاستخدام العادل هو “دفاع عن انتهاك حقوق الطبع والنشر وليس حقًا قانونيًا”. بالإضافة إلى ذلك ، قد يكون من الصعب للغاية التنبؤ بكيفية ظهور المحاكم في أي قضية استخدام عادل ، قالت: “هناك درجة سابقة حيث تم البت في قضيتين تتشابهان على ما يبدو بشكل مختلف.”

لكنها أكدت أن هناك سابقة للمحكمة العليا تدفع الكثيرين إلى استنتاج أن استخدام المواد المحمية بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي يمكن أن يكون استخدامًا عادلاً بناءً على الطبيعة التحويلية لهذا الاستخدام – أي أنه لا ينقل السوق للعمل الأصلي.

وقالت: “ومع ذلك ، هناك سيناريوهات قد لا يكون فيها الاستخدام العادل – بما في ذلك ، على سبيل المثال ، ما إذا كان ناتج نموذج الذكاء الاصطناعي مشابهًا للعمل المحمي بحقوق الطبع والنشر”. “سيكون من المثير للاهتمام أن نرى كيفية حدوث ذلك في المحاكم والعملية التشريعية – خاصةً لأننا رأينا بالفعل العديد من الحالات التي يمكن أن يؤدي فيها حث المستخدم إلى إنتاج مخرجات يبدو بوضوح شديد أنها مشتق من عمل محمي بحقوق الطبع والنشر ، وبالتالي انتهاك . “

لا تزال البيانات المقشورة في النماذج المسجلة الملكية اليوم غير معروفة

ومع ذلك ، تكمن المشكلة في أنه لا أحد يعرف ما هو موجود في مجموعات البيانات المضمنة في نماذج الذكاء الاصطناعي التوليدية المتطورة اليوم مثل OpenAI’s GPT-4 و Anthropic’s Claude.

في الآونة الأخيرة واشنطن بريد وفقًا للتقرير ، ساعد الباحثون في معهد ألين للذكاء الاصطناعي في تحليل مجموعة بيانات كبيرة لإظهار “أنواع مواقع الويب المسجلة الملكية والشخصية والمسيئة في كثير من الأحيان … التي تدخل في بيانات تدريب الذكاء الاصطناعي.” ولكن بينما تضمنت مجموعة البيانات ، C4 من Google ، مواقع معروفة بالكتب الإلكترونية المقرصنة ، ومحتوى من مواقع الفنانين مثل Kickstarter و Patreon ، ومجموعة من المدونات الشخصية ، فهي مجرد مثال واحد على مجموعة بيانات ضخمة ؛ قد يستخدم نموذج لغة كبير عدة. يتضمن برنامج RedPajama مفتوح المصدر الذي تم إصداره مؤخرًا ، والذي قام بتكرار مجموعة بيانات LLaMA لبناء أنظمة LLM مفتوحة المصدر وحديثة ، شرائح من مجموعات البيانات التي تتضمن بيانات من Common Crawl و arxiv و Github و Wikipedia ومجموعة من الكتب المفتوحة .

لكن التقرير الفني لـ OpenAI المكون من 98 صفحة والذي صدر في مارس حول تطوير GPT-4 كان ملحوظًا في الغالب لما فعلته لا يشمل. في قسم بعنوان “نطاق وقيود هذا التقرير الفني” ، يقول: “بالنظر إلى كل من المشهد التنافسي والآثار المتعلقة بالسلامة للنماذج واسعة النطاق مثل GPT-4 ، لا يحتوي هذا التقرير على مزيد من التفاصيل حول البنية (بما في ذلك حجم النموذج ). ) أو الأجهزة أو حوسبة التدريب أو إنشاء مجموعة البيانات أو أسلوب التدريب أو ما شابه ذلك. “

مناقشة جمع البيانات هي “علامة جيدة” لأخلاقيات الذكاء الاصطناعي التوليدية

وأشار ميتشل إلى أن المناقشات حول مجموعات البيانات والذكاء الاصطناعي مستمرة منذ سنوات. في ورقة بحثية نُشرت عام 2018 بعنوان “أوراق البيانات الخاصة بمجموعات البيانات” ، كتب الباحث في منظمة العفو الدولية Timnit Gebru أنه “لا توجد حاليًا طريقة قياسية لتحديد كيفية إنشاء مجموعة البيانات ، وما هي الخصائص والدوافع والانحرافات المحتملة التي تمثلها”.

اقترحت الورقة مفهوم ورقة البيانات لمجموعات البيانات ، وثيقة قصيرة لمرافقة مجموعات البيانات العامة ، واجهات برمجة التطبيقات التجارية والنماذج سابقة التدريب. “الهدف من هذا الاقتراح هو تمكين تواصل أفضل بين منشئي مجموعات البيانات والمستخدمين ، ومساعدة مجتمع الذكاء الاصطناعي على التحرك نحو مزيد من الشفافية والمساءلة.”

في حين أن هذا قد يبدو غير مرجح حاليًا نظرًا للاتجاه الحالي نحو نماذج “الصندوق الأسود” الملكية ، قالت ميتشل إنها تعتبر حقيقة أن تجريف البيانات قيد المناقشة الآن “علامة جيدة على أن خطاب أخلاقيات الذكاء الاصطناعي يزيد من إثراء فهم الجمهور”.

وأضافت: “هذا النوع من الأشياء يعد أخبارًا قديمة للأشخاص الذين لديهم وظائف في مجال أخلاقيات الذكاء الاصطناعي ، وهو شيء ناقشه الكثير منا لسنوات”. “لكنها بدأت في الحصول على لحظة اختراق عامة – على غرار الإنصاف / التحيز قبل بضع سنوات – لذلك من المشجع أن نرى ذلك.”

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

مرتبط

الوسوم

eshragnet

0 54 دقيقة واحدة

حدث

قفزة في فهم الجمهور لنماذج الذكاء الاصطناعي التوليدية

بالنسبة للشركات ، الخندق التنافسي هو البيانات

قضايا الخصوصية المختلفة حول جمع البيانات لتدريب الذكاء الاصطناعي

يستمر “الاستخدام العادل” للبيانات المسروقة في إثارة النقاش

لا تزال البيانات المقشورة في النماذج المسجلة الملكية اليوم غير معروفة

مناقشة جمع البيانات هي “علامة جيدة” لأخلاقيات الذكاء الاصطناعي التوليدية

مرتبط

Subscribe to our mailing list to get the new updates!

ما نفعله في الظل الموسم الخامس: تعيين تقرير الزيارة

بيلي إيليش تعلن عن أغنية باربي للموسيقى التصويرية

مقالات ذات صلة

احصل على Microsoft Office 2019 وWindows 11 Pro مقابل 50 دولارًا فقط مع هذه الصفقة

كتاب تفهيم الخوارزميات الجزء ٢

كتاب تعلم الآلة وعلم البيانات

كتاب التعلم العميق، من الأساسيات حتى بناء شبكة عصبية عميقة بلغة بايثون

اترك تعليقاً إلغاء الرد