ما تعنيه حقًا الدعوى التي رفعتها سارة سيلفرمان ضد شركة OpenAI و Meta | فوز الذكاء الاصطناعي
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو وتعرف على كيفية استباق قادة الأعمال لثورة الذكاء الاصطناعي التوليدية.. يتعلم أكثر
استمر تسخين التقاضي الذي يستهدف ممارسات إلغاء البيانات لشركات الذكاء الاصطناعي التي تطور نماذج لغوية كبيرة (LLMs) اليوم ، مع الأخبار التي تفيد بأن الفنانة الكوميدية والمؤلفة سارة سيلفرمان تقاضي OpenAI و Meta بسبب انتهاك حقوق الطبع والنشر لمذكراتها المضحكة ، The Bedwetter: Stories of Courage ، Redemption ، and Pee ، نُشر عام 2010.
الدعوى المرفوعة من قبل شركة جوزيف سافيري القانونية ومقرها سان فرانسيسكو – والتي رفعت أيضًا دعوى ضد GitHub في عام 2022 – تدعي أن سيلفرمان واثنين من المدعين الآخرين لم يوافقوا على استخدام كتبهم المحمية بحقوق الطبع والنشر كمواد تدريبية لـ OpenAI’s ChatGPT و Meta. LLaMA ، وأنه عندما يُطلب من ChatGPT أو LLaMA ، تقوم الأداة بإنشاء ملخصات للأعمال المحمية بحقوق الطبع والنشر ، وهو أمر ممكن فقط إذا تم تدريب النماذج عليها.
>> تابع تغطية الذكاء الاصطناعي التوليدية المستمرة من VentureBeat <
تتزايد المشكلات القانونية المتعلقة بالذكاء الاصطناعي بشأن حق المؤلف و “الاستخدام العادل”
لن تختفي هذه القضايا القانونية المتعلقة بحقوق النشر و “الاستخدام العادل” – في الواقع ، إنها تدخل في صميم ما تصنعه LLM اليوم – أي بيانات التدريب. كما ناقشت الأسبوع الماضي ، يمكن القول إن تجريف الويب لكميات هائلة من البيانات يمكن وصفه بأنه الصلصة السرية للذكاء الاصطناعي التوليدي. روبوتات الدردشة التي تعمل بالذكاء الاصطناعي مثل ChatGPT و LLaMA و Claude (من Anthropic) و Bard (من Google) يمكنها أن تبث نصًا متماسكًا لأنها تدربت على مجموعة ضخمة من البيانات ، معظمها مأخوذة من الإنترنت. وبما أن حجم LLMs اليوم مثل GPT-4 قد تضخم إلى مئات المليارات من الرموز المميزة ، فقد ازداد الجوع أيضًا للبيانات.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
تعرضت ممارسات جمع البيانات باسم التدريب على الذكاء الاصطناعي للهجوم مؤخرًا. على سبيل المثال ، تعرضت شركة OpenAI لدعويين قضائيتين جديدتين. ادعى أحدهم في 28 يونيو ، من قبل شركة جوزيف سافيري للمحاماة ، أن شركة OpenAI قامت بنسخ نص الكتاب بشكل غير قانوني من خلال عدم الحصول على موافقة من أصحاب حقوق الطبع والنشر أو منحهم ائتمانًا وتعويضًا. الآخر ، الذي رفعه في نفس اليوم من قبل Clarkson Law Firm نيابة عن أكثر من عشرة مدعين مجهولين ، يدعي أن ChatGPT و DALL-E من OpenAI يجمعان البيانات الشخصية للأشخاص من جميع أنحاء الإنترنت في انتهاك لقوانين الخصوصية.
هذه الدعاوى القضائية ، بدورها ، تأتي في أعقاب دعوى جماعية رفعت في يناير ، أندرسن وآخرون. v. استقرار الذكاء الاصطناعي ، حيث رفع المدعون من الفنانين دعاوى بما في ذلك انتهاك حقوق الطبع والنشر. كما رفعت Getty Images دعوى قضائية ضد Stability AI في فبراير ، بدعوى انتهاك حقوق النشر والعلامات التجارية ، بالإضافة إلى إضعاف العلامة التجارية.
سارة سيلفرمان ، بالطبع ، تضيف طبقة جديدة من المشاهير إلى القضايا المتعلقة بالذكاء الاصطناعي وحقوق النشر – ولكن ماذا تعني هذه الدعوى الجديدة حقًا للذكاء الاصطناعي؟ ها هي توقعاتي:
1. هناك العديد من الدعاوى القضائية القادمة.
في مقالتي الأسبوع الماضي ، وصفت مارجريت ميتشل ، الباحثة وكبيرة علماء الأخلاقيات في Hugging Face ، قضايا إلغاء بيانات الذكاء الاصطناعي بأنها “تأرجح البندول” ، مضيفة أنها توقعت سابقًا أنه بحلول نهاية العام ، قد يتم إجبار OpenAI لحذف نموذج واحد على الأقل بسبب مشاكل البيانات هذه.
بالتأكيد ، يجب أن نتوقع المزيد من الدعاوى القضائية القادمة. بالعودة إلى أبريل 2022 ، عندما ظهر DALL-E 2 لأول مرة ، وافق مارك ديفيز ، الشريك في شركة المحاماة Orrick ومقرها سان فرانسيسكو ، على وجود العديد من الأسئلة القانونية المفتوحة عندما يتعلق الأمر بالذكاء الاصطناعي و “الاستخدام العادل” – وهو مبدأ قانوني يعزز حرية التعبير من خلال السماح بالاستخدام غير المرخص للأعمال المحمية بموجب حقوق الطبع والنشر في ظروف معينة.
قال: “ما يحدث في الواقع هو أنه عندما تكون هناك رهانات كبيرة ، فأنت تقاضيها”. “وبعد ذلك تحصل على الإجابات بطريقة خاصة بكل حالة.”
والآن ، كان الجدل المتجدد حول تجريف البيانات “يتسلل” ، كما أخبرني جريجوري لايتون ، المتخصص في قانون الخصوصية في شركة المحاماة Polsinelli ، الأسبوع الماضي. وقال إن الدعاوى القضائية الخاصة بشركة أوبن إيه آي وحدها كافية لتكون نقطة اشتعال لجعل رد الفعل الآخر أمرًا لا مفر منه. قال: “لم ندخل حتى عام واحد في عصر نموذج اللغة الكبير – كان سيحدث في مرحلة ما”.
قد تنتهي المعارك القانونية حول حقوق النشر والاستخدام العادل في نهاية المطاف في المحكمة العليا ، كما أخبرني برادفورد نيومان ، الذي يقود التعلم الآلي وممارسات الذكاء الاصطناعي في شركة المحاماة العالمية بيكر ماكنزي ، في أكتوبر الماضي.
قال: “من الناحية القانونية ، في الوقت الحالي ، هناك القليل من الإرشادات” ، حول ما إذا كانت المدخلات المحمية بحقوق الطبع والنشر في بيانات تدريب LLM هي “استخدام عادل”. وتوقع أن تتوصل المحاكم المختلفة إلى استنتاجات مختلفة: “في النهاية ، أعتقد أن هذا سيذهب إلى المحكمة العليا”.
2. ستخضع مجموعات البيانات للتدقيق بشكل متزايد ، ولكن سيكون من الصعب تنفيذها.
في دعوى Silverman ، يدعي المؤلفون أن OpenAI و Meta أزالوا عن عمد معلومات إدارة حقوق النشر مثل إشعارات حقوق النشر والعناوين.
علم ميتا أو كان لديه أسباب معقولة لمعرفة أن هذا الإزالة [copyright management information] من شأنه تسهيل انتهاك حقوق الطبع والنشر من خلال إخفاء حقيقة أن كل ناتج من نماذج لغة LLaMA هو عمل مشتق منتهك “، كما زعم المؤلفون في شكواهم ضد Meta.
تكهنت شكاوى المؤلفين أيضًا بأن ChatGPT و LLaMA قد تم تدريبهما على مجموعات بيانات ضخمة من الكتب التي تتجنب قوانين حقوق النشر ، بما في ذلك “مكتبات الظل” مثل Library Genesis و ZLibrary.
تقول شكوى المؤلفين ضد Meta: “لطالما كانت مكتبات الظل هذه موضع اهتمام مجتمع تدريب الذكاء الاصطناعي نظرًا للكم الهائل من المواد المحمية بحقوق الطبع والنشر التي تستضيفها”. “لهذا السبب ، تعد مكتبات الظل هذه أيضًا غير قانونية بشكل صارخ.”
لكن مقالًا في بلومبرج لو في أكتوبر الماضي أشار إلى أن هناك العديد من العقبات القانونية التي يجب التغلب عليها عندما يتعلق الأمر بمكافحة حقوق النشر ضد مكتبة الظل. على سبيل المثال ، يوجد العديد من مشغلي المواقع في دول خارج الولايات المتحدة ، وفقًا لجوناثان باند ، محامي الملكية الفكرية ومؤسس شركة جوناثان باند بي إل سي.
وكتب في المقال: “إنهم خارج نطاق قانون حقوق النشر الأمريكي”. من الناحية النظرية ، يمكن للمرء أن يذهب إلى البلد الذي تستضيف فيه قاعدة البيانات. لكن هذا مكلف وفي بعض الأحيان تكون هناك جميع أنواع القضايا المتعلقة بمدى فعالية المحاكم هناك ، أو إذا كان لديهم نظام قضائي جيد أو نظام قضائي فعال يمكنه تنفيذ الأوامر “.
بالإضافة إلى ذلك ، غالبًا ما يقع على عاتق المبدع مسؤولية إثبات أن استخدام العمل المحمي بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي أدى إلى عمل “مشتق”. في مقال نُشر في The Verge في نوفمبر الماضي ، قال دانييل جيرفيس ، الأستاذ في كلية فاندربيلت للقانون ، إن تدريب الذكاء الاصطناعي على البيانات المحمية بحقوق الطبع والنشر من المحتمل أن يكون قانونيًا ، ولكن لا يمكن قول الشيء نفسه بالضرورة عن توليد المحتوى – أي أن ما تفعله بهذا النموذج قد يمثل انتهاكًا.
وأخبرتني كاتي غاردنر ، الشريكة في شركة المحاماة الدولية غوندرسون ديتمير ، الأسبوع الماضي أن الاستخدام العادل هو “دفاع عن انتهاك حقوق الطبع والنشر وليس حقًا قانونيًا”. بالإضافة إلى ذلك ، قد يكون من الصعب للغاية التنبؤ بكيفية ظهور المحاكم في أي قضية استخدام عادل ، على حد قولها. “هناك درجة سابقة حيث تم البت في حالتين لهما حقائق متشابهة على ما يبدو بشكل مختلف.”
لكنها أكدت أن هناك سابقة للمحكمة العليا تدفع الكثيرين إلى استنتاج أن استخدام المواد المحمية بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي يمكن أن يكون استخدامًا عادلاً بناءً على الطبيعة التحويلية لمثل هذا الاستخدام – أي أنه لا ينقل السوق للعمل الأصلي.
3. ستريد الشركات نماذجها الخاصة أو التعويض
لقد أوضحت شركات المؤسسات بالفعل أنها لا تريد التعامل مع مخاطر الدعاوى القضائية المتعلقة ببيانات التدريب على الذكاء الاصطناعي – فهم يريدون الوصول الآمن لإنشاء محتوى ذكاء اصطناعي خالي من المخاطر للاستخدام التجاري.
هذا هو المكان الذي تحرك فيه التعويض في المقدمة والوسط: في الأسبوع الماضي ، أعلنت Shutterstock أنها ستقدم لعملاء المؤسسات تعويضًا كاملاً عن الترخيص واستخدام صور الذكاء الاصطناعي التوليدية على نظامها الأساسي لحمايتهم من المطالبات المحتملة المتعلقة باستخدامهم للصور. وقالت الشركة إنها ستلبي طلبات التعويض عند الطلب من خلال مراجعة بشرية للصور.
جاءت هذه الأخبار بعد شهر واحد فقط من إعلان Adobe عن عرض مشابه: “إذا تمت مقاضاة عميل بتهمة الانتهاك ، فإن Adobe ستتولى الدفاع القانوني وتوفر بعض التغطية المالية لتلك الادعاءات ،” قال متحدث باسم الشركة.
ووجدت بيانات استطلاعات رأي جديدة من منصة Domino Data Lab الخاصة بالمؤسسة أن علماء البيانات يعتقدون أن الذكاء الاصطناعي التوليدي سيؤثر بشكل كبير على المؤسسات خلال السنوات القليلة المقبلة ، ولكن لا يمكن الاستعانة بمصادر خارجية لقدراته – أي تحتاج الشركات إلى ضبط أو التحكم في الذكاء الاصطناعي العام الخاص بها. . عارضات ازياء.
قال كجيل كارلسون ، رئيس إستراتيجية علوم البيانات في Domino Data Lab ، إنه إلى جانب أمان البيانات ، تعد حماية IP مشكلة أخرى. قال: “إذا كان الأمر مهمًا وذو قيمة محركة حقًا ، فعندئذ يريدون امتلاكه والحصول على درجة أكبر من السيطرة”.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.