الاقتراض من القانون لتصفية بيانات التدريب لنماذج التأسيس

0 155 4 دقائق

تحقق من جميع الجلسات عند الطلب من قمة الأمن الذكي هنا.

غالبًا ما يتم تدريب النماذج الأساسية على ما هو أساسًا الإنترنت بالكامل. من خلال التعلم من مثل هذه المجموعة الواسعة من البيانات ، يمكنهم حفظ وإعادة إنتاج المعلومات التي نريدهم أن يتعلموها. على سبيل المثال ، قد يتعلمون الإجابة بدقة على أسئلة واقعية مثل “من هو رئيس الولايات المتحدة؟”

ومع ذلك ، في الوقت نفسه ، يمكن لنماذج الأساس حفظ وإعادة إنتاج المعلومات التي قد تكون ضارة. على سبيل المثال ، قد يكشفون عن أرقام الضمان الاجتماعي للأشخاص أو معلومات بطاقات الائتمان أو السجلات الجنائية أو يجيبون على أسئلة حول المسلمين بالإيحاء بأنهم إرهابيون.

يقول بيتر هندرسون ، الحاصل على دكتوراه في الدكتوراة / بيتر هندرسون ، إن هذه المشكلات يحتاج مبدعو النماذج الأساسية إلى إصلاحها. طالب في جامعة ستانفورد: “لا نريد أن تربط النماذج بين الأشخاص سواء بمحتواهم الخاص أو بخصائص ضارة.”

لتجنب مثل هذه العواقب ، يحاول منشئو نماذج الأساس أحيانًا تصفية المحتوى الخاص أو السام قبل استخدام مجموعة بيانات لتدريب نموذج. لكن محاولة إزالة كل – أو حتى معظم – المحتوى الخاص أو السام من الإنترنت بالكامل يمثل تحديًا كبيرًا. سبب واحد: السياق مهم. تختلف توقعات الخصوصية عبر الثقافات وحتى عبر الزمن. وقد يعتمد تحديد ما إذا كانت العبارة سامة على من يتحدث ، وسبب استخدامهم لعبارة معينة ، وتوقعات القراء. باختصار: إنه عمل متوازن ، ويطبق باحثون مختلفون معايير مختلفة.

حدث

قمة أمنية ذكية عند الطلب

تعرف على الدور الحاسم للذكاء الاصطناعي وتعلم الآلة في الأمن السيبراني ودراسات الحالة الخاصة بالصناعة. شاهد الجلسات عند الطلب اليوم.

مشاهدة هنا

يقول هندرسون: “تساءلنا عما إذا كانت هناك طريقة أكثر مبدئية لتصفية بيانات ما قبل التدريب”. كان لديه وزملاؤه ، بمن فيهم مارك كراس ، طالب دكتوراه / دكتوراه أيضًا ، فكرة: انظر إلى القانون. هناك تاريخ طويل للمحاكم التي تضع معايير الإفصاح عن المعلومات ، فلماذا لا تستورد هذه المعايير في بيئة التعلم الآلي (ML)؟

لاختبار فكرتهم ، قام هندرسون وزملاؤه بتجميع Pile of Law ، وهي مجموعة بيانات واسعة من الآراء القضائية والإدارية ، والمدونة القانونية ، ودفاتر القضايا ، والمستندات القانونية الأخرى. ثم استكشفوا ما إذا كان بإمكان Pile of Law المساعدة في تحديد طريقة مبدئية لتصفية بيانات ما قبل التدريب مع التركيز بشكل خاص على الخصوصية والسمية.

بناءً على التجارب الأولية للفريق ، تقدم Pile of Law بعض الفرص القيمة: أولاً ، يمكن أن تساعد الباحثين على التأكد من أن بيانات التدريب الخاصة بهم تلبي الحد الأدنى من المعايير القانونية. وثانيًا ، يمكن أن تكشف عن مشاكل مع معايير ترشيح الأماكن العامة ، كما هو الحال في عالم السمية.

التصفية من أجل الخصوصية

عندما نظر هندرسون وكراس لأول مرة في مجموعات البيانات المستخدمة حاليًا لتدريب نماذج الأساس ، لم يجدوا أيًا منها تمت تصفيته بشكل صريح للحصول على معلومات حساسة شخصيًا. لذلك قرروا تحديد المعايير التي تستخدمها المحاكم والحكومات لموازنة الخصوصية والشفافية ثم اختبار ما إذا كان الاستخدام الضمني لتلك المعايير في كومة القانون يمكن أن يوجههم نحو نهج دقيق لتصفية البيانات.

أولاً ، قام الفريق بفهرسة الطرق المختلفة التي تعاملت بها المحاكم مع مخاوف الخصوصية. وجدوا بعض القواعد ذات الخطوط المضيئة التي قد يتكيف معها مصممو النماذج لتصفية بيانات التدريب الخاصة بهم. على سبيل المثال ، لا توجد سلطات قضائية أمريكية تكشف عن أسماء القصر أو أرقام الضمان الاجتماعي أو أرقام الحسابات المالية أو تواريخ الميلاد.

لكنهم وجدوا أيضًا مناهج أكثر سياقية. على سبيل المثال ، تكشف المحاكم الأمريكية عادةً عن السجلات الجنائية للأشخاص أو أسماء المتقاضين في القضايا المدنية ، ولكن هناك استثناءات. في حالات الاعتداء الجنسي ، على سبيل المثال ، غالبًا ما يتم استخدام أسماء مستعارة لأسماء الضحايا. وبالمثل ، يستخدم قضاة القانون الإداري سلطتهم التقديرية لحماية أسماء الأشخاص الذين يمثلون أمامهم في سياقات مثل التقدم للحصول على مزايا الإعاقة أو اللجوء السياسي.

يعني وجود هذه المعايير السياقية أن مجموعات فرعية معينة من كومة القانون تمت تصفيتها ضمنيًا بالفعل لحماية خصوصية بعض الأشخاص. في سياق الهجرة ، على سبيل المثال ، من المرجح أن الأشخاص الذين يطلبون اللجوء الذين يزعمون أنهم تعرضوا للتعذيب في بلدانهم قد أعطوا أسماء مستعارة في السجل العام.

قرر هندرسون وفريقه اختبار ما إذا كان النموذج يمكنه تعلم هذه المعايير السياقية باستخدام Pile of Law كبيانات تدريبية. النتيجة: نموذج يتنبأ بدقة 80٪ بما إذا كانت الفقرة في حالة الهجرة يجب أن تستخدم اسمًا مستعارًا أم لا. وأظهروا أن هذه التنبؤات تتماشى مع القانون: فالأحكام التي تشير إلى اللجوء والتعذيب من المرجح أن تؤدي إلى إخفاء أسماء مستعارة أكثر من الأحكام التي تشير إلى جرائم جنائية.

تشير هذه التجارب والعديد من التجارب الأخرى إلى أن Pile of Law يمكن أن تساعد الباحثين على تطوير عوامل تصفية خصوصية مناسبة للسياق ، كما يقول هندرسون. بعد ذلك ، يرغب الفريق في توسيع نطاق هذه الجهود إلى ما وراء المجال القانوني: هل يمكن أن يتعلم النموذج استخدام أسماء مستعارة لأسماء طالبي اللجوء في مجموعة بيانات تتضمن الإنترنت بالكامل؟

ترشيح السمية

في ساحة السمية ، وجد هندرسون وكراس منظرًا طبيعيًا مختلفًا. تُستخدم المرشحات الحالية على نطاق واسع وتتجاوز ما تقترحه معايير المحكمة. في الواقع ، يمكن أن يؤدي تطبيق مرشحات السمية الحالية على Pile of Law إلى تصفية أجزاء مهمة من بعض السوابق القانونية الرئيسية من عصر الحقوق المدنية ، بما في ذلك براون ضد مجلس التعليمقضية مهمة أدت إلى تحرير المدارس في الولايات المتحدة.

بالإضافة إلى ذلك ، وجد الفريق أن المرشحات الحالية قد تزيل المحتوى السام من مسافات أقصر من النص مع تركه في مكانه إذا ظهر في عمل مكتوب أطول – وهي نتيجة غير مفسرة قد تكون مشكلة.

يقول هندرسون: “الدرس هو التفكير بعناية أكبر قبل إزالة مرشح من الرف لتصفية البيانات قبل التدريب”. “لذلك نحن ندعو إلى مزيد من البحث لمعالجة السمية في بيانات التدريب بشكل صحيح.”

التالي: الاستدلال القانوني

بينما يأمل هندرسون وكراس في أن تساعد Pile of Law في جعل تصفية البيانات أقل تخصيصًا مما هي عليه اليوم ، فإن لديهم أيضًا هدفًا ثانيًا: استخدام Pile of Law لبناء نماذج أساسية قادرة على التفكير القانوني.

أظهر الفريق بالفعل أن النماذج الأساسية تقوم بعمل رديء لفهم كيفية تطبيق القانون على مجموعة من الحقائق. لكن هندرسون يأمل أن تعمل أنظمة الذكاء الاصطناعي يومًا ما على تحسين كفاءة المحامين وشموليتهم من خلال ، على سبيل المثال ، التحقق من الاستشهادات الخاصة بهم وتحديد جميع الحجج ذات الصلة في القضية. الهدف ، كما يقول ، هو تحسين الوصول إلى العدالة للأشخاص الذين لا يستطيعون دفع أتعاب المحامي.

“إنه تحد صعب ، لكن لماذا لا تهدف لحل مشكلة صعبة؟” هو يقول. ويمكن أن يساعد الناس بالفعل.

كاثرين ميلر كاتبة مساهمة في معهد ستانفورد للذكاء الاصطناعي الذي يركز على الإنسان.

ظهرت هذه القصة في الأصل على Hai.stanford.edu. حقوق الطبع والنشر 2022

صانعي القرار

مرحبًا بك في مجتمع VentureBeat!

DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.

إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.

يمكنك حتى التفكير في المساهمة بمقال خاص بك!

قراءة المزيد من DataDecisionMakers

مرتبط

الوسوم

eshragnet

0 155 4 دقائق

حدث

التصفية من أجل الخصوصية

ترشيح السمية

التالي: الاستدلال القانوني

صانعي القرار

مرتبط

Subscribe to our mailing list to get the new updates!

تعلن شركة Marvel عن فريق Planet of the Apes الهزلي ، إعادة طبع القصص المصورة القديمة

مراجعة فيلم Killer Santa Horror Retro مراجعة

مقالات ذات صلة

يعالج برنامج Anyscale ثغرة أمنية حرجة في إطار عمل Ray – لكن الآلاف منها ما زالوا معرضين للخطر

أعيد سام ألتمان إلى مجلس إدارة OpenAI بعد أن برأه التحقيق من ارتكاب أي مخالفات

تعرض Netflix العرض الأول لمسلسل الخيال العلمي The Three Body Trouble في SXSW

ابل ماك بوك اير، لا يوجد هاتف 2a

اترك تعليقاً إلغاء الرد