تزعم الدعوى القضائية المرفوعة ضد شركة Meta من قبل المؤلفين ومنشئي المحتوى أن الشركة قامت بتدريب موظفيها الذكاء الاصطناعي (AI) نماذج على مواد محمية بحقوق الطبع والنشر على الرغم من تحذير محامي ميتا من التداعيات القانونية، وفقًا لملف جديد في الدعوى.
تم رفع الدعوى هذا الصيف من قبل مجموعة من منشئي المحتوى بما في ذلك الممثلة الكوميدية سارة سيلفرمان، والحائز على جائزة بوليتزر مايكل شابون وغيرهم من المؤلفين البارزين. يزعمون ذلك شركة ميتا الشركة الأم لفيسبوك انتهكت حقوق الطبع والنشر الخاصة بها من خلال استخدام عملهم لتدريب نموذج Llama AI الخاص بها. تقوم نماذج اللغات الكبيرة بتدريب برامج الذكاء الاصطناعي باستخدام كميات هائلة من البيانات مثل النصوص والصور والفيديو لتعليم البرنامج كيفية ربط مطالبات المستخدمين بالمحتوى الموجود.
قامت المجموعة بمراجعة دعواها القضائية بعد أن رفض قاض في كاليفورنيا جزءًا منها الشهر الماضي بينما سمح لهم بمراجعة دعواهم. تتضمن الشكوى المعدلة المقدمة إلى المحكمة الفيدرالية في وقت متأخر من يوم الاثنين سجلات محادثة لباحث تابع لشركة Meta والذي ناقش استخدام مجموعة بيانات على خادم Discord وأشار إلى أن محامي الشركة أثاروا مخاوف بشأن إدراجها لمحتوى محمي بحقوق الطبع والنشر ردًا على استفساراته.
تبدأ دعوى حقوق الطبع والنشر للمؤلفين ضد OPENAI على CHATGPT
ناقش تيم ديتميرز، وهو باحث في الذكاء الاصطناعي عمل مع ميتا، على خادم Discord عام شراء مجموعة بيانات تسمى “The Pile” تم تجميعها بواسطة EleutherAI. وتضمنت الكومة قسما اسمه “الكتب 3” ضم 196 ألفا و640 كتابا بحسب تعليق من قام بتجميعه المذكور في الشكوى.
شريط | حماية | آخر | يتغير | يتغير ٪ |
---|---|---|---|---|
ميتا | شركة ميتا بلاتفورمز | 334.74 | +0.52 | +0.16% |
قال ديتميرز في نوفمبر 2020 إنه مهتم باستخدام مجموعة بيانات The Pile للبحث وأشار إلى أن Meta كانت قلقة بشأن وجود مخاوف قانونية لأجزاء من مجموعة البيانات وأضاف: “في Facebook، نحتاج إلى الحصول على موافقة قانونية إذا أردنا النشر باستخدام مجموعات بيانات معينة وسيعمل المحامون على ذلك والتحقق مما إذا كانت هناك أي مخاوف عميقة… أعتقد أنه إذا كشفت العملية عن بعض المشكلات، فسيُسمح لي بمشاركة هذه المعلومات معك وربما يمكننا العمل معًا للتغلب على ذلك”.
الذكاء الاصطناعي يعقد قانون حقوق الطبع والنشر
وأشار ملصق آخر على خادم EleutherAI Discord إلى أن الإدارة القانونية “من المرجح أن تكون قلقة بشأن الكتب 3 التي تحتوي على نصوص الكتب ذات حقوق النشر النشطة” لأن هذه “منطقة رمادية قانونية” في الولايات المتحدة لأنه لم يتم رفع دعوى قضائية عليها وترك المسائل القانونية دون حل.
نشر ديتميرز في ديسمبر أن المحامين لاحظوا مشكلات مع Bibliotik، وهي قاعدة البيانات التي تم الحصول على مصدر قسم Books3 منها، وأنهم “أوصوا بتجنب” مجموعة البيانات وأنه “يبدو أنه من الواضح بالفعل أنه لا يمكن استخدام البيانات أو لا يمكن نشر النماذج”. إذا تم تدريبهم على تلك البيانات.”
تابع Dettmers في يناير 2021 ليقول إن الإصدار الحالي من The Pile كان يمثل مشكلة قانونية كبيرة بحيث لا يمكن استخدامه ومعرفة ما إذا كانت هناك طريقة لجعله قابلاً للاستخدام للشركات التي لديها مخاوف قانونية.
ما هو الذكاء الاصطناعي (AI)؟
وكتب: “في فيسبوك، هناك الكثير من الأشخاص المهتمين بالعمل مع (T)he (P)ile، بما فيهم أنا، ولكن في شكله الحالي، لا يمكننا استخدامه لأسباب قانونية”. “هل سيكون هناك اهتمام بالعمل على هذا معًا، فهذه نسخة Pile التي يمكن استخدامها دون أي مشاكل في الشركات التي (تتطلب) اتباع معايير قانونية أكثر صرامة؟”
تنص شكوى المدعين على أنه على الرغم من المشكلات المتعلقة بقاعدة بيانات Books3، فقد تم تضمينها في مجموعة بيانات تدريب Llama 1 من ديسمبر 2022 إلى فبراير 2023. ويضيف الملف أن المدعين يعتقدون أن نموذج Meta’s Llama 2 تم تدريبه أيضًا على Books3 من يناير إلى يوليو 2023. ، عندما تم رفع الدعوى في البدايةعلى الرغم من أن Meta لم تكشف عن مصادر التدريب الخاصة بـ Llama 2.
وأضافت الدعوى أن EleutherAI أزال المحادثة حول The Pile وBooks3 من العرض العام في أغسطس 2023.
بالإضافة إلى ذلك، قالت إنه تمت إزالة مجموعة بيانات Books3 The Eye، وهو موقع ويب مرتبط بـ EleutherAI، في أغسطس 2023 بعد إشعار إزالة حقوق الطبع والنشر من مجموعة في الدنمارك، وتمت إزالتها أيضًا من مشروع الذكاء الاصطناعي خدمة استضافة Hugging Face “بسبب الإبلاغ عن انتهاك حقوق الطبع والنشر” في أكتوبر 2023.
ولم تستجب ميتا على الفور لطلب التعليق.
ساهم رويترز لهذا التقرير.