في عام 2023، أخبرت شركة OpenAI برلمان المملكة المتحدة أنه “من المستحيل” تدريب نماذج الذكاء الاصطناعي الرائدة دون استخدام مواد محمية بحقوق الطبع والنشر. إنه موقف شائع في عالم الذكاء الاصطناعي، حيث استخدمت شركة OpenAI وغيرها من الشركات الرائدة المواد التي تم الحصول عليها عبر الإنترنت لتدريب النماذج التي تعمل على تشغيل برامج الدردشة الآلية ومولدات الصور، مما أدى إلى موجة من الدعاوى القضائية التي تزعم انتهاك حقوق الطبع والنشر.
يقدم إعلانان يوم الأربعاء دليلاً على أنه يمكن في الواقع تدريب نماذج اللغات الكبيرة دون الاستخدام غير المصرح به للمواد المحمية بحقوق الطبع والنشر.
أصدرت مجموعة من الباحثين بدعم من الحكومة الفرنسية ما يُعتقد أنه أكبر مجموعة بيانات للتدريب على الذكاء الاصطناعي تتألف بالكامل من نص موجود في المجال العام. وأعلنت منظمة Fairly Trained غير الربحية أنها منحت أول شهادة لها لنموذج لغة كبير تم تصميمه دون انتهاك حقوق الطبع والنشر، مما يدل على أن التكنولوجيا مثل تلك التي تقف خلف ChatGPT يمكن بناؤها بطريقة مختلفة عن المعايير المثيرة للجدل في صناعة الذكاء الاصطناعي.
يقول إد نيوتن ريكس، الرئيس التنفيذي لشركة Fairly Trained: “لا يوجد سبب أساسي لعدم تمكن شخص ما من تدريب ماجستير إدارة الأعمال بشكل عادل”. أسس المنظمة غير الربحية في يناير 2024 بعد ترك منصبه التنفيذي في شركة Stability AI الناشئة لتوليد الصور لأنه اختلف مع سياستها المتمثلة في نسخ المحتوى دون إذن.
تقدم Fairly Trained شهادة للشركات الراغبة في إثبات قيامها بتدريب نماذج الذكاء الاصطناعي الخاصة بها على البيانات التي تمتلكها، أو المرخصة لها، أو الموجودة في المجال العام. عندما تم إطلاق المنظمة غير الربحية، أشار بعض النقاد إلى أنها لم تحدد بعد نموذجًا لغويًا كبيرًا يلبي هذه المتطلبات.
أعلنت شركة Fairly Trained اليوم أنها حصلت على أول نموذج لغوي كبير لها. يُطلق عليه اسم KL3M وتم تطويره من قبل شركة 273 Ventures الناشئة للاستشارات التقنية القانونية ومقرها شيكاغو، باستخدام مجموعة بيانات تدريبية منسقة من المستندات القانونية والمالية والتنظيمية.
يقول المؤسس المشارك للشركة جيليان بوماريتو إن قرار تدريب KL3M بهذه الطريقة نابع من عملاء الشركة “الذين يكرهون المخاطرة” مثل شركات المحاماة. وتقول: “إنهم قلقون بشأن المصدر، ويحتاجون إلى معرفة أن المخرجات لا تعتمد على بيانات ملوثة”. “نحن لا نعتمد على الاستخدام العادل.” كان العملاء مهتمين باستخدام الذكاء الاصطناعي التوليدي لمهام مثل تلخيص المستندات القانونية وصياغة العقود، لكنهم لم يرغبوا في الانجرار إلى دعاوى قضائية حول الملكية الفكرية مثل OpenAI وStability AI وغيرهما.
يقول بوماريتو إن 273 شركة Ventures لم تعمل على نموذج لغوي كبير من قبل، لكنها قررت تدريب أحد النماذج كتجربة. وتقول: “اختبارنا لمعرفة ما إذا كان ذلك ممكنًا”. أنشأت الشركة مجموعة بيانات التدريب الخاصة بها، Kelvin Legal DataPack، والتي تتضمن آلاف المستندات القانونية التي تمت مراجعتها للامتثال لقانون حقوق الطبع والنشر.
على الرغم من أن مجموعة البيانات صغيرة (حوالي 350 مليار رمز، أو وحدات بيانات) مقارنة بتلك التي جمعتها OpenAI وغيرها من الشركات التي اخترقت الإنترنت بشكل جماعي، تقول بوماريتو إن أداء نموذج KL3M كان أفضل بكثير من المتوقع، وهو أمر تعزوه إلى مدى دقة البيانات. وقد تم فحص البيانات مسبقا. وتقول: “إن الحصول على بيانات نظيفة وعالية الجودة قد يعني أنك لست مضطرًا إلى جعل النموذج كبيرًا جدًا”. يمكن أن يساعد تنظيم مجموعة البيانات في إنشاء نموذج ذكاء اصطناعي نهائي مخصص للمهمة المصممة من أجلها. تقدم 273 Ventures الآن أماكن في قائمة الانتظار للعملاء الذين يرغبون في شراء حق الوصول إلى هذه البيانات.
صفحة نظيفة
قد تحصل الشركات التي تتطلع إلى محاكاة KL3M على مزيد من المساعدة في المستقبل في شكل مجموعات بيانات متاحة مجانًا وخالية من الانتهاك. أصدر الباحثون يوم الأربعاء ما يزعمون أنه أكبر مجموعة بيانات متاحة للذكاء الاصطناعي لنماذج اللغة المكونة بالكامل من محتوى المجال العام. Common Corpus، كما يطلق عليه، عبارة عن مجموعة من النصوص بنفس حجم البيانات المستخدمة لتدريب نموذج إنشاء النص GPT-3 الخاص بـ OpenAI وتم نشرها على منصة الذكاء الاصطناعي مفتوحة المصدر Hugging Face.
تم بناء مجموعة البيانات من مصادر مثل صحف الملكية العامة التي تم رقمنتها بواسطة مكتبة الكونجرس الأمريكية والمكتبة الوطنية الفرنسية. ويصفها بيير كارل لانجليز، منسق مشروع Common Corpus، بأنها “مجموعة كبيرة بما يكفي لتدريب ماجستير في القانون على أحدث طراز”. في لغة الذكاء الاصطناعي الكبير، تحتوي مجموعة البيانات على 500 مليون رمز، ويُعتقد على نطاق واسع أن النموذج الأكثر قدرة في OpenAI قد تم تدريبه على عدة تريليونات.