نوع جديد من نموذج اللغة الكبيرة ، الذي طوره الباحثون في معهد ألين للمنظمة AI (AI2) ، يجعل من الممكن التحكم في كيفية استخدام بيانات التدريب حتى بعد بناء نموذج.
يمكن أن يتحدى النموذج الجديد ، المسمى Flexolmo ، نموذج الصناعة الحالي لشركات الذكاء الاصطناعي الكبير الذي يضعف البيانات من الويب والكتب والمصادر الأخرى – مع القليل من الاعتبار للملكية – ثم امتلاك النماذج الناتجة تمامًا. بمجرد أن يتم اختطاف البيانات في نموذج الذكاء الاصطناعي اليوم ، فإن استخراجها من هذا النموذج يشبه إلى حد ما محاولة استعادة البيض من كعكة نهائية.
يقول علي فرحدي ، الرئيس التنفيذي لشركة AI2 ، ومقرها في سياتل ، واشنطن: “من الناحية التقليدية ، فإن بياناتك إما داخل أو خارج”. “بمجرد أن أتدرب على هذه البيانات ، تفقد السيطرة. وليس لديك مخرج ، إلا إذا أجبرتني على الذهاب من خلال جولة أخرى من التدريب بملايين الدولارات.”
يقسم نهج الطليعة من AI2 التدريب بحيث يمكن لأصحاب البيانات أن يمارسوا التحكم. يمكن لأولئك الذين يرغبون في المساهمة في البيانات في نموذج Flexolmo القيام بذلك عن طريق نسخ نموذج مشترك علنًا يعرف باسم “المرساة”. ثم يقومون بتدريب نموذج ثانٍ باستخدام بياناتهم الخاصة ، ويجمعون النتيجة مع نموذج المرساة ، ويساهمون في العودة إلى أي شخص يقوم ببناء النموذج الثالث والأخير.
المساهمة بهذه الطريقة تعني أن البيانات نفسها لا يجب تسليمها أبدًا. وبسبب كيفية دمج نموذج مالك البيانات مع النهائي ، من الممكن استخراج البيانات لاحقًا. على سبيل المثال ، قد يساهم ناشر المجلات في النص من أرشيف المقالات إلى نموذج ، ولكنه لاحقًا إزالة النموذج الفرعي المدربين على تلك البيانات إذا كان هناك نزاع قانوني أو إذا كانت الشركة تعترض على كيفية استخدام النموذج.
يقول سيون مين ، عالم الأبحاث في AI2 الذي قاد العمل التقني: “التدريب غير متزامن تمامًا”. “لا يتعين على مالكي البيانات التنسيق ، ويمكن إجراء التدريب بشكل مستقل تمامًا.”
إن بنية نموذج Flexolmo هي ما يعرف باسم “مزيج من الخبراء” ، وهو تصميم شائع يستخدم عادةً في الجمع بين العديد من النماذج الفرعية في في وقت واحد في صورة أكبر وأكثر قدرة. الابتكار الرئيسي من AI2 هو وسيلة لدمج النماذج الفرعية التي تم تدريبها بشكل مستقل. يتم تحقيق ذلك باستخدام مخطط جديد لتمثيل القيم في النموذج بحيث يمكن دمج قدراته مع الآخرين عند تشغيل النموذج المدمج النهائي.
لاختبار النهج ، أنشأ الباحثون Flexolmo مجموعة بيانات يسمونها FlexMix من مصادر الملكية بما في ذلك الكتب والمواقع الإلكترونية. لقد استخدموا تصميم Flexolmo لبناء نموذج يحتوي على 37 مليار معلمة ، حوالي عُشر حجم أكبر نموذج مفتوح المصدر من META. ثم قارنوا نموذجهم بالعديد من الآخرين. وجدوا أنه تفوق على أي نموذج فردي في جميع المهام وسجل أيضًا 10 في المائة أفضل في المعايير المشتركة عن نهجين أخريين لدمج نماذج مدربة بشكل مستقل.
والنتيجة هي وسيلة للحصول على كعكتك – واستعادة بيضك أيضًا. يقول فرحدي: “يمكنك فقط إلغاء الاشتراك في النظام دون أي ضرر كبير ووقت استنتاج”. “إنها طريقة جديدة تمامًا للتفكير في كيفية تدريب هذه النماذج.”