في الشهر الماضي، أعلنت شركة جوجل أظهر نموذج GameNGen AI أنه يمكن استخدام تقنيات نشر الصور المعممة لتوليد نسخة قابلة للتشغيل وقابلة للتشغيل من الموتالآن، يستخدم الباحثون بعض التقنيات المشابهة مع نموذج يسمى MarioVGG لمعرفة ما إذا كان الذكاء الاصطناعي قادرًا على إنشاء فيديو معقول لـ سوبر ماريو بروس ردًا على مدخلات المستخدم.
لا تزال نتائج نموذج MarioVGG – المتاح كنسخة أولية نشرتها شركة Virtuals Protocol للذكاء الاصطناعي المتاخمة للعملات المشفرة – تعرض الكثير من الخلل الواضح، كما أنه بطيء للغاية بالنسبة لأي شيء يقترب من اللعب في الوقت الفعلي. لكن النتائج تظهر كيف يمكن حتى للنموذج المحدود استنتاج بعض الفيزياء وديناميكيات اللعب المثيرة للإعجاب فقط من دراسة القليل من الفيديو وبيانات الإدخال.
ويأمل الباحثون أن يمثل هذا خطوة أولى نحو “إنتاج وإثبات مولد ألعاب فيديو موثوق به وقابل للتحكم” أو ربما حتى “استبدال تطوير الألعاب ومحركات الألعاب بالكامل باستخدام نماذج إنشاء الفيديو” في المستقبل.
مشاهدة 737000 إطارًا من ماريو
لتدريب نموذجهم، بدأ باحثو MarioVGG (تم إدراج مستخدمي GitHub erniechew وBrian Lim كمساهمين) بمجموعة بيانات عامة من سوبر ماريو بروس تتضمن اللعبة 280 مستوى من بيانات الإدخال والصور مرتبة لأغراض التعلم الآلي (تم إزالة المستوى 1-1 من بيانات التدريب حتى يمكن استخدام الصور منه في التقييم). تمت “معالجة” أكثر من 737000 إطار فردي في مجموعة البيانات هذه إلى أجزاء مكونة من 35 إطارًا حتى يتمكن النموذج من البدء في تعلم كيف تبدو النتائج الفورية للمدخلات المختلفة بشكل عام.
“لتبسيط موقف اللعب،” قرر الباحثون التركيز فقط على مدخلين محتملين في مجموعة البيانات: “الركض إلى اليمين” و”الركض إلى اليمين والقفز”. ومع ذلك، حتى مجموعة الحركة المحدودة هذه قدمت بعض الصعوبات لنظام التعلم الآلي، حيث كان على المعالج المسبق أن ينظر إلى الخلف لبضعة إطارات قبل القفز لمعرفة ما إذا كان “الركض” قد بدأ ومتى. كما كان لا بد من التخلص من أي قفزات تتضمن تعديلات في الهواء (مثل الزر “اليسار”) لأن “هذا من شأنه أن يُدخل ضوضاء إلى مجموعة بيانات التدريب”، كما كتب الباحثون.
بعد المعالجة المسبقة (وحوالي 48 ساعة من التدريب على بطاقة رسوميات RTX 4090 واحدة)، استخدم الباحثون عملية التفاف وإزالة الضوضاء القياسية لتوليد إطارات فيديو جديدة من صورة بداية ثابتة للعبة وإدخال نص (إما “تشغيل” أو “قفز” في هذه الحالة المحدودة). وبينما تستمر هذه التسلسلات المولدة لبضعة إطارات فقط، يمكن استخدام الإطار الأخير من تسلسل واحد كأول تسلسل جديد، مما يؤدي إلى إنشاء مقاطع فيديو للعبة بأي طول لا تزال تُظهر “لعبًا متماسكًا ومتسقًا”، وفقًا للباحثين.
سوبر ماريو 0.5
حتى مع كل هذه الإعدادات، لا ينتج برنامج MarioVGG مقاطع فيديو سلسة وناعمة لا يمكن تمييزها عن لعبة NES حقيقية. لتحقيق الكفاءة، قام الباحثون بتقليص دقة إطارات الإخراج من دقة NES 256×240 إلى دقة 64×48. كما قاموا بتكثيف وقت الفيديو الذي يبلغ 35 إطارًا إلى سبعة إطارات فقط يتم توزيعها “على فترات منتظمة”، مما أدى إلى إنشاء مقطع فيديو “للعبة” يبدو أكثر خشونة من إخراج اللعبة الحقيقي.
وعلى الرغم من هذه القيود، لا يزال نموذج MarioVGG يكافح حتى للوصول إلى معدل إنشاء فيديو في الوقت الفعلي، في هذه المرحلة. فقد استغرقت بطاقة RTX 4090 التي استخدمها الباحثون ست ثوانٍ كاملة لإنشاء تسلسل فيديو من ستة إطارات، وهو ما يمثل أكثر من نصف ثانية من الفيديو، حتى عند معدل إطارات محدود للغاية. ويعترف الباحثون بأن هذا “ليس عمليًا وودودًا لألعاب الفيديو التفاعلية”، لكنهم يأملون أن تؤدي التحسينات المستقبلية في تحديد الأوزان (وربما استخدام المزيد من موارد الحوسبة) إلى تحسين هذا المعدل.
ولكن مع وضع هذه الحدود في الاعتبار، يستطيع برنامج MarioVGG إنشاء مقطع فيديو معقول لماريو وهو يركض ويقفز من صورة بداية ثابتة، على غرار برنامج Genie الذي طورته شركة Google. وحتى أن النموذج كان قادرًا على “تعلم فيزياء اللعبة من إطارات الفيديو الموجودة في بيانات التدريب دون أي قواعد واضحة ومبرمجة مسبقًا”، كما كتب الباحثون. ويشمل هذا استنتاج سلوكيات مثل سقوط ماريو عندما يركض من حافة منحدر (بجاذبية معقولة) و(عادةً) إيقاف حركة ماريو للأمام عندما يكون بجوار عقبة، كما كتب الباحثون.
وبينما ركزت لعبة MarioVGG على محاكاة حركات ماريو، وجد الباحثون أن النظام قادر على تخيل عقبات جديدة لماريو أثناء تمرير الفيديو عبر مستوى متخيل. وكتب الباحثون أن هذه العقبات “متوافقة مع اللغة الرسومية للعبة”، ولكن لا يمكن التأثير عليها حاليًا من خلال مطالبات المستخدم (على سبيل المثال، وضع حفرة أمام ماريو وجعله يقفز فوقها).
فقط اصنعها
ولكن مثل كل نماذج الذكاء الاصطناعي الاحتمالية، فإن نموذج MarioVGG يميل إلى إعطاء نتائج غير مفيدة على الإطلاق في بعض الأحيان. وفي بعض الأحيان يعني هذا تجاهل مطالبات إدخال المستخدم (“نلاحظ أن نص إجراء الإدخال لا يتم الالتزام به طوال الوقت”، كما كتب الباحثون). وفي أحيان أخرى، يعني هذا الهلوسة بخلل بصري واضح: في بعض الأحيان يهبط ماريو داخل العوائق، ويركض عبر العوائق والأعداء، ويظهر بألوان مختلفة، وينكمش/ينمو من إطار إلى آخر، أو يختفي تمامًا لعدة إطارات قبل الظهور مرة أخرى.
يُظهِر مقطع فيديو سخيف بشكل خاص شاركه الباحثون ماريو وهو يسقط عبر الجسر، ويصبح تشيب تشيب، ثم يطير عائدًا عبر الجسور ويتحول إلى ماريو مرة أخرى. هذا هو النوع من الأشياء التي نتوقع رؤيتها من Wonder Flower، وليس مقطع فيديو ذكاء اصطناعي للنسخة الأصلية سوبر ماريو بروس
ويفترض الباحثون أن التدريب لفترة أطول على “بيانات لعب أكثر تنوعًا” قد يساعد في حل هذه المشكلات المهمة ويساعد نموذجهم على محاكاة أكثر من مجرد الجري والقفز بلا هوادة إلى اليمين. ومع ذلك، يظل MarioVGG بمثابة دليل ممتع على أن حتى بيانات التدريب والخوارزميات المحدودة يمكن أن تخلق بعض النماذج الأولية اللائقة للألعاب الأساسية.
ظهرت هذه القصة في الأصل على آرس تكنيكا.