أعلنت شركة Meta للتو عن نموذج الذكاء الاصطناعي الخاص بها الذي يركز على الوسائط، والذي يسمى Movie Gen، والذي يمكن استخدامه لإنشاء مقاطع فيديو ومقاطع صوتية واقعية.
شاركت الشركة عدة مقاطع مدتها 10 ثوانٍ تم إنشاؤها باستخدام Movie Gen، بما في ذلك فرس النهر الصغير Moo Deng-esque وهو يسبح حوله، لإظهار قدراته. على الرغم من أن الأداة ليست متاحة للاستخدام بعد، إلا أن إعلان Movie Gen يأتي بعد وقت قصير من حدث Meta Connect، الذي عرض أجهزة جديدة ومحدثة وأحدث إصدار من نموذج اللغة الكبير، Llama 3.2.
بالذهاب إلى ما هو أبعد من إنشاء مقاطع تحويل النص إلى فيديو مباشرة، يمكن لنموذج Movie Gen إجراء تعديلات مستهدفة على مقطع موجود، مثل إضافة كائن إلى يد شخص ما أو تغيير مظهر السطح. في أحد مقاطع الفيديو النموذجية من Meta، تم تحويل امرأة ترتدي سماعة رأس VR لتبدو وكأنها ترتدي منظار Steampunk.
يمكن إنشاء مقاطع صوتية جنبًا إلى جنب مع مقاطع الفيديو باستخدام Movie Gen. في مقاطع العينة، يقف رجل يعمل بالذكاء الاصطناعي بالقرب من شلال مع بقع مسموعة وأصوات سيمفونية مفعمة بالأمل؛ محرك السيارة الرياضية يصدر صوت خرخرة وإطارات تصرخ أثناء اندفاعها حول المسار، وينزلق الثعبان على طول أرضية الغابة، مصحوبًا بأبواق مثيرة.
شاركت Meta بعض التفاصيل الإضافية حول Movie Gen في ورقة بحثية صدرت يوم الجمعة. يتكون Movie Gen Video من 30 مليار معلمة، بينما يتكون Movie Gen Audio من 13 مليار معلمة. (يتوافق عدد معلمات النموذج تقريبًا مع مدى قدرته؛ وعلى النقيض من ذلك، يحتوي الإصدار الأكبر من Llama 3.1 على 405 مليار معلمة.) يمكن لـ Movie Gen إنتاج مقاطع فيديو عالية الوضوح تصل مدتها إلى 16 ثانية، وتدعي Meta أنها تتفوق في الأداء على النماذج المنافسة. في جودة الفيديو الشاملة.
في وقت سابق من هذا العام، أظهر الرئيس التنفيذي مارك زوكربيرج ميزة Imagine Me الخاصة بـ Meta AI، حيث يمكن للمستخدمين تحميل صورة لأنفسهم وتمثيل وجوههم في سيناريوهات متعددة، من خلال نشر صورة AI لنفسه وهو يغرق في سلاسل ذهبية على Threads. من الممكن إصدار نسخة فيديو لميزة مماثلة باستخدام نموذج Movie Gen، فكر في الأمر كنوع من ElfYourself على المنشطات.
ما هي المعلومات التي تم تدريب Movie Gen عليها؟ التفاصيل ليست واضحة في منشور إعلان Meta: “لقد قمنا بتدريب هذه النماذج على مجموعة من مجموعات البيانات المرخصة والمتاحة للجمهور.” تظل مصادر بيانات التدريب وما يمكن استخلاصه من الويب مشكلة مثيرة للجدل بالنسبة لأدوات الذكاء الاصطناعي التوليدية، ونادرًا ما يكون من المعروف للعامة ما هو النص أو الفيديو أو المقاطع الصوتية التي تم استخدامها لإنشاء أي من النماذج الرئيسية.
سيكون من المثير للاهتمام معرفة المدة التي ستستغرقها Meta لجعل Movie Gen متاحًا على نطاق واسع. تشير مدونة الإعلان بشكل غامض إلى “إصدار مستقبلي محتمل”. للمقارنة، أعلنت OpenAI عن نموذج فيديو الذكاء الاصطناعي الخاص بها، المسمى Sora، في وقت سابق من هذا العام ولم تجعله متاحًا بعد للجمهور أو تشارك أي تاريخ إصدار قادم (على الرغم من أن WIRED تلقت بعض مقاطع Sora الحصرية من الشركة للتحقيق في التحيز ).
وبالنظر إلى إرث Meta كشركة وسائط اجتماعية، فمن الممكن أن تبدأ الأدوات التي تدعمها Movie Gen في الظهور، في نهاية المطاف، داخل Facebook وInstagram وWhatsApp. في شهر سبتمبر، شاركت شركة Google المنافسة خططًا لإتاحة جوانب من نموذج فيديو Veo الخاص بها لمنشئي المحتوى داخل YouTube Shorts في وقت ما من العام المقبل.
في حين أن شركات التكنولوجيا الكبرى لا تزال متوقفة عن إطلاق نماذج الفيديو بالكامل للجمهور، يمكنك تجربة أدوات فيديو الذكاء الاصطناعي الآن من الشركات الناشئة الصغيرة والقادمة، مثل Runway وPika. قم بتجربة Pikaffects إذا كان لديك فضول من أي وقت مضى حول ما سيكون عليه الحال عندما ترى نفسك محطمًا بشكل كرتوني بواسطة مكبس هيدروليكي أو تذوب فجأة في بركة مياه.