تم طرح نموذج Gemini AI الخاص بشركة Alphabet للعامة لمدة شهرين فقط، لكن الشركة أطلقت بالفعل ترقية. يعد Gemini Pro 1.5، الذي يتم إطلاقه بتوفر محدود اليوم، أقوى من سابقه ويمكنه التعامل مع كميات هائلة من إدخال النص أو الفيديو أو الصوت في المرة الواحدة.
ويقارن ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind، التي طورت النموذج الجديد، قدرته الهائلة على الإدخال بالذاكرة العاملة للشخص، وهو أمر اكتشفه منذ سنوات كعالم أعصاب. ويقول: “إن الشيء العظيم في هذه القدرات الأساسية هو أنها تطلق العنان لنوع من الأشياء الإضافية التي يمكن للنموذج القيام بها”.
في عرض توضيحي، أظهر Google DeepMind برنامج Gemini Pro 1.5 وهو يقوم بتحليل ملف PDF مكون من 402 صفحة لنص اتصالات Apollo 11. طُلب من النموذج العثور على أجزاء فكاهية وتسليط الضوء على عدة لحظات، مثل عندما قال رواد الفضاء أن تأخير الاتصالات كان بسبب كسر شطيرة. أظهر عرض توضيحي آخر النموذج وهو يجيب على أسئلة حول إجراءات محددة في فيلم باستر كيتون. كان من الممكن أن يجيب الإصدار السابق من Gemini على هذه الأسئلة بكميات أقصر بكثير من النصوص أو مقاطع الفيديو. وتأمل جوجل أن تسمح الإمكانيات الجديدة للمطورين ببناء أنواع جديدة من التطبيقات أعلى النموذج.
يقول أوريول فينيالز، عالم الأبحاث في Google DeepMind: “إنه شعور سحري حقًا كيف يقوم النموذج بهذا النوع من التفكير عبر كل صفحة وكل كلمة”.
تقول Google إن Gemini Pro 1.5 يمكنه استيعاب وفهم ساعة من الفيديو، أو 11 ساعة من الصوت، أو 700000 كلمة، أو 30000 سطر من التعليمات البرمجية في وقت واحد – أكثر بعدة مرات من نماذج الذكاء الاصطناعي الأخرى، بما في ذلك OpenAI’s GPT-4، الذي يشغل ChatGPT. ولم تكشف الشركة عن التفاصيل الفنية وراء هذا العمل الفذ. يقول هاسابيس إن أحد الاستخدامات للنماذج التي يمكنها التعامل مع كميات كبيرة من النص، والتي اختبرها الباحثون في Google DeepMind، هو تحديد النقاط المهمة في مناقشات Discord مع آلاف الرسائل.
يعد Gemini Pro 1.5 أيضًا أكثر قدرة – على الأقل بالنسبة لحجمه – وفقًا لقياس نتيجة النموذج في العديد من المعايير الشائعة. ويستغل النموذج الجديد تقنية اخترعها باحثو جوجل من قبل للحصول على المزيد من الأداء دون الحاجة إلى المزيد من القوة الحاسوبية. هذه التقنية، التي تسمى خليط الخبراء، تقوم بشكل انتقائي بتنشيط أجزاء من بنية النموذج الأكثر ملاءمة لحل مهمة معينة، مما يجعلها أكثر كفاءة للتدريب والتشغيل.
تقول Google إن Gemini Pro 1.5 يتمتع بنفس القدرة التي يتمتع بها أقوى عروضه، Gemini Ultra، في العديد من المهام، على الرغم من كونه نموذجًا أصغر بكثير. يقول هاسابيس إنه لا يوجد سبب يمنع تطبيق نفس التقنية المستخدمة لتحسين Gemini Pro لتعزيز Gemini Ultra.
سيتم توفير الإصدار الذي تمت ترقيته من Gemini Pro للمطورين من خلال AI Studio، وهو وضع حماية لاختبار قدرات النموذج، ولعدد محدود من المطورين من خلال واجهة برمجة تطبيقات Vertex AI Cloud Platform من Google. لا يوجد موعد بعد للإصدار العام.
تطلق Google أيضًا أدوات جديدة لمساعدة المطورين على استخدام Gemini في تطبيقاتهم، بما في ذلك طرق جديدة للاستفادة من قدرة النماذج على تحليل الفيديو والصوت. وقالت الشركة أيضًا إنها تضيف ميزات جديدة مدعومة ببرنامج Gemini إلى أداة الترميز المستندة إلى الويب، Project IDX، بما في ذلك طرق الذكاء الاصطناعي لتصحيح الأخطاء واختبار التعليمات البرمجية.
تعد سرعة ترقية Gemini علامة على سباق غاضب للذكاء الاصطناعي بدأ بنجاح ChatGPT. في وقت سابق من هذا الأسبوع، أعلنت OpenAI أنها تمنح ChatGPT القدرة على تذكر المعلومات المفيدة من المحادثات على مدى فترات طويلة من الزمن. في الأسبوع الماضي، أعادت شركة جوجل تسمية برنامج الدردشة الآلي الخاص بها Bard وأعلنت أن برنامج Gemini Ultra سيكون متاحًا باشتراك مدفوع.
إن الوتيرة المحمومة للتقدم في مجال الذكاء الاصطناعي التوليدي تتعارض مع المخاوف بشأن المخاطر التي قد تشكلها التكنولوجيا. تقول Google إنها خضعت Gemini Pro 1.5 لاختبارات مكثفة وأن توفير وصول محدود يوفر طريقة لجمع التعليقات حول المخاطر المحتملة. وتقول الشركة إنها أتاحت أيضًا للباحثين في معهد سلامة الذكاء الاصطناعي في المملكة المتحدة إمكانية الوصول إلى أقوى نماذجها حتى يتمكنوا من اختبارها.
ويقول هاسابيس إنه يتوقع المزيد من التقدم في الأشهر المقبلة. ويقول: “هذا إيقاع جديد، أحاول أن أستمده من عقلية الشركات الناشئة”.