يقول بولكيت أغراوال، الأستاذ المساعد في معهد ماساتشوستس للتكنولوجيا والذي يعمل في مجال الذكاء الاصطناعي والروبوتات، إن أحدث العروض التوضيحية لـ Google وOpenAI مثيرة للإعجاب وتظهر مدى سرعة تقدم نماذج الذكاء الاصطناعي متعدد الوسائط. أطلقت OpenAI نظام GPT-4V، وهو نظام قادر على تحليل الصور في سبتمبر 2023. وقد أعجب بقدرة Gemini على فهم الفيديو المباشر – على سبيل المثال، تفسير التغييرات التي تم إجراؤها على رسم تخطيطي على السبورة البيضاء بشكل صحيح في الوقت الفعلي. يبدو أن الإصدار الجديد من ChatGPT من OpenAI قادر على القيام بنفس الشيء.
يقول أغراوال إن المساعدين الذين عرضتهم شركتا Google وOpenAI يمكن أن يوفروا بيانات تدريب جديدة للشركات بينما يتفاعل المستخدمون مع النماذج في العالم الحقيقي. ويضيف: “لكن يجب أن تكون مفيدة”. “السؤال الكبير هو ما الذي سيستخدمه الناس من أجله، الأمر ليس واضحًا تمامًا.”
تقول Google إن Astra سيتم توفيرها من خلال واجهة جديدة تسمى Gemini Live في وقت لاحق من هذا العام. وقال هاسابيس إن الشركة لا تزال تختبر العديد من النماذج الأولية للنظارات الذكية ولم تتخذ قرارًا بعد بشأن ما إذا كانت ستطلق أيًا منها.
قد توفر قدرات Astra لشركة Google فرصة لإعادة تشغيل نسخة من نظارتها الذكية Glass، على الرغم من تعثر الجهود المبذولة لبناء أجهزة مناسبة للذكاء الاصطناعي التوليدي حتى الآن. على الرغم من العروض التوضيحية المبهرة لـ OpenAI وGoogle، لا تستطيع الوسائط المتعددة الوسائط فهم العالم المادي والأشياء الموجودة فيه بشكل كامل، مما يضع قيودًا على ما سيكونون قادرين على فعله.
يقول بريندن ليك، الأستاذ المشارك في جامعة نيويورك والذي يستخدم الذكاء الاصطناعي لاستكشاف الذكاء البشري: “إن القدرة على بناء نموذج عقلي للعالم المادي من حولك أمر ضروري للغاية لبناء المزيد من الذكاء البشري”.
ويشير ليك إلى أن أفضل نماذج الذكاء الاصطناعي اليوم لا تزال تتمحور حول اللغة، لأن الجزء الأكبر من تعلمها يأتي من النصوص المأخوذة من الكتب والويب. وهذا يختلف جوهريًا عن كيفية تعلم اللغة من قبل البشر، الذين يلتقطونها أثناء التفاعل مع العالم المادي. ويقول عن عملية إنشاء نماذج متعددة الوسائط: “إنه أمر عكسي مقارنة بنمو الطفل”.
يعتقد هاسابيس أن إضفاء فهم أعمق للعالم المادي على نماذج الذكاء الاصطناعي سيكون أمرًا أساسيًا لمزيد من التقدم في الذكاء الاصطناعي، ولجعل أنظمة مثل Astra أكثر قوة. ويقول إن الحدود الأخرى للذكاء الاصطناعي، بما في ذلك عمل Google DeepMind في برامج الذكاء الاصطناعي التي تمارس الألعاب، يمكن أن تساعد. ويأمل هاسابيس وآخرون أن يكون هذا العمل ثوريًا في مجال الروبوتات، وهو مجال تستثمر فيه جوجل أيضًا.
وقال هاسابيس، في إشارة إلى نقطة مستقبلية مأمولة ولكن غير محددة إلى حد كبير، حيث يمكن للآلات أن تفعل أي شيء وكل شيء يستطيع العقل البشري القيام به: “إن المساعد العالمي متعدد الوسائط يسير على الطريق الصحيح نحو الذكاء العام الاصطناعي”. “هذا ليس الذكاء الاصطناعي العام أو أي شيء آخر، ولكنه بداية شيء ما.”