في حكايات الخيال العلمي ، غالبًا ما يقوم الذكاء الاصطناعي بتشغيل جميع أنواع الروبوتات الذكية والقدرة والأحيان الواقعة. يتمثل أحد القيود الكشف عن أفضل الذكاء الاصطناعي اليوم في أنه ، في الوقت الحالي ، لا يزال محاصراً بشكل مباشر داخل نافذة الدردشة.
أشارت Google DeepMind إلى خطة لتغيير اليوم – من المفترض أنه ناقص الجزء المقتلة – من خلال الإعلان عن نسخة جديدة من النموذج الجوزاء النموذجية التي تدمر اللغة والرؤية والعمل البدني معًا لتشغيل مجموعة من الروبوتات الأكثر قدرة والتكيف ، وربما مفيدة.
في سلسلة من مقاطع الفيديو التوضيحية ، عرضت الشركة العديد من الروبوتات المجهزة بالنموذج الجديد ، تسمى Robotics Gemini ، معالجة العناصر رداً على الأوامر المنطوقة: ورق روبوت أذرع ، وتسليم الخضار ، وتوضع برفق زوج من النظارات في حالة ، واستكمال المهام الأخرى. تعتمد الروبوتات على النموذج الجديد لتوصيل العناصر المرئية مع الإجراءات المحتملة من أجل القيام بما قيل لهم. يتم تدريب النموذج بطريقة تسمح بتعميم السلوك عبر أجهزة مختلفة تمامًا.
أعلنت Google DeepMind أيضًا عن إصدار من نموذجه يسمى Gemini Robotics-ER (للتفكير المجسد) ، والذي يحتوي على فهم بصري ومكاني. تتمثل الفكرة في استخدام باحثو الروبوت الآخرين هذا النموذج لتدريب نماذجهم الخاصة للتحكم في تصرفات الروبوتات.
في مظاهرة فيديو ، استخدم باحثو Google Deepmind النموذج للتحكم في روبوت بشري يسمى Apollo ، من بدء التشغيل AppTronik. يتحدث الروبوت مع الإنسان ويحرك الحروف حول الطاولة عند توجيه تعليمات إليه.
وقال كانيشكا راو ، باحثة روبوتات في Google Deepmind التي قادت العمل ، في مؤتمر صحفي قبل إعلان اليوم: “لقد تمكنا من إحضار الفهم العالمي-فهم المفهوم العام-لـ Gemini 2.0 إلى الروبوتات”.
تقول Google DeepMind إن النموذج الجديد قادر على التحكم في روبوتات مختلفة بنجاح في مئات السيناريوهات المحددة التي لم يتم تضمينها سابقًا في تدريبهم. وقال راو: “بمجرد أن يكون لنموذج الروبوت فهم مفهوم عام ، يصبح الأمر أكثر عمومية ومفيدة”.
أثارت الاختراقات التي أدت إلى وجود بوتس chatbots ، بما في ذلك chatgpt من Openai و Google's Gemini ، في السنوات الأخيرة الأمل في ثورة مماثلة في الروبوتات ، ولكن لا تزال العقبات الكبيرة.