يجلس بيتر تشين، الرئيس التنفيذي لشركة برمجيات الروبوتات Covariant، أمام واجهة chatbot تشبه تلك المستخدمة للتواصل مع ChatGPT. “أرني الحقيبة التي أمامك،” كتب. ردًا على ذلك، يظهر مقطع فيديو يكشف عن ذراع روبوتية فوق سلة تحتوي على عناصر مختلفة – زوج من الجوارب وأنبوب من رقائق البطاطس وتفاحة بينها.
يمكن لروبوت الدردشة مناقشة العناصر التي يراها، ولكن يمكنه أيضًا التعامل معها. عندما تقترح WIRED أن يطلب تشين منه الاستيلاء على قطعة من الفاكهة، تصل ذراعه إلى الأسفل، ويمسك التفاحة بلطف، ثم ينقلها إلى صندوق آخر قريب.
يعد برنامج الدردشة الآلي العملي هذا خطوة نحو منح الروبوتات نوع القدرات العامة والمرنة التي تعرضها برامج مثل ChatGPT. هناك أمل في أن يتمكن الذكاء الاصطناعي أخيرًا من حل الصعوبة الطويلة الأمد المتمثلة في برمجة الروبوتات وجعلها تقوم بأكثر من مجرد مجموعة محدودة من الأعمال المنزلية.
يقول تشين: «ليس من المثير للجدل على الإطلاق في هذه المرحلة القول بأن النماذج الأساسية هي مستقبل الروبوتات»، مستخدمًا مصطلحًا يشير إلى نماذج التعلم الآلي واسعة النطاق ذات الأغراض العامة والتي تم تطويرها لمجال معين. إن برنامج الدردشة الآلي العملي الذي أظهره لي مدعوم بنموذج طورته شركة Covariant يسمى RFM-1، لنموذج Robot Foundation Model. مثل أولئك الذين يقفون وراء ChatGPT، وGemini من Google، وغيرها من روبوتات الدردشة، فقد تم تدريبها بكميات كبيرة من النصوص، ولكن تم أيضًا تغذيتها بالفيديو والتحكم في الأجهزة وبيانات الحركة من عشرات الملايين من الأمثلة على حركات الروبوتات مصدرها العمل في العالم المادي. عالم.
بما في ذلك البيانات الإضافية، فإنه ينتج نموذجًا لا يتقن اللغة فحسب، بل يتقن أيضًا العمل، ويكون قادرًا على الربط بين الاثنين. لا يستطيع RFM-1 الدردشة والتحكم في ذراع الروبوت فحسب، بل يمكنه أيضًا إنشاء مقاطع فيديو تظهر الروبوتات وهي تقوم بمهام مختلفة. عندما يُطلب منك ذلك، سيُظهر RFM-1 كيف يجب على الروبوت انتزاع كائن من سلة المهملات المزدحمة. يقول تشين: “يمكن للروبوتات أن تستوعب كل هذه الطرائق المختلفة التي تهم الروبوتات، ويمكنها أيضًا إنتاج أي منها”. “إنه أمر مذهل بعض الشيء.”
أظهر النموذج أيضًا أنه يمكنه تعلم التحكم في الأجهزة المماثلة غير الموجودة في بيانات التدريب الخاصة به. ومع المزيد من التدريب، قد يعني هذا أن نفس النموذج العام يمكن أن يشغل روبوتًا شبيهًا بالبشر، كما يقول بيتر أبيل، المؤسس المشارك وكبير العلماء في شركة كوفاريانت، والذي كان رائدًا في تعلم الروبوتات. وفي عام 2010، قاد مشروعًا لتدريب الروبوت على طي المناشف -ولو ببطء- وعمل أيضًا في شركة OpenAI قبل أن تتوقف عن إجراء أبحاث الروبوت.
تبيع شركة Covariant، التي تأسست في عام 2017، حاليًا برامج تستخدم التعلم الآلي للسماح لأذرع الروبوت باختيار العناصر من الصناديق الموجودة في المستودعات، ولكنها عادةً ما تقتصر على المهمة التي تدربوا عليها. يقول أبيل إن نماذج مثل RFM-1 يمكن أن تسمح للروبوتات بتحويل مقابضها إلى مهام جديدة بسلاسة أكبر. ويقارن استراتيجية Covariant بكيفية استخدام Tesla للبيانات من السيارات التي باعتها لتدريب خوارزميات القيادة الذاتية الخاصة بها. يقول: “إنه نفس الشيء الذي نلعبه هنا”.
أبيل وزملاؤه في Covariant ليسوا علماء الروبوتات الوحيدين الذين يأملون في أن تؤدي قدرات النماذج اللغوية الكبيرة وراء ChatGPT والبرامج المماثلة إلى إحداث ثورة في مجال الروبوتات. وقد أظهرت مشاريع مثل RFM-1 نتائج مبكرة واعدة. ولكن ما هي كمية البيانات التي قد تكون مطلوبة لتدريب النماذج التي تصنع الروبوتات التي تتمتع بقدرات أكثر عمومية – وكيفية جمعها – هو سؤال مفتوح.