إن أشهر الخدمات الافتراضية الموجودة اليوم – Siri و Alexa و Google Assistant – أقل إثارة للإعجاب بكثير من أحدث برامج الدردشة الآلية التي تعمل بالذكاء الاصطناعي مثل ChatGPT أو Google Bard. عندما يتم دمج ثمار طفرة الذكاء الاصطناعي الحديثة بشكل صحيح في تلك الروبوتات المساعدة القديمة، فمن المؤكد أنها ستصبح أكثر إثارة للاهتمام.
للحصول على معاينة لما هو التالي، أخذت مساعدًا صوتيًا تجريبيًا يعمل بالذكاء الاصطناعي يسمى vimGPT لإجراء اختبار التشغيل. عندما طلبت منه “الاشتراك في WIRED”، كان عليه العمل بمهارة مثيرة للإعجاب، والعثور على صفحة الويب الصحيحة والوصول إلى النموذج عبر الإنترنت. إذا كان لديه حق الوصول إلى تفاصيل بطاقتي الائتمانية، فأنا متأكد من أنه كان سيتمكن من ذلك.
على الرغم من أنه ليس اختبار ذكاء للإنسان، إلا أن شراء شيء ما عبر الإنترنت على شبكة الإنترنت المفتوحة يعد أكثر تعقيدًا وتحديًا من المهام التي يتعامل معها عادةً Siri أو Alexa أو Google Assistant. (مثل إعداد التذكيرات والحصول على النتائج الرياضية في عام 2010). ويتطلب الأمر فهم الطلب، والوصول إلى الويب للعثور على الموقع الصحيح، ثم التفاعل بشكل صحيح مع الصفحة أو النماذج ذات الصلة. انتقل مساعدي بشكل صحيح إلى صفحة الاشتراك في WIRED ووجد النموذج هناك – من المفترض أنه أعجب باحتمال تلقي جميع صحافة WIRED المسلية والثاقبة مقابل دولار واحد فقط في الشهر – لكنه سقط في العقبة الأخيرة لأنه كان يفتقر إلى بطاقة الائتمان. يستخدم VimGPT متصفح Google مفتوح المصدر Chromium الذي لا يخزن معلومات المستخدم. أظهرت تجاربي الأخرى أن الوكيل ماهر جدًا في البحث عن مقاطع فيديو مضحكة للقطط أو العثور على رحلات جوية رخيصة.
VimGPT هو برنامج تجريبي مفتوح المصدر تم إنشاؤه بواسطة Ishan Shah، وهو مطور وحيد، وليس منتجًا قيد التطوير، ولكن يمكنك المراهنة على أن Apple وGoogle وغيرهما يقومون بتجارب مماثلة بهدف ترقية Siri والمساعدين الآخرين. تم تصميم VimGPT على GPT-4V، وهو الإصدار متعدد الوسائط من نموذج اللغة الشهير لـ OpenAI. من خلال تحليل الطلب، يمكن تحديد ما يجب النقر عليه أو كتابته بشكل أكثر موثوقية من البرامج النصية فقط، والتي يجب أن تحاول فهم الويب عن طريق فك تشابك HTML الفوضوي. يقول شاه، الذي يقول إنه بنى vimGPT في بضعة أيام فقط: “بعد عام من الآن، أتوقع أن تبدو تجربة استخدام الكمبيوتر مختلفة تمامًا”. “ستتطلب معظم التطبيقات قدرًا أقل من النقر والمزيد من الدردشة، حيث يصبح الوكلاء جزءًا لا يتجزأ من تصفح الويب.”
شاه ليس الشخص الوحيد الذي يعتقد أن الخطوة المنطقية التالية بعد برامج الدردشة الآلية مثل ChatGPT هي العملاء الذين يستخدمون أجهزة الكمبيوتر ويتجولون عبر الويب. ويعتقد رسلان سالاخوتدينوف، الأستاذ في جامعة كارنيجي ميلون والذي كان مديرًا لأبحاث الذكاء الاصطناعي في شركة أبل من عام 2016 إلى عام 2020، أن سيري والمساعدين الآخرين يستعدون لترقية الذكاء الاصطناعي بشكل كبير. يقول سالاخوتدينوف: “التطور التالي سيكون وكلاء يمكنهم إنجاز مهام مفيدة”. يقول إن ربط Siri بالذكاء الاصطناعي مثل تشغيل ChatGPT سيكون مفيدًا، “ولكن سيكون أكثر تأثيرًا بكثير إذا طلبت من Siri القيام بأشياء، وسيحل مشاكلي نيابةً عني”.
قام صلاح الدينوف وطلابه بتطوير العديد من بيئات المحاكاة المصممة لاختبار وصقل مهارات مساعدي الذكاء الاصطناعي الذين يمكنهم إنجاز المهام. وهي تتضمن موقعًا وهميًا للتجارة الإلكترونية، ونسخة وهمية من لوحة رسائل تشبه موقع Reddit، وموقعًا إلكترونيًا للإعلانات المبوبة. يُطلق على ساحة الاختبار الافتراضية هذه لوضع الوكلاء من خلال خطواتهم اسم VisualWebArena.