قد تبدو العروض التوضيحية لعملاء الذكاء الاصطناعي مذهلة، ولكن الحصول على أداء التكنولوجيا بشكل موثوق ودون أخطاء مزعجة (أو مكلفة) في الحياة الواقعية يمكن أن يمثل تحديًا. يمكن للنماذج الحالية الإجابة على الأسئلة والتحدث بمهارة تشبه المهارات البشرية تقريبًا، وهي العمود الفقري لروبوتات الدردشة مثل ChatGPT من OpenAI وGemini من Google. يمكنهم أيضًا تنفيذ المهام على أجهزة الكمبيوتر عند إعطائهم أمرًا بسيطًا عن طريق الوصول إلى شاشة الكمبيوتر بالإضافة إلى أجهزة الإدخال مثل لوحة المفاتيح ولوحة التتبع، أو من خلال واجهات البرامج ذات المستوى المنخفض.
تقول Anthropic أن كلود يتفوق على عملاء الذكاء الاصطناعي الآخرين في العديد من المعايير الرئيسية بما في ذلك SWE-bench، الذي يقيس مهارات تطوير البرمجيات لدى الوكيل، وOSWorld، الذي يقيس قدرة الوكيل على استخدام نظام تشغيل الكمبيوتر. ولم يتم التحقق بعد من هذه المزاعم بشكل مستقل. يقول Anthropic أن كلود يؤدي المهام في OSWorld بشكل صحيح بنسبة 14.9 بالمائة من الوقت. وهذا أقل بكثير من البشر، الذين يسجلون بشكل عام حوالي 75 بالمائة، ولكنه أعلى بكثير من أفضل العوامل الحالية – بما في ذلك GPT-4 من OpenAI – والتي تنجح بنسبة 7.7 بالمائة تقريبًا من الوقت.
تدعي أنثروبيك أن العديد من الشركات تقوم بالفعل باختبار النسخة الوكيلة من كلود. يتضمن ذلك Canva، الذي يستخدمه لأتمتة مهام التصميم والتحرير، وReplit، الذي يستخدم النموذج لأعمال البرمجة الروتينية. ومن بين المستخدمين الأوائل الآخرين The Browser Company وAsana وNotion.
يقول أوفير بريس، باحث ما بعد الدكتوراه في جامعة برينستون والذي ساعد في تطوير SWE-bench، إن الذكاء الاصطناعي الوكيل يميل إلى الافتقار إلى القدرة على التخطيط للمستقبل، وغالبًا ما يكافح للتعافي من الأخطاء. ويقول: “من أجل إظهار فائدتها، يجب علينا الحصول على أداء قوي وفقًا لمعايير صارمة وواقعية”، مثل التخطيط بشكل موثوق لمجموعة واسعة من الرحلات للمستخدم وحجز جميع التذاكر اللازمة.
يشير كابلان إلى أن كلود يمكنه بالفعل استكشاف بعض الأخطاء وإصلاحها بشكل مدهش. عند مواجهة خطأ طرفي عند محاولة بدء تشغيل خادم ويب، على سبيل المثال، عرف النموذج كيفية مراجعة الأمر الخاص به لإصلاحه. لقد تبين أيضًا أنه كان عليه تمكين النوافذ المنبثقة عندما وصل إلى طريق مسدود أثناء تصفح الويب.
تتسابق العديد من شركات التكنولوجيا الآن لتطوير وكلاء الذكاء الاصطناعي أثناء سعيهم للحصول على حصة في السوق والشهرة. في الواقع، قد لا يمر وقت طويل قبل أن يصبح لدى العديد من المستخدمين وكلاء في متناول أيديهم. وتقول مايكروسوفت، التي ضخت ما يزيد عن 13 مليار دولار في OpenAI، إنها تختبر وكلاء يمكنهم استخدام أجهزة الكمبيوتر التي تعمل بنظام Windows. تستكشف أمازون، التي استثمرت بكثافة في Anthropic، كيف يمكن للوكلاء التوصية بالسلع لعملائها وشرائها في نهاية المطاف.
تقول سونيا هوانغ، الشريكة في شركة سيكويا الاستثمارية التي تركز على شركات الذكاء الاصطناعي، إنه على الرغم من كل الإثارة المحيطة بوكلاء الذكاء الاصطناعي، فإن معظم الشركات في الواقع تقوم فقط بإعادة تسمية الأدوات التي تعمل بالذكاء الاصطناعي. وفي حديثها إلى WIRED قبل نشرة الأخبار الأنثروبولوجية، قالت إن التكنولوجيا تعمل بشكل أفضل حاليًا عند تطبيقها في مجالات ضيقة مثل العمل المتعلق بالبرمجة. وتقول: “أنت بحاجة إلى اختيار المساحات التي تنطوي على مشكلات، حيث إذا فشل النموذج، فلا بأس بذلك”. “تلك هي مجالات المشاكل التي ستظهر فيها الشركات المحلية الوكيلة حقًا.”
أحد التحديات الرئيسية التي تواجه الذكاء الاصطناعي الوكيل هو أن الأخطاء يمكن أن تكون أكثر إشكالية بكثير من الرد المشوش لروبوتات الدردشة. لقد فرضت الأنثروبيك قيودًا معينة على ما يمكن أن يفعله كلود، على سبيل المثال، الحد من قدرته على استخدام بطاقة الائتمان الخاصة بشخص ما لشراء الأشياء.
إذا أمكن تجنب الأخطاء بشكل جيد بما فيه الكفاية، كما تقول مطبعة جامعة برينستون، فقد يتعلم المستخدمون رؤية الذكاء الاصطناعي – وأجهزة الكمبيوتر – بطريقة جديدة تمامًا. يقول: “أنا متحمس للغاية لهذا العصر الجديد”.