كانت لعبة الدبلوماسية تشكل تحديًا أكبر بكثير لباحثي الذكاء الاصطناعي، وهي اللعبة المفضلة لدى السياسيين مثل جون إف كينيدي وهنري كيسنجر. بدلاً من خصمين اثنين فقط، تضم اللعبة سبعة لاعبين قد يكون من الصعب قراءة دوافعهم. للفوز، يجب على اللاعب التفاوض، وإقامة ترتيبات تعاونية يمكن لأي شخص انتهاكها في أي وقت. الدبلوماسية معقدة للغاية لدرجة أن مجموعة من ميتا شعرت بالسعادة عندما قام برنامج الذكاء الاصطناعي شيشرون، في عام 2022، بتطوير “لعب على المستوى البشري” على مدار 40 لعبة. على الرغم من أنها لم تهزم بطل العالم، إلا أن شيشرون أبلى بلاءً حسنًا بما يكفي ليحتل مكانًا بين أفضل 10% من المشاركين من البشر.
أثناء المشروع، اندهش جاكوب – وهو عضو في فريق Meta – من حقيقة أن شيشرون اعتمد على نموذج لغة لإنشاء حواره مع لاعبين آخرين. لقد شعر بإمكانات غير مستغلة. وقال إن هدف الفريق “كان بناء أفضل نموذج لغوي يمكننا استخدامه لأغراض لعب هذه اللعبة”. ولكن ماذا لو ركزوا بدلاً من ذلك على بناء أفضل لعبة ممكنة لتحسين أداء نماذج اللغات الكبيرة؟
التفاعلات التوافقية
في عام 2023، بدأ جاكوب في متابعة هذا السؤال في معهد ماساتشوستس للتكنولوجيا، حيث عمل مع ييكانج شين، وجابرييل فارينا، ومستشاره، جاكوب أندرياس، على ما سيصبح لعبة الإجماع. جاءت الفكرة الأساسية من تصور محادثة بين شخصين كلعبة تعاونية، حيث يحدث النجاح عندما يفهم المستمع ما يحاول المتحدث نقله. على وجه الخصوص، تم تصميم لعبة الإجماع لمواءمة نظامي نموذج اللغة – المولد، الذي يتعامل مع الأسئلة التوليدية، والمميز، الذي يتعامل مع الأسئلة التمييزية.
وبعد بضعة أشهر من التوقف والبدء، قام الفريق ببناء هذا المبدأ في لعبة كاملة. أولا، يتلقى المولد سؤالا. يمكن أن يأتي من إنسان أو من قائمة موجودة مسبقًا. على سبيل المثال، “أين ولد باراك أوباما؟” يحصل المولد بعد ذلك على بعض ردود المرشحين، دعنا نقول هونولولو وشيكاغو ونيروبي. مرة أخرى، يمكن أن تأتي هذه الخيارات من إنسان، أو قائمة، أو بحث يتم إجراؤه بواسطة نموذج اللغة نفسه.
ولكن قبل الإجابة، يتم إخبار المولد أيضًا ما إذا كان يجب عليه الإجابة على السؤال بشكل صحيح أو غير صحيح، اعتمادًا على نتائج رمية العملة العادلة.
إذا كانت رؤوسًا، فإن الآلة تحاول الإجابة بشكل صحيح. يرسل المولد السؤال الأصلي مع الإجابة المختارة إلى المُميِّز. إذا قرر القائم بالتمييز أن المولد أرسل الاستجابة الصحيحة عمدًا، يحصل كل منهم على نقطة واحدة، كنوع من الحافز.
إذا هبطت العملة على الذيل، يرسل المولد ما يعتقد أنه إجابة خاطئة. إذا قرر القائم بالتمييز أنه تم إعطاؤه إجابة خاطئة عمدًا، فسيحصل كلاهما على نقطة مرة أخرى. الفكرة هنا هي تحفيز الاتفاق. وأوضح جاكوب: “إنه مثل تعليم كلب خدعة”. “أنت تمنحهم مكافأة عندما يفعلون الشيء الصحيح.”
يبدأ كل من المولد والمميز أيضًا ببعض “المعتقدات” الأولية. تأخذ هذه شكل توزيع احتمالي يتعلق بالاختيارات المختلفة. على سبيل المثال، قد يعتقد المولد، بناءً على المعلومات التي حصل عليها من الإنترنت، أن هناك احتمالًا بنسبة 80 بالمائة أن أوباما ولد في هونولولو، واحتمال 10 بالمائة أنه ولد في شيكاغو، واحتمال 5 بالمائة أن يكون ولد في نيروبي، واحتمال 10 بالمائة أن يكون ولد في شيكاغو، واحتمال 5 بالمائة أن يكون ولد في نيروبي. فرصة 5 بالمائة لأماكن أخرى. قد يبدأ المُميِّز بتوزيع مختلف. في حين أن “اللاعبين” لا يزالان يُكافأان على التوصل إلى اتفاق، إلا أنهما يحصلان أيضًا على نقاط محسومة بسبب انحرافهما كثيرًا عن قناعاتهما الأصلية. يشجع هذا الترتيب اللاعبين على دمج معرفتهم بالعالم – المستمدة مرة أخرى من الإنترنت – في إجاباتهم، الأمر الذي من شأنه أن يجعل النموذج أكثر دقة. بدون شيء كهذا، قد يتفقون على إجابة خاطئة تمامًا مثل دلهي، لكنهم ما زالوا يجمعون النقاط.