هناك أدلة أخرى لما يمكن أن يكون عليه Q*. قد يكون الاسم إشارة إلى Q-learning، وهو شكل من أشكال التعلم المعزز الذي يتضمن تعلم خوارزمية لحل مشكلة من خلال ردود فعل إيجابية أو سلبية، والتي تم استخدامها لإنشاء روبوتات لعب الألعاب وضبط ChatGPT ليكون أكثر فائدة. اقترح البعض أن الاسم قد يكون مرتبطًا أيضًا بخوارزمية البحث A*، المستخدمة على نطاق واسع لجعل البرنامج يجد المسار الأمثل لهدف ما.
المعلومات تلقي بدليل آخر على هذا المزيج: “إن اختراق Sutskever سمح لـ OpenAI بالتغلب على القيود المفروضة على الحصول على ما يكفي من البيانات عالية الجودة لتدريب نماذج جديدة”، كما تقول قصتها. “تضمن البحث استخدام (البيانات) التي تم إنشاؤها بواسطة الكمبيوتر، بدلاً من بيانات العالم الحقيقي مثل النصوص أو الصور المأخوذة من الإنترنت، لتدريب النماذج الجديدة.” ويبدو أن هذا إشارة إلى فكرة تدريب الخوارزميات باستخدام ما يسمى ببيانات التدريب الاصطناعية، والتي ظهرت كوسيلة لتدريب نماذج الذكاء الاصطناعي الأكثر قوة.
يعتقد سوباراو كامبهامباتي، الأستاذ في جامعة ولاية أريزونا والذي يبحث في القيود المنطقية لماجستير القانون، أن Q* قد يتضمن استخدام كميات هائلة من البيانات الاصطناعية، جنبًا إلى جنب مع التعلم المعزز، لتدريب حاملي الماجستير على مهام محددة مثل العمليات الحسابية البسيطة. ويشير كامبهامباتي إلى أنه ليس هناك ما يضمن تعميم هذا النهج على شيء يمكنه معرفة كيفية حل أي مشكلة رياضية محتملة.
لمزيد من التكهنات حول ماهية Q*، اقرأ هذا المنشور الذي كتبه أحد علماء التعلم الآلي الذي يجمع السياق والقرائن بتفاصيل مثيرة للإعجاب ومنطقية. إصدار TLDR هو أن Q* يمكن أن يكون جهدًا لاستخدام التعلم المعزز وبعض التقنيات الأخرى لتحسين قدرة نموذج اللغة الكبير على حل المهام من خلال التفكير من خلال الخطوات على طول الطريق. على الرغم من أن هذا قد يجعل ChatGPT أفضل في الألغاز الرياضية، فمن غير الواضح ما إذا كان سيقترح تلقائيًا أن أنظمة الذكاء الاصطناعي يمكنها تجنب التحكم البشري.
يبدو أن شركة OpenAI ستحاول استخدام التعلم المعزز لتحسين ماجستير إدارة الأعمال أمر معقول لأن العديد من مشاريع الشركة المبكرة، مثل روبوتات لعب ألعاب الفيديو، كانت تتمحور حول هذه التقنية. كان التعلم المعزز أيضًا عنصرًا أساسيًا في إنشاء ChatGPT، لأنه يمكن استخدامه لجعل طلاب LLM ينتجون إجابات أكثر تماسكًا من خلال مطالبة البشر بتقديم تعليقات أثناء تحدثهم مع روبوت الدردشة. عندما تحدثت WIRED مع ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind، في وقت سابق من هذا العام، ألمح إلى أن الشركة كانت تحاول الجمع بين أفكار التعلم المعزز والتطورات التي شوهدت في نماذج اللغات الكبيرة.
بجمع القرائن المتاحة حول Q*، لا يبدو هذا سببًا للذعر. ولكن بعد ذلك، كل هذا يتوقف على قيمة P (الهلاك) الشخصية لديك، وهي الاحتمالية التي تنسبها إلى احتمال أن يدمر الذكاء الاصطناعي البشرية. قبل وقت طويل من ChatGPT، كان علماء وقادة OpenAI في البداية مرعوبين جدًا من تطوير GPT-2، وهو مولد نصي لعام 2019 يبدو الآن تافهًا بشكل مثير للضحك، لدرجة أنهم قالوا إنه لا يمكن نشره علنًا. تقدم الشركة الآن الوصول المجاني إلى أنظمة أكثر قوة.
رفض OpenAI التعليق على سؤال*. ربما سنحصل على مزيد من التفاصيل عندما تقرر الشركة أن الوقت قد حان لمشاركة المزيد من النتائج من جهودها لجعل ChatGPT ليس جيدًا في التحدث فحسب، بل جيدًا في التفكير أيضًا.