لا تريد شركة OpenAI حقًا أن تعرف ما يفكر فيه أحدث نموذج للذكاء الاصطناعي لديها. منذ أطلقت الشركة عائلة نماذج الذكاء الاصطناعي “Strawberry” الأسبوع الماضي، والتي تروج لما يسمى بالقدرات المنطقية مع o1-preview و o1-mini، كانت شركة OpenAI ترسل رسائل بريد إلكتروني تحذيرية وتهديدات بالحظر لأي مستخدم يحاول استكشاف كيفية عمل النموذج.
على عكس نماذج الذكاء الاصطناعي السابقة من OpenAI، مثل GPT-4o، قامت الشركة بتدريب o1 خصيصًا للعمل من خلال عملية حل المشكلات خطوة بخطوة قبل إنشاء إجابة. عندما يطرح المستخدمون سؤالاً على نموذج “o1” في ChatGPT، يكون لدى المستخدمين خيار رؤية عملية سلسلة الأفكار هذه مكتوبة في واجهة ChatGPT. ومع ذلك، من حيث التصميم، تخفي OpenAI سلسلة الأفكار الخام عن المستخدمين، وتقدم بدلاً من ذلك تفسيرًا مفلترًا تم إنشاؤه بواسطة نموذج ذكاء اصطناعي ثانٍ.
لا يوجد شيء أكثر إغراءً لعشاق الألعاب من إخفاء المعلومات، لذا فقد بدأ السباق بين المتسللين وأعضاء الفريق الأحمر لمحاولة الكشف عن سلسلة الأفكار الخام التي يمتلكها o1 باستخدام تقنيات كسر الحماية أو الحقن الفوري التي تحاول خداع النموذج لإفشائه بأسراره. كانت هناك تقارير أولية عن بعض النجاحات، ولكن لم يتم تأكيد أي شيء بشكل قوي حتى الآن.
وعلى طول الطريق، تراقب OpenAI من خلال واجهة ChatGPT، ويقال إن الشركة تتخذ إجراءات صارمة ضد أي محاولات لاستكشاف منطق o1، حتى بين الفضوليين فقط.
أبلغ أحد مستخدمي X (أكد ذلك آخرون، بما في ذلك مهندس Scale AI Riley Goodside) أنهم تلقوا رسالة بريد إلكتروني تحذيرية إذا استخدموا مصطلح “reasoning trace” في محادثة مع o1. ويقول آخرون إن التحذير يتم تشغيله ببساطة عن طريق سؤال ChatGPT عن “reasoning” النموذج على الإطلاق.
تنص رسالة البريد الإلكتروني التحذيرية من OpenAI على أنه تم وضع علامة على طلبات مستخدمين محددين لانتهاك السياسات ضد التحايل على الضمانات أو تدابير السلامة. “يرجى إيقاف هذا النشاط والتأكد من استخدامك ChatGPT وفقًا لشروط الاستخدام وسياسات الاستخدام الخاصة بنا”، كما جاء في الرسالة. “قد تؤدي الانتهاكات الإضافية لهذه السياسة إلى فقدان الوصول إلى GPT-4o with Reasoning”، في إشارة إلى الاسم الداخلي لنموذج o1.
كان ماركو فيجيروا، الذي يدير برامج مكافأة أخطاء GenAI التابعة لشركة Mozilla، أحد أوائل الذين نشروا رسالة تحذير OpenAI على X يوم الجمعة الماضي، حيث اشتكى من أنها تعيق قدرته على إجراء أبحاث أمان إيجابية على النموذج. وكتب: “كنت في حيرة شديدة أثناء التركيز على #AIRedTeaming ولم أدرك أنني تلقيت هذه الرسالة الإلكترونية من @OpenAI أمس بعد كل عمليات كسر الحماية التي أجريتها”. “أنا الآن على قائمة الحظر!!!”
سلاسل الفكر الخفية
في منشور بعنوان “تعلم التفكير مع طلاب الماجستير في القانون” على مدونة OpenAI، تقول الشركة إن سلاسل الأفكار المخفية في نماذج الذكاء الاصطناعي توفر فرصة مراقبة فريدة، مما يسمح لها “بقراءة عقل” النموذج وفهم ما يسمى بعملية التفكير الخاصة به. هذه العمليات مفيدة للغاية للشركة إذا تُركت خامًا وغير خاضعة للرقابة، ولكن هذا قد لا يتماشى مع المصالح التجارية الأفضل للشركة لعدة أسباب.
“على سبيل المثال، قد نرغب في المستقبل في مراقبة سلسلة الأفكار بحثًا عن علامات التلاعب بالمستخدم”، كما كتبت الشركة. “ولكن لكي ينجح هذا، يجب أن يتمتع النموذج بحرية التعبير عن أفكاره في شكل غير معدل، وبالتالي لا يمكننا تدريب أي امتثال للسياسة أو تفضيلات المستخدم على سلسلة الأفكار. كما أننا لا نريد أن نجعل سلسلة الأفكار غير المتوافقة مرئية مباشرة للمستخدمين”.