في العام الماضي، بدأ الفريق في تجربة نموذج صغير يستخدم طبقة واحدة فقط من الخلايا العصبية. (يحتوي طلاب ماجستير القانون المتطورون على عشرات الطبقات). وكان الأمل في أن يتمكنوا في أبسط بيئة ممكنة من اكتشاف الأنماط التي تحدد السمات. لقد أجروا تجارب لا تعد ولا تحصى دون نجاح. “لقد جربنا مجموعة كاملة من الأشياء، ولم ينجح أي شيء. يقول توم هينيغان، عضو الطاقم الفني في أنثروبيك: “لقد بدت وكأنها مجموعة من القمامة العشوائية”. بعد ذلك، بدأت تجربة أُطلق عليها اسم “جوني” – حيث تم تخصيص اسم عشوائي لكل تجربة – في ربط الأنماط العصبية بالمفاهيم التي ظهرت في مخرجاتها.
“نظر كريس إليها، وكان مثل،” حماقة المقدسة. ” يقول هينيغان، الذي أصيب بالذهول أيضًا: “يبدو هذا رائعًا”. “نظرت إليه، وقلت: أوه، واو، انتظر، هل هذا يعمل؟”
وفجأة تمكن الباحثون من تحديد السمات التي كانت مجموعة من الخلايا العصبية تشفرها. يمكنهم النظر إلى الصندوق الأسود. يقول هينيغان إنه حدد السمات الخمس الأولى التي نظر إليها. مجموعة واحدة من الخلايا العصبية تشير إلى النصوص الروسية. وارتبط آخر بالوظائف الرياضية في لغة الكمبيوتر بايثون. وما إلى ذلك وهلم جرا.
بمجرد أن أظهروا أنهم قادرون على تحديد الميزات في النموذج الصغير، بدأ الباحثون في المهمة الصعبة المتمثلة في فك تشفير ماجستير في القانون بالحجم الكامل في البرية. لقد استخدموا كلود سونيت، النسخة متوسطة القوة من نماذج Anthropic الثلاثة الحالية. لقد نجح ذلك أيضًا. إحدى الميزات التي لفتت انتباههم كانت مرتبطة بجسر البوابة الذهبية. لقد رسموا خريطة لمجموعة الخلايا العصبية التي، عند تحفيزها معًا، أشارت إلى أن كلود كان “يفكر” في البنية الضخمة التي تربط سان فرانسيسكو بمقاطعة مارين. علاوة على ذلك، عندما أطلقت مجموعات مماثلة من الخلايا العصبية، أثارت موضوعات كانت مجاورة لجسر البوابة الذهبية: الكاتراز، وحاكم كاليفورنيا جافين نيوسوم، وفيلم هيتشكوك. دوار، والتي تدور أحداثها في سان فرانسيسكو. أخيرًا، حدد الفريق ملايين الميزات، مثل حجر رشيد لفك تشفير شبكة كلود العصبية. كانت العديد من الميزات متعلقة بالسلامة، بما في ذلك “الاقتراب من شخص ما لدوافع خفية”، و”مناقشة الحرب البيولوجية”، و”المؤامرات الشريرة للسيطرة على العالم”.
ثم اتخذ الفريق الأنثروبي الخطوة التالية لمعرفة ما إذا كان بإمكانهم استخدام تلك المعلومات لتغيير سلوك كلود. بدأوا في التلاعب بالشبكة العصبية لزيادة أو تقليل مفاهيم معينة، وهو نوع من جراحة الدماغ التي تعتمد على الذكاء الاصطناعي، مع إمكانية جعل طلاب ماجستير إدارة الأعمال أكثر أمانًا وزيادة قوتهم في مناطق مختارة. “لنفترض أن لدينا لوحة الميزات هذه. يقول شان كارتر، عالم الأنثروبولوجيا في الفريق: “قمنا بتشغيل النموذج، وأضاء أحدهم، ورأينا: “أوه، إنه يفكر في جسر البوابة الذهبية”. “والآن، نحن نفكر، ماذا لو وضعنا قرصًا صغيرًا على كل هذه الأشياء؟ وماذا لو قمنا بإدارة هذا القرص؟
حتى الآن، يبدو أن الإجابة على هذا السؤال هي أنه من المهم جدًا تدوير القرص بالقدر المناسب. يقول أنثروبيك إنه من خلال قمع هذه الميزات، يمكن للنموذج إنتاج برامج كمبيوتر أكثر أمانًا وتقليل التحيز. على سبيل المثال، وجد الفريق العديد من الميزات التي تمثل ممارسات خطيرة، مثل رموز الكمبيوتر غير الآمنة، ورسائل البريد الإلكتروني الاحتيالية، وتعليمات صنع منتجات خطيرة.