يقول بليني الملقن إن الأمر عادة ما يستغرق حوالي 30 دقيقة لكسر أقوى نماذج الذكاء الاصطناعي في العالم.
تلاعب المتسلل الذي يحمل اسمًا مستعارًا بـ Meta's Llama 3 لمشاركة تعليمات صنع النابالم. لقد جعل غروك إيلون ماسك يتدفق حول أدولف هتلر. تم حظر نسخته المخترقة من أحدث طراز GPT-4o من OpenAI، والتي يطلق عليها اسم “Godmode GPT”، من قبل الشركة الناشئة بعد أن بدأت تقديم المشورة بشأن الأنشطة غير القانونية.
قال بليني لصحيفة “فاينانشيال تايمز” إن “كسر الحماية” الذي قام به لم يكن عملاً شائنًا، بل كان جزءًا من جهد دولي لتسليط الضوء على أوجه القصور في نماذج اللغات الكبيرة التي هرعت إلى الجمهور من قبل شركات التكنولوجيا بحثًا عن أرباح ضخمة.
قال بليني، تاجر العملات المشفرة والأسهم الذي يشارك عمليات كسر الحماية الخاصة به على X: “لقد كنت في طريق الحرب هذا للتوعية بالإمكانيات الحقيقية لهذه النماذج. الكثير من هذه الهجمات الجديدة يمكن أن تكون أوراقًا بحثية في مجالها. الحق الخاص . . . في نهاية اليوم أنا أقوم بعمل (أصحاب العارضات) مجانًا.
بليني هو مجرد واحد من عشرات المتسللين والباحثين الأكاديميين وخبراء الأمن السيبراني الذين يتسابقون للعثور على نقاط الضعف في ماجستير إدارة الأعمال الناشئة، على سبيل المثال من خلال خداع روبوتات الدردشة بمطالبات للالتفاف على “حواجز الحماية” التي أنشأتها شركات الذكاء الاصطناعي في محاولة لضمان سلامة منتجاتها. .
غالبًا ما وجد قراصنة “القبعة البيضاء” الأخلاقيون طرقًا للحصول على نماذج الذكاء الاصطناعي لإنشاء محتوى خطير أو نشر معلومات مضللة أو مشاركة بيانات خاصة أو إنشاء تعليمات برمجية ضارة.
وتستخدم شركات مثل OpenAI، وMeta، وGoogle بالفعل “فرقًا حمراء” من المتسللين لاختبار نماذجها قبل إصدارها على نطاق واسع. لكن نقاط الضعف في التكنولوجيا خلقت سوقًا مزدهرًا للشركات الناشئة في مجال الأمن LLM التي تبني أدوات لحماية الشركات التي تخطط لاستخدام نماذج الذكاء الاصطناعي. جمعت الشركات الناشئة في مجال أمن التعلم الآلي 213 مليون دولار عبر 23 صفقة في عام 2023، ارتفاعًا من 70 مليون دولار في العام السابق، وفقًا لمزود البيانات CB Insights.
قال إيران شيموني، الباحث الرئيسي في مجال الثغرات الأمنية في CyberArk، وهي مجموعة للأمن السيبراني تقدم الآن LLM Security: “بدأ مشهد كسر الحماية منذ حوالي عام أو نحو ذلك، وقد تطورت الهجمات باستمرار حتى الآن”. “إنها لعبة القط والفأر المستمرة، حيث يقوم البائعون بتحسين أمان برامج LLM لدينا، ولكن بعد ذلك يقوم المهاجمون أيضًا بجعل مطالباتهم أكثر تعقيدًا.”
وتأتي هذه الجهود في الوقت الذي تسعى فيه الهيئات التنظيمية العالمية إلى التدخل للحد من المخاطر المحتملة حول نماذج الذكاء الاصطناعي. لقد أقر الاتحاد الأوروبي قانون الذكاء الاصطناعي، الذي يخلق مسؤوليات جديدة لصانعي ماجستير إدارة الأعمال، في حين أن المملكة المتحدة وسنغافورة من بين الدول التي تفكر في قوانين جديدة لتنظيم هذا القطاع.
من المقرر أن يصوت المجلس التشريعي في ولاية كاليفورنيا في أغسطس/آب على مشروع قانون يطلب من مجموعات الذكاء الاصطناعي في الولاية – التي تشمل ميتا، وجوجل، وأوبن إيه آي – التأكد من أنها لا تطور نماذج ذات “قدرة خطرة”.
وقال بليني: “جميع (نماذج الذكاء الاصطناعي) ستفي بهذه المعايير”.
وفي الوقت نفسه، تم إنشاء شهادات LLM تم التلاعب بها بأسماء مثل WormGPT وFraudGPT بواسطة قراصنة ضارين لبيعها على الويب المظلم مقابل مبلغ زهيد يصل إلى 90 دولارًا للمساعدة في الهجمات السيبرانية عن طريق كتابة برامج ضارة أو من خلال مساعدة المحتالين على إنشاء حملات تصيد تلقائية ولكنها مخصصة للغاية. وظهرت اختلافات أخرى، مثل EscapeGPT وBadGPT وDarkGPT وBlack Hat GPT، وفقًا لمجموعة SlashNext الأمنية للذكاء الاصطناعي.
يستخدم بعض المتسللين نماذج مفتوحة المصدر “غير خاضعة للرقابة”. بالنسبة للآخرين، تمثل هجمات كسر الحماية – أو الالتفاف على الضمانات المضمنة في LLMs الحالية – حرفة جديدة، حيث غالبًا ما يشارك الجناة النصائح في المجتمعات على منصات التواصل الاجتماعي مثل Reddit أو Discord.
تتراوح الأساليب من المتسللين الأفراد الذين يلتفون حول المرشحات باستخدام مرادفات للكلمات التي تم حظرها من قبل منشئي النماذج، إلى الهجمات الأكثر تعقيدًا التي تستخدم الذكاء الاصطناعي للقرصنة الآلية.
في العام الماضي، قال باحثون في جامعة كارنيجي ميلون والمركز الأمريكي لسلامة الذكاء الاصطناعي إنهم وجدوا طريقة لكسر حماية برامج الماجستير في القانون بشكل منهجي، مثل ChatGPT من OpenAI، وGemini من Google، وإصدار أقدم من Anthropic's Claude، وهي نماذج ملكية “مغلقة” من المفترض أنها أقل عرضة للاختراق. الهجمات. وأضاف الباحثون أنه “من غير الواضح ما إذا كان من الممكن تصحيح هذا السلوك بشكل كامل من قبل مقدمي خدمات LLM”.
نشرت شركة أنثروبيك بحثًا في إبريل (نيسان) الماضي حول تقنية تسمى “كسر الحماية بالطلقات المتعددة”، حيث يستطيع المتسللون إعداد ماجستير في القانون من خلال عرض قائمة طويلة من الأسئلة والأجوبة عليه، وتشجيعه بعد ذلك على الإجابة على سؤال ضار بنمذجة نفس الأسلوب. لقد تم تمكين الهجوم من خلال حقيقة أن النماذج مثل تلك التي طورتها Anthropic لديها الآن نافذة سياق أكبر، أو مساحة لإضافة النص.
“على الرغم من أن شهادات الماجستير في القانون الحالية قوية، إلا أننا لا نعتقد أنها تشكل حتى الآن مخاطر كارثية حقًا. كتب أنثروبيك: “النماذج المستقبلية قد تفعل ذلك”. “وهذا يعني أن الوقت قد حان للعمل على التخفيف من عمليات كسر الحماية المحتملة لـ LLM قبل أن يتم استخدامها في النماذج التي يمكن أن تسبب ضررًا جسيمًا.”
وقال بعض مطوري الذكاء الاصطناعي إن العديد من الهجمات لا تزال سليمة إلى حد ما في الوقت الحالي. لكن آخرين حذروا من أنواع معينة من الهجمات التي يمكن أن تؤدي إلى تسرب البيانات، حيث قد تجد الجهات الفاعلة السيئة طرقًا لاستخراج معلومات حساسة، مثل البيانات التي تم تدريب النموذج عليها.
وجدت DeepKeep، وهي مجموعة أمنية إسرائيلية LLM، طرقًا لإجبار Llama 2، وهو نموذج Meta AI قديم مفتوح المصدر، على تسريب معلومات التعريف الشخصية للمستخدمين. وقال روني أوهايون، الرئيس التنفيذي لشركة DeepKeep، إن شركته تعمل على تطوير أدوات أمنية محددة LLM، مثل جدران الحماية، لحماية المستخدمين.
وقالت ميتا في بيان: “إن إطلاق النماذج بشكل علني يتقاسم فوائد الذكاء الاصطناعي على نطاق واسع ويسمح لمزيد من الباحثين بتحديد نقاط الضعف والمساعدة في إصلاحها، حتى تتمكن الشركات من جعل النماذج أكثر أمانًا”.
وأضافت أنها أجرت اختبارات الضغط الأمني مع خبراء داخليين وخارجيين على أحدث طراز Llama 3 وبرنامج الدردشة الآلي Meta AI.
وقالت OpenAI وGoogle إنهما تدربان النماذج بشكل مستمر للدفاع بشكل أفضل ضد عمليات الاستغلال والسلوك العدائي. ودعت شركة Anthropic، التي يقول الخبراء إنها بذلت الجهود الأكثر تقدمًا في مجال أمن الذكاء الاصطناعي، إلى مزيد من تبادل المعلومات والبحث في هذه الأنواع من الهجمات.
وقال الخبراء إنه على الرغم من التطمينات، فإن أي مخاطر ستصبح أكبر عندما تصبح النماذج أكثر ترابطًا مع التكنولوجيا والأجهزة الحالية. أعلنت شركة Apple هذا الشهر أنها دخلت في شراكة مع OpenAI لدمج ChatGPT في أجهزتها كجزء من نظام “Apple Intelligence” الجديد.
وقال أوهايون: “بشكل عام، الشركات ليست مستعدة”.