يقول الباحثون إنه إذا تم تنفيذ الهجوم في العالم الحقيقي، فمن الممكن أن يتم هندسة الناس اجتماعيًا للاعتقاد بأن الدافع غير المفهوم قد يفعل شيئًا مفيدًا، مثل تحسين سيرتهم الذاتية. يشير الباحثون إلى العديد من مواقع الويب التي تزود الأشخاص بمطالبات يمكنهم استخدامها. لقد اختبروا الهجوم عن طريق تحميل السيرة الذاتية إلى المحادثات مع روبوتات الدردشة، وتمكنوا من إعادة المعلومات الشخصية الموجودة داخل الملف.
يقول إيرلانس فرنانديز، الأستاذ المساعد في جامعة كاليفورنيا في سان دييغو والذي شارك في العمل، إن أسلوب الهجوم معقد إلى حد ما لأن الموجه المبهم يحتاج إلى تحديد المعلومات الشخصية، وتشكيل عنوان URL صالح، وتطبيق صيغة Markdown، وعدم الكشف للمستخدم عن ذلك. يتصرف بشكل شنيع. ويشبه فرنانديز الهجوم بالبرامج الضارة، مشيرًا إلى قدرته على أداء الوظائف والسلوك بطرق قد لا يقصدها المستخدم.
يقول فرنانديز: “في العادة، يمكنك كتابة الكثير من أكواد الكمبيوتر للقيام بذلك في البرامج الضارة التقليدية”. “ولكن هنا أعتقد أن الشيء الرائع هو أن كل ذلك يمكن تجسيده في هذه المطالبة القصيرة نسبيًا التي لا معنى لها.”
يقول متحدث باسم شركة Mistral AI إن الشركة ترحب بالباحثين الأمنيين الذين يساعدونها في جعل منتجاتها أكثر أمانًا للمستخدمين. يقول المتحدث: “بعد هذه التعليقات، نفذت شركة Mistral AI على الفور العلاج المناسب لإصلاح الوضع”. تعاملت الشركة مع المشكلة على أنها “متوسطة الخطورة”، ويمنع إصلاحها عارض Markdown من التشغيل والقدرة على الاتصال بعنوان URL خارجي من خلال هذه العملية، مما يعني أن تحميل الصور الخارجية غير ممكن.
يعتقد فرنانديز أن تحديث Mistral AI هو على الأرجح إحدى المرات الأولى التي أدى فيها مثال موجه عدائي إلى إصلاح منتج LLM، بدلاً من إيقاف الهجوم عن طريق تصفية المطالبة. ومع ذلك، كما يقول، فإن الحد من قدرات وكلاء LLM يمكن أن يؤدي إلى “نتائج عكسية” على المدى الطويل.
وفي الوقت نفسه، ذكر بيان صادر عن منشئي ChatGLM أن الشركة لديها إجراءات أمنية مطبقة للمساعدة في خصوصية المستخدم. وجاء في البيان: “نموذجنا آمن، وقد أولينا دائمًا أولوية عالية لأمن النموذج وحماية الخصوصية”. “من خلال المصدر المفتوح لنموذجنا، نهدف إلى الاستفادة من قوة مجتمع المصادر المفتوحة لفحص وتدقيق جميع جوانب قدرات هذه النماذج، بما في ذلك أمنها.”
“نشاط عالي الخطورة”
يقول دان ماكينيرني، الباحث الرئيسي في مجال التهديدات في شركة الأمن Protect AI، إن ورقة Imprompter “تطلق خوارزمية لإنشاء مطالبات تلقائيًا يمكن استخدامها في الحقن الفوري للقيام بعمليات استغلال مختلفة، مثل استخراج معلومات تحديد الهوية الشخصية، أو التصنيف الخاطئ للصور، أو الاستخدام الضار للأدوات يمكن لوكيل LLM الوصول. في حين أن العديد من أنواع الهجمات ضمن البحث قد تكون مشابهة للطرق السابقة، يقول ماكينيرني، إلا أن الخوارزمية تربطها معًا. “وهذا يتماشى مع تحسين هجمات LLM الآلية أكثر من سطوح التهديد غير المكتشفة فيها.”
ومع ذلك، يضيف أنه مع تزايد استخدام وكلاء LLM ومنحهم الأشخاص سلطة أكبر لاتخاذ إجراءات نيابة عنهم، يزداد نطاق الهجمات ضدهم. يقول ماكينيرني: “إن إطلاق وكيل LLM الذي يقبل إدخالات المستخدم التعسفية يجب أن يعتبر نشاطًا عالي الخطورة يتطلب اختبارًا أمنيًا كبيرًا ومبتكرًا قبل النشر”.
بالنسبة للشركات، يعني ذلك فهم الطرق التي يمكن أن يتفاعل بها وكيل الذكاء الاصطناعي مع البيانات وكيف يمكن إساءة استخدامها. ولكن بالنسبة للأفراد، كما هو الحال مع النصائح الأمنية الشائعة، يجب عليك أن تفكر في مقدار المعلومات التي تقدمها لأي تطبيق أو شركة تعمل بالذكاء الاصطناعي، وإذا كنت تستخدم أي مطالبات من الإنترنت، فكن حذرًا من مصدرها.