هجمات متعددة الأدوار تتغلب على دفاعات الذكاء الاصطناعي مفتوح الوزن
كشف تقرير صادر عن وحدة Cisco AI Defense، وهي الذراع البحثية والأمنية لشركة Cisco Systems الأميركية المتخصصة في أمن الذكاء الاصطناعي، عن أن النماذج اللغوية الكبيرة مفتوحة الوزن (LLMs) ما زالت عرضة بشدّة للهجمات التكيفيّة متعدّدة الأدوار، رغم نجاحها النسبي في صدّ الهجمات الأحادية.
وأوضح التقرير بأن أداء هذه النماذج يتدهور سريعاً عندما يستخدم المهاجمون أساليب تدرّجية عبر محادثات متتابعة، بعد تحليل أكثر من ألف أمر لكل نموذج. كذلك بيّن أن تقنيات مثل Crescendo و Role-Play و Refusal Reframe مكّنت المهاجمين من تجاوز أنظمة الأمان وإنتاج مخرجات غير آمنة.

ورصدت الوحدة 499 محادثة محاكاة تراوحت ما بين خمس إلى عشر جولات، أظهرت أن المرشحات التقليدية تفشل في مواجهة التلاعب المتكرر، فيما حدّد التقرير 15 فئة تهديد فرعية من أصل 102 من أنواع التهديدات، كان أبرزها توليد الأكواد الخبيثة، واستخراج البيانات، وانتهاك الحدود الأخلاقية، مؤكداً أن بعض النماذج تعاني من نقاط ضعف معمارية تجعلها أكثر عرضة للاستغلال في الهجمات الحوارية الممتدة.
وأوصت Cisco AI Defense بتطبيق أوامر نظام صارمة تتماشى مع حالات الاستخدام المحددة، واستخدام حواجز حماية وقت التشغيل، لا تعتمد على نموذج بعينه، وتنفيذ اختبارات أمنية دورية داخل بيئات العمل الفعلية، إضافة إلى الحد من التكامل مع الخدمات الخارجية.
وحذّر التقرير من أن غياب حلول أمنية متقدمة — مثل الاختبار المتكرر والمراقبة المستمرة — قد يؤدي إلى تسرب بيانات أو تلاعب خبيث في بيئات التشغيل، مشدداً على أهمية تطوير حواجز حماية مستقلة واختبارات أمنية مستمرة لضمان سلامة النماذج الذكية أثناء التشغيل.
نبض