Предыдущая публикация
Исследователи из Palo Alto Networks представили метод взлома под названием Bad Likert Judge, который обходит системы безопасности больших языковых моделей (LLM) и генерирует небезопасный контент. Техника использует шкалу Лайкерта для оценки ответов, что приводит к появлению вредного контента.
Тестирование на шести ведущих моделях LLM показало, что эффективность атаки может увеличиться более чем на 60%. Внедрение фильтрации контента может снизить риск атак до 89,2%, что подчеркивает важность усиленной безопасности AI в реальных приложениях.
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев