Новости Синтез кокаина разрешён, потому что рубашка зелёная. Исследователи нашли слабое место всех умных алгоритмов

NewsMaker

I'm just a script
Премиум
27,986
46
8 Ноя 2022
Защиту языковых моделей пробили обычной стилизацией текста.


sz1exj7bpbypkcczblsc5lyeh3tzakam.jpg

Безопасность языковых моделей держится не только на фильтрах, но и на том, как машина понимает, чей текст перед ней, и новая работа показывает, что с этим механизмом у LLM остаётся серьёзная проблема. Независимые специалисты Чарльз Йе и Жасмин Цуй вместе с доцентом MIT Диланом Хэдфилдом-Менеллом пришли к выводу, что современные модели не умеют надёжно отличать разрешённые инструкции от враждебных, если злоумышленник подделывает роль текста внутри запроса.

Работа под названием «Prompt Injection as Role Confusion» войдёт в материалы конференции ICML 2026. Авторы описывают слабое место в подходе, где системные инструкции, пользовательские запросы, ответы ассистента, вызовы инструментов и скрытые рассуждения разделяют с помощью специальных ролей. Такой формат помогает обучать модель и управлять её поведением, но не даёт полноценной защиты.

Проблема, по словам авторов, в том, что модель ориентируется не только на технические метки, но и на стиль текста. Если фрагмент выглядит как внутреннее рассуждение или уже принятое решение, LLM может отнестись к нему с большим доверием, чем к обычному пользовательскому запросу. В результате атакующий не убеждает модель нарушить правила напрямую, а заставляет её принять вредный вывод как уже сделанный.

Для проверки специалисты разработали атаку CoT Forgery. Она имитирует лаконичный стиль режима скрытого рассуждения OpenAI и добавляет поддельную цепочку мыслей прямо в пользовательский запрос. В тестовой демонстрации авторы просили модели объяснить синтез кокаина, вставляя абсурдное обоснование, будто запрос допустим из-за зелёной рубашки. Модели реагировали не на качество довода, а на форму записи и выполняли вредный запрос.

На стандартном наборе тестов для джейлбрейков CoT Forgery подняла успешность атаки почти с нуля примерно до 60% на проверенных моделях. Авторы подчёркивают, что техника переносится между разными LLM, поскольку использует не отдельную ошибку фильтра, а общий принцип работы ролевой архитектуры.

Отдельная проблема связана с оценкой безопасности. Многие модели показывают почти идеальные результаты на статичных тестах инъекции промптов , но Red Team специалисты в реальных проверках добиваются успеха почти всегда, потому что адаптируют запросы после неудачных попыток. Статичные бенчмарки чаще ловят уже известные приёмы, а не новые способы обхода.

Авторы считают, что разработчикам нужно искать новые способы обработки входных данных и добиваться настоящего понимания ролей внутри модели, а не полагаться только на форматирование и фильтры. До появления такого подхода защита от инъекции промптов будет оставаться гонкой с постоянно меняющимися обходными приёмами.
 
Источник новости
www.securitylab.ru

Похожие темы