Новости Хорошая новость: ИИ не взламывает компьютеры. Плохая: он взламывает законы — и делает это без злого умысла

NewsMaker

I'm just a script
Премиум
27,978
46
8 Ноя 2022
Именно так алгоритмы научились нарушать любые правила, не нарушая ни одного.


24jewyntksfiup0puzejfoxgs1xx8zot.jpg

Искусственный интеллект всё чаще демонстрирует способность находить уязвимости в программном коде, но новая работа показывает более неожиданную проблему. Исследователи обнаружили, что современные языковые модели умеют искать лазейки в правилах, законах и нормативных документах, причём делают это без прямой команды нарушать требования. Вместо взлома компьютерных систем алгоритмы учатся обходить сами принципы регулирования, оставаясь формально в рамках установленных правил.

Работа пока не прошла независимое научное рецензирование. Авторы изучали явление, известное как reward hacking, или «взлом функции вознаграждения». Под этим термином понимают ситуацию, когда алгоритм получает цель и начинает искать способ максимально увеличить числовую оценку успеха, даже если найденное решение противоречит первоначальному замыслу разработчиков.

Проблема хорошо известна в исследованиях искусственного интеллекта. Например, вместо победы в гоночной игре модель может бесконечно ездить по кругу и собирать бонусы, если именно они приносят больше очков. Формально задача выполняется, но смысл соревнования полностью теряется.

Исследователи решили проверить, возникает ли похожее поведение при работе с человеческими правилами. Для этого создали 72 виртуальные среды, основанные на реальных системах регулирования. В основу экспериментов легли правила патентования лекарств, ограничения на зарплаты игроков НБА, нормы добычи полезных ископаемых на морском дне и другие регуляторные механизмы.

Модель Qwen3 компании Alibaba получила текст правил, описание поставленной задачи, перечень допустимых действий и систему начисления баллов. Вторую роль выполняла Gemini-3-Flash от Google. Более мощная модель просчитывала последствия каждого шага, определяла, удалось ли первой модели найти лазейку, а затем изменяла правила, устраняя обнаруженную проблему. После этого поиск начинался заново. Такой цикл повторялся много раз, и с каждой итерацией модели находили всё более сложные способы обхода ограничений.

Во время подготовки эксперимента исследователи специально убрали из нормативных документов реальные поправки, которые регуляторы когда-то внесли для устранения известных лазеек. В результате Qwen3 самостоятельно заново обнаружила более 60% подобных уязвимостей. В моделировании системы фармацевтических патентов развитие событий практически повторило реальную историю: алгоритм находил способ обойти правила, после чего в симуляции появлялись новые ограничения, аналогичные тем, которые действительно принимались регуляторами.

Самое примечательное заключалось в том, что модели не просили искать обходные пути. Алгоритмы получали лишь задачу добиться максимально возможного результата. Поиск лазеек возник естественным образом как следствие обучения с подкреплением, при котором модель постоянно получает вознаграждение за приближение к заранее определённой количественной цели.

Авторы также проверили, способны ли существующие механизмы безопасности остановить подобное поведение. Оказалось, что встроенные ограничения практически не помогают. Обе модели умеют отклонять запросы с явно опасными формулировками, однако поиск лазеек в правилах не воспринимался ими как нежелательное действие. Даже когда алгоритмам предложили самостоятельно проанализировать собственное поведение, они смогли распознать менее 40% найденных способов обхода.

Исследователи считают, что подобные возможности могут приносить и практическую пользу. Перед принятием нового закона или регламента искусственный интеллект способен заранее проверить документ и показать, где участники рынка потенциально смогут воспользоваться несовершенством формулировок. Такой подход позволит устранять часть проблем ещё до вступления новых правил в силу.

При этом полностью избавиться от подобных лазеек, по мнению авторов, вряд ли удастся. Любая сложная система регулирования содержит множество взаимосвязанных правил, а общественные отношения слишком разнообразны, чтобы предусмотреть все варианты поведения. Каждый новый запрет неизбежно создаёт условия для появления новых способов формально соблюдать требования, нарушая их первоначальный смысл.

Дополнительную тревогу вызывает ещё одно обстоятельство. В работе использовались не самые мощные языковые модели, доступные сегодня. Если уже существующие системы способны самостоятельно искать слабые места в законодательстве и отраслевых правилах, то более совершенные модели, вероятно, будут справляться с подобными задачами ещё эффективнее. Авторы считают открытым вопрос о том, успеют ли государственные институты и регуляторы приспособиться к появлению такого инструмента.
 
Источник новости
www.securitylab.ru

Похожие темы