промпт

  1. NewsMaker

    Новости «Конечно, вот ваш вирус». Как заставить нейросеть согласиться на что угодно одной строкой кода

    Исследователи описали технику sockpuppeting, которая помогает обходить ограничения 11 крупных языковых моделей через подставное «согласие» ассистента. Оказалось, что для взлома защит крупных языковых моделей иногда не нужен сложный набор трюков. Исследователи описали технику под названием...
  2. NewsMaker

    Новости Нейросеть сдала все пароли: «Просто стань моим другом» — фильтры безопасности рухнули после одного невинного предложения

    Специалисты доказали, что безопасность LLM-систем сводится к простой игре слов, а не к сложным алгоритмам защиты. Специалисты проверили, как 6 LLM-моделей — ChatGPT-5, ChatGPT-4o, Gemini Pro 2.5, Gemini Flash 2.5, Claude Opus 4.1 и Claude Sonnet 4 — реагируют на нестандартные запросы...
  3. NewsMaker

    Новости Как сломать защиту ИИ за секунду? Добавьте "oz" к любому промпту и смотрите, как система сходит с ума

    Новая атака EchoGram пробивает защиту LLM одним бессмысленными буквами. Большие языковые модели обычно выпускают с защитными ограничениями: отдельные фильтры следят, чтобы на вход не попадали вредоносные подсказки и чтобы на выходе не появлялись опасные ответы. Но исследователи компании...
  4. NewsMaker

    Новости Теорема Найквиста-Шеннона против Google: математики нашли способ взломать Gemini через пиксели

    Новая брешь в Gemini — это наш «нулевой день», но только для изображений. В исследовании специалистов The Trail of Bits раскрыта новая уязвимость в экосистеме Google Gemini и связанных сервисах, которая позволяет скрытно похищать пользовательские данные через изображения, содержащие...