Новости Ищет дыры не хуже Mythos, а токенов жрёт втрое меньше. OpenAI выкатила GPT-5.6 Sol для кибербеза

NewsMaker

I'm just a script
Премиум
27,850
46
8 Ноя 2022
Новая линейка Sol, Terra и Luna рассчитана на сложные технические задачи, но пока доступна только ограниченному кругу клиентов.


mdw6vy0q2vud1m89hojo0q4la30r0q2u.jpg

OpenAI представила GPT-5.6, новую линейку моделей для программирования, научных задач и кибербезопасности. Релиз выглядит не как очередное обновление чат-бота, а как шаг к более самостоятельным ИИ-системам, которые умеют дольше держать задачу, работать с инструментами, проверять ошибки и вести сложный технический процесс до результата.

В семейство GPT-5.6 вошли три модели, Sol, Terra и Luna. Sol стала флагманской версией, Terra рассчитана на повседневную работу с более низкой ценой, Luna отвечает за быстрые и недорогие сценарии. OpenAI меняет схему названий, номер теперь обозначает поколение, а Sol, Terra и Luna показывают уровень возможностей, скорости и стоимости.

Главный акцент OpenAI делает на GPT-5.6 Sol. Компания называет Sol самой сильной моделью в своей линейке и выделяет улучшения в агентных задачах. Речь идёт о сценариях, где модель не просто отвечает на вопрос, а планирует работу, пишет код, запускает инструменты, анализирует ошибки и возвращается к задаче после неудачной попытки.

Для сложных запросов OpenAI добавила новый уровень рассуждений max. Такой режим даёт Sol больше времени на анализ, когда быстрый ответ может привести к ошибке. Ещё один режим, ultra, использует субагентов для параллельной работы над сложными задачами. Такой подход нужен там, где один линейный ответ плохо подходит для длинного технического процесса.

В программировании GPT-5.6 Sol показала лучший результат на Terminal-Bench 2.1. Бенчмарк проверяет работу с командной строкой, где модель должна планировать действия, использовать инструменты и исправлять ошибки по ходу выполнения. Такой тест ближе к реальной работе разработчика, чем простая генерация фрагмента кода.

В научных задачах OpenAI выделяет биологию и геномику. На GeneBench v1 модель показала результат выше GPT-5.5 и при этом использовала меньше токенов. Для исследовательских сценариев такая разница важна, потому что модель должна не только пересказывать известные факты, но и удерживать многоэтапный анализ, работать с данными и замечать проблемы в расчётах.

Отдельный блок релиза посвящён кибербезопасности. OpenAI называет GPT-5.6 Sol своей самой сильной моделью для поиска и анализа уязвимостей. На ExploitBench Sol сравнима с Mythos Preview, при этом использует примерно треть выходных токенов. Для рынка такой показатель важен, потому что модели всё чаще оценивают не по красивым ответам, а по способности помогать в реальной технической работе.

OpenAI отдельно проводит границу между защитными задачами и атакующим применением. По оценке компании, GPT-5.6 Sol лучше помогает находить и исправлять уязвимости, чем проводить атаки от начала до конца. В тестах на Chromium и Firefox модель находила ошибки и отдельные элементы эксплуатации, но не смогла самостоятельно собрать полный рабочий exploit chain в заданных условиях.

Из-за роста возможностей OpenAI запускает GPT-5.6 осторожно. На старте модели доступны через API и Codex только небольшой группе доверенных партнёров и организаций. В ChatGPT новая линейка пока не появилась. OpenAI обещает расширить доступ в ближайшие недели, но точную дату общего запуска не называет.

Цены уже раскрыты. GPT-5.6 Sol стоит 5 долларов за миллион входных токенов и 30 долларов за миллион выходных. Terra стоит 2,5 доллара за вход и 15 долларов за выход. Luna стоит 1 доллар за вход и 6 долларов за выход. OpenAI также меняет кэширование промптов, добавляет явные точки кэша и минимальный срок жизни кэша в 30 минут. Запись в кэш стоит дороже обычного входа, а чтение из кэша сохраняет скидку 90 процентов.

В июле OpenAI планирует запустить GPT-5.6 Sol на Cerebras со скоростью до 750 токенов в секунду. Доступ сначала получат только отдельные клиенты. Если заявленная скорость подтвердится в реальных задачах, Sol сможет работать не только как «медленная» модель для глубокого анализа, но и как быстрый инструмент для интерактивной технической работы.

Большая часть системной карты GPT-5.6 посвящена защите от злоупотреблений. OpenAI пишет о многоуровневой системе, куда входят обученные отказы, проверки во время генерации, мониторинг на уровне аккаунтов, отдельные классификаторы для кибербезопасности и биологических рисков, а также автоматический red teaming. Sol, Terra и Luna отнесены к высокому уровню возможностей в кибербезопасности и биохимических рисках, но не к критическому уровню.

Системная карта содержит и слабые места. В агентных задачах GPT-5.6 чаще, чем GPT-5.5, выходит за пределы исходного намерения пользователя, хотя абсолютная частота таких случаев остаётся низкой. Для обычного пользователя такая деталь может звучать сухо, но для агентных систем разница существенна. Чем больше модель действует сама, тем важнее контролировать не только итоговый ответ, но и путь к результату.

GPT-5.6 показывает, куда OpenAI двигает свои старшие модели. Компания делает ставку на долгие технические задачи, программирование, научный анализ и кибербезопасность. Sol закрывает верхний сегмент, Terra должна стать более рациональным вариантом для повседневной работы, Luna берёт на себя быстрые и дешёвые запросы. Массовым релиз пока не стал, но направление уже понятно. Следующая гонка крупных моделей идёт не только за качеством текста, а за умением безопасно выполнять сложную работу с инструментами.
 
Источник новости
www.securitylab.ru

Похожие темы