Новости Сначала каркас, потом смысл. Сбер заставил ИИ писать тексты не последовательно, а параллельно

NewsMaker

I'm just a script
Премиум
28,004
46
8 Ноя 2022
Новый подход меняет привычную логику работы языковых моделей.

<div class="articl-text-cover" style="position:relative;width:100%;max-width:800px;margin-left:auto;margin-right:auto;aspect-ratio:800/450;margin-bottom:2rem;overflow:hidden">
fp8g4p1to4q2dnt47qh7azg9c3hbn16t.jpg

Языковые модели обычно пишут текст слово за словом, но «Сбер» решил проверить другой подход и выложил в открытый доступ веса экспериментальной модели GFusion, которая сначала создаёт черновую структуру ответа, а затем заполняет её подходящими словами.

На Hugging Face появились две версии модели: GFusion-10B-A1.8B-base и GFusion-10B-A1.8B . Разработчики построили их на базе GigaChat 3 и применили диффузионный метод, который чаще используют для генерации изображений из случайного набора пикселей.

Обычные языковые модели последовательно добавляют токены слева направо, причём каждое новое слово зависит от уже написанного текста. GFusion работает с целым фрагментом сразу. Модель создаёт заготовку с заданной структурой, после чего несколько раз заменяет случайные элементы более подходящими вариантами.

Сейчас GFusion обрабатывает блоки по 32 токена, что примерно соответствует одному короткому предложению. Во внутренних тестах «Сбера» модель генерировала текст на 45% быстрее GigaChat 3, однако качество ответов снижалось на 2–4 процентных пункта.

Примечательно, что в июне о подобной разработке заявила и компания Google. Их экспериментальная модель DiffusionGemma работает по тому же принципу , позволяя параллельно создавать блоки до 256 токенов. По данным компании, модель пишет текст и простой код в четыре раза быстрее, но в остальных испытаниях пока уступает обычной Gemma 4 26B. Также диффузионные языковые модели разрабатывают Inception Labs и авторы открытого проекта LLaDA.

GFusion от Сбера пока остаётся экспериментальной разработкой. Открытая публикация весов позволит проверить, насколько диффузионный подход подходит для ускорения языковых моделей без существенной потери качества.
 
Источник новости
www.securitylab.ru

Похожие темы