Стартап предложил альтернативу классическому квантованию ИИ-моделей.
Большие ИИ-модели требуют всё больше памяти, дисков и дорогого оборудования, а привычная экономия часто бьёт по качеству ответов. Исследователи из The SEMQ Group предлагают другой подход: не сжимать числовые веса модели всё грубее, а отделить смысл от способа хранения векторов.
Речь идёт о технологии SEMQ, или Symbolic Embedding Multi-Quantization. Основатель и глава The SEMQ Group Андрес Мак Аллистер считает, что машинное обучение можно сделать менее требовательным к ресурсам без обычной потери точности при квантовании. Вместо хранения эмбеддингов как длинных наборов чисел с плавающей точкой SEMQ сохраняет относительные связи между элементами: близость, направление, соседство и структуру пространства.
Эмбеддинги помогают модели переводить слова, документы или другие данные в векторы. В классической схеме векторы состоят из чисел, а точность хранения напрямую влияет на объём памяти. Формат FP32 требует четыре байта на параметр, поэтому модель на семь млрд параметров занимает около 28 ГБ памяти и диска. FP16 или BF16 сокращают объём до 14 ГБ, а более жёсткие варианты вроде FP8, INT8, Q6, Q5, Q4, Q3 и Q2 уменьшают нагрузку ещё сильнее, но могут ухудшать ответы.
В исследовании , опубликованном ранее в 2026 году, авторы описывают SEMQ как слой для хранения смыслового состояния через фиксированные символические структуры вместо исходных векторов. Метод сохраняет относительную геометрию смыслового пространства: какие объекты похожи, какие попадают в соседние области, как меняется структура при новых данных. Авторы отдельно отмечают, что SEMQ отделяет смысловое состояние от конкретных метрик, способов индексации и логики выполнения запросов, поэтому представление легче переносить и проверять в разных системах.
Мак Аллистер объясняет, что для многих задач важнее не абсолютная величина вектора, а положение элементов друг относительно друга. Семантические системы обычно работают с отношениями, похожестью, соседством, непрерывностью, поиском и изменением состояния во времени, а не с сохранением каждого числового значения в исходном виде.
Первые тесты показали, что подход может сохранять качество там, где обычное квантование резко проигрывает. В бенчмарке Banking77 из набора MTEB модель all-MiniLM-L6-v2 с исходным FP32 показала точность 92,26%. SEMQ достигла 92,27%, фактически повторив результат базовой версии. Для сравнения, четырёхбитное квантование дало 56,05%, отстав от FP32 на 36,22 процентного пункта.
Авторы подчёркивают, что результат не доказывает бесполезность традиционного квантования во всех задачах. Проверка показывает другое: в задачах классификации и поиска по смыслу сохранение структуры может оказаться важнее, чем сохранение каждого числового значения.
SEMQ можно подключать при загрузке данных, когда организация кодирует векторы от своей модели в файл .semq, или во время запроса, когда система загружает, сравнивает, восстанавливает и проверяет представление. По словам Мак Аллистера, командам не придётся менять большую языковую модель, эмбеддинговую модель, векторную базу данных или агентный фреймворк. SEMQ может работать рядом с существующей инфраструктурой, а затем обслуживать отдельные задачи поиска или памяти.
Разработчики видят применения в переносе эмбеддингов между системами, воспроизведении смыслового состояния на разных машинах, аудите изменений моделей, сравнении версий и снижении зависимости от непрозрачных конвейеров. В исследовательских экспериментах .semq-файлы также использовались для снимков и восстановления KV-кэша трансформеров, чтобы приостанавливать, переносить и продолжать активную сессию модели.
The SEMQ Group пока не раскрывает клиентов. Компания работает с участниками программы Founding Design Partnership Program, среди которых есть разработчики корпоративного ИИ, инфраструктурные игроки и команды, занимающиеся агентной памятью, поиском и проверяемыми ИИ-процессами. По словам Мак Аллистера, интерес приходит от организаций, где воспроизводимость, состояние модели, снижение затрат и возможность проверять смысловое поведение ИИ имеют прямое операционное значение.
Большие ИИ-модели требуют всё больше памяти, дисков и дорогого оборудования, а привычная экономия часто бьёт по качеству ответов. Исследователи из The SEMQ Group предлагают другой подход: не сжимать числовые веса модели всё грубее, а отделить смысл от способа хранения векторов.
Речь идёт о технологии SEMQ, или Symbolic Embedding Multi-Quantization. Основатель и глава The SEMQ Group Андрес Мак Аллистер считает, что машинное обучение можно сделать менее требовательным к ресурсам без обычной потери точности при квантовании. Вместо хранения эмбеддингов как длинных наборов чисел с плавающей точкой SEMQ сохраняет относительные связи между элементами: близость, направление, соседство и структуру пространства.
Эмбеддинги помогают модели переводить слова, документы или другие данные в векторы. В классической схеме векторы состоят из чисел, а точность хранения напрямую влияет на объём памяти. Формат FP32 требует четыре байта на параметр, поэтому модель на семь млрд параметров занимает около 28 ГБ памяти и диска. FP16 или BF16 сокращают объём до 14 ГБ, а более жёсткие варианты вроде FP8, INT8, Q6, Q5, Q4, Q3 и Q2 уменьшают нагрузку ещё сильнее, но могут ухудшать ответы.
В исследовании , опубликованном ранее в 2026 году, авторы описывают SEMQ как слой для хранения смыслового состояния через фиксированные символические структуры вместо исходных векторов. Метод сохраняет относительную геометрию смыслового пространства: какие объекты похожи, какие попадают в соседние области, как меняется структура при новых данных. Авторы отдельно отмечают, что SEMQ отделяет смысловое состояние от конкретных метрик, способов индексации и логики выполнения запросов, поэтому представление легче переносить и проверять в разных системах.
Мак Аллистер объясняет, что для многих задач важнее не абсолютная величина вектора, а положение элементов друг относительно друга. Семантические системы обычно работают с отношениями, похожестью, соседством, непрерывностью, поиском и изменением состояния во времени, а не с сохранением каждого числового значения в исходном виде.
Первые тесты показали, что подход может сохранять качество там, где обычное квантование резко проигрывает. В бенчмарке Banking77 из набора MTEB модель all-MiniLM-L6-v2 с исходным FP32 показала точность 92,26%. SEMQ достигла 92,27%, фактически повторив результат базовой версии. Для сравнения, четырёхбитное квантование дало 56,05%, отстав от FP32 на 36,22 процентного пункта.
Авторы подчёркивают, что результат не доказывает бесполезность традиционного квантования во всех задачах. Проверка показывает другое: в задачах классификации и поиска по смыслу сохранение структуры может оказаться важнее, чем сохранение каждого числового значения.
SEMQ можно подключать при загрузке данных, когда организация кодирует векторы от своей модели в файл .semq, или во время запроса, когда система загружает, сравнивает, восстанавливает и проверяет представление. По словам Мак Аллистера, командам не придётся менять большую языковую модель, эмбеддинговую модель, векторную базу данных или агентный фреймворк. SEMQ может работать рядом с существующей инфраструктурой, а затем обслуживать отдельные задачи поиска или памяти.
Разработчики видят применения в переносе эмбеддингов между системами, воспроизведении смыслового состояния на разных машинах, аудите изменений моделей, сравнении версий и снижении зависимости от непрозрачных конвейеров. В исследовательских экспериментах .semq-файлы также использовались для снимков и восстановления KV-кэша трансформеров, чтобы приостанавливать, переносить и продолжать активную сессию модели.
The SEMQ Group пока не раскрывает клиентов. Компания работает с участниками программы Founding Design Partnership Program, среди которых есть разработчики корпоративного ИИ, инфраструктурные игроки и команды, занимающиеся агентной памятью, поиском и проверяемыми ИИ-процессами. По словам Мак Аллистера, интерес приходит от организаций, где воспроизводимость, состояние модели, снижение затрат и возможность проверять смысловое поведение ИИ имеют прямое операционное значение.
- Источник новости
- www.securitylab.ru