Новости Никому не известный стартап грозится унизить чипы Nvidia сразу по двум фронтам: скорости и энергии

NewsMaker

I'm just a script
Премиум
27,637
46
8 Ноя 2022
Tensordyne бросила вызов гиганту, заменив умножение на сложение — и пока никто не может проверить, врёт она или нет.


jy62htnqicivngh718fwnpgx5i4nt80j.jpg

Калифорнийский стартап Tensordyne отправил в производство проект первого ИИ-чипа Napier и уже сравнивает будущую систему с ускорителями Nvidia. По расчётам компании, узел из 72 чипов Napier сможет запускать большие языковые модели в четыре раза быстрее, чем система на 72 Nvidia GB300, и при этом расходовать в пять раз меньше энергии. Проверить эти цифры пока нельзя: готового оборудования у клиентов ещё нет, а первые реальные системы должны появиться позже.

Главная ставка Tensordyne - не на очередное увеличение числа вычислительных блоков, а на другой способ считать математику нейросетей. В основе работы современных моделей лежат матричные умножения. Чипы постоянно перемножают большие массивы чисел, а такие операции требуют много энергии и занимают заметную площадь на кристалле. Napier пытается заменить часть этой нагрузки более дешёвыми операциями.

Идея опирается на простое математическое свойство: логарифм произведения равен сумме логарифмов. Если перевести числа в логарифмическую форму, то умножение можно заменить сложением. Для микросхемы это важно: сумматоры проще, меньше и экономичнее, чем блоки умножения. Tensordyne утверждает, что именно за счёт этого Napier может разместить больше вычислений на меньшей площади и снизить расход энергии.

Сам принцип известен давно, но раньше мешала практическая проблема. Нейросети обычно работают с числами в форматах с плавающей точкой, а переход туда и обратно из логарифмического представления съедал слишком много времени, энергии и точности. В Tensordyne заявляют, что нашли способ выполнять такие преобразования достаточно быстро и аккуратно прямо на кремнии. Подробное техническое описание компания пока не раскрыла, поэтому ключевая часть заявления остаётся закрытой для внешней проверки.

Форматы чисел давно влияют на развитие ИИ-ускорителей. Чем короче представление числа, тем меньше схема, быстрее вычисления и ниже энергопотребление. Именно поэтому индустрия перешла от более тяжёлых форматов к FP16, BF16, FP8 и ещё более компактным вариантам. Nvidia тоже связывала значительную часть прироста производительности своих GPU с переходом на короткие числовые форматы. Tensordyne идёт дальше и предлагает не просто урезать точность, а изменить саму арифметику.

Компания делает Napier прежде всего для инференса , то есть запуска уже обученных моделей. Этот рынок быстро растёт: ИИ-сервисы отвечают пользователям, пишут код, работают как агенты, обрабатывают длинные запросы и выполняют цепочки действий. В такой нагрузке важны не только общая производительность, но и задержка ответа, стоимость миллиона токенов и расход энергии в дата-центре.

Запуск большой языковой модели обычно делят на две части. Сначала идёт prefill: модель читает входной текст, превращает его в токены и строит рабочий контекст для дальнейшего ответа. Этот этап требует много вычислений. Затем начинается этап decode: модель по одному генерирует новые токены, опираясь на уже созданный контекст. Здесь особенно важны память, пропускная способность сети и задержки между чипами, потому что каждый следующий фрагмент ответа зависит от предыдущего.

Производители ИИ-оборудования всё чаще разделяют эти задачи между разными системами. Одни ускорители лучше подходят для тяжёлого начального расчёта, другие - для быстрой генерации токенов с малой задержкой. Tensordyne утверждает, что Napier сможет эффективно закрывать обе части в одной архитектуре, без связки нескольких поставщиков и без разворачивания большого числа стоек.

Для вычислительно тяжёлого этапа компания использует логарифмическую математику. Для генерации ответа Napier получил 144 ГБ высокоскоростной памяти HBM на чип и собственную сеть между процессорами. В материалах Tensordyne эта сеть называется Napier Link или TDN Link; компания заявляет задержку порядка одной микросекунды или ниже и высокую пропускную способность внутри 72-чиповой системы.

Один узел Tensordyne занимает четверть стандартной стойки. В него входят 72 чипа Napier, восемь процессоров Intel Xeon и 64 ТБ твердотельного хранилища. Полная стойка объединяет четыре таких узла, то есть 288 чипов. По данным компании, такая конфигурация потребляет около 120 кВт, работает с воздушным охлаждением и рассчитана на большие модели, включая системы с триллионами параметров.

Самое громкое заявление касается экономики. Tensordyne утверждает, что стойка из четырёх узлов при работе с моделью на 2 трлн параметров сможет выдавать около 1300 токенов в секунду на пользователя при стоимости $11 за миллион токенов. Компания сравнивает это с более крупными гибридными системами на базе будущих ускорителей Nvidia и отдельных решений для генерации ответа, которые, по её оценке, потребовали бы больше стоек и значительно больше энергии.

Но пока все эти цифры остаются обещанием. Tensordyne уже прошла важный этап: проект Napier отправлен на производство. В отрасли это называется tapeout. После него чип ещё нужно изготовить, получить, проверить, устранить возможные проблемы, собрать системы, довести программный стек и дать клиентам возможность провести реальные тесты. Между красивой симуляцией и стабильной работой в дата-центре часто лежит большая инженерная дистанция.

При этом важн понимать, что Nvidia , AMD и другие крупные поставщики выигрывают не только за счёт железа, но и за счёт зрелой программной экосистемы. Разработчики привыкли к их инструментам, библиотекам, компиляторам и профилировщикам. Новому чипу мало быть эффективным на бумаге. Он должен быстро запускать реальные модели, хорошо работать с популярными фреймворками и не требовать от клиентов полной перестройки инфраструктуры.

Если Tensordyne подтвердит свои расчёты на готовом оборудовании, Napier может стать заметной альтернативой для инференса. Энергопотребление уже стало одной из главных проблем ИИ-сервисов: дата-центрам нужны быстрые ответы, низкая стоимость токенов и меньшее давление на электросети. Любая архитектура, которая реально снижает задержку и расход энергии, получит внимание облачных провайдеров и разработчиков моделей.

Первые облачные бета-тесты Tensordyne планирует открыть до конца 2026 года, а поставки систем клиентам ожидаются в 2027 году. До этого момента заявление компании стоит читать осторожно: Napier выглядит интересной попыткой пересобрать математику ИИ-ускорителей, но рынок поверит в преимущество над Nvidia только после независимых тестов на реальных моделях, а не после сравнений в симуляции.
 
Источник новости
www.securitylab.ru

Похожие темы