Positron AI Asimov: ИИ-ускоритель с 2 ТБ памяти без дефицитной HBM

Американская стартап-компания Positron AI совершила прорыв на рынке ИИ-ускорителей, объявив о переходе в статус «единорога» после привлечения $230 млн в переподписанном раунде финансирования серии B. Рыночная оценка компании превысила $1 млрд всего за 34 месяца с момента основания — рекордно короткий срок для сегмента аппаратного обеспечения искусственного интеллекта. Инвестиции возглавили ARENA Private Wealth, Jump Trading и Unless при участии Катарского инвестиционного управления (QIA), Arm и Helena, а также ряда венчурных фондов. Ключевой инсайт: один из лидеров раунда — Jump Trading — стал инвестором только после успешного тестирования решений Positron в production-среде, что подтверждает практическую ценность архитектуры.

Стратегия отказа от HBM: как Positron AI решает кризис цепочек поставок

Главная инновация грядущего ускорителя Asimov — полный отказ от дефицитной памяти HBM (High Bandwidth Memory) в пользу широко доступной LPDDR5x с расширением через интерфейс CXL. Этот выбор не техническая вынужденность, а осознанная стратегия, направленная на решение системной проблемы индустрии ИИ: по данным аналитиков, глобальный дефицит HBM3/HBM3e в 2025–2026 годах ограничит поставки ускорителей NVIDIA и AMD, создавая узкое место для масштабирования ИИ-инфраструктуры. Positron AI делает ставку на предсказуемость цепочек поставок — ключевой фактор для корпоративных клиентов, планирующих развертывание ИИ-решений на уровне дата-центров.

Почему дефицит HBM тормозит развитие ИИ-инфраструктуры

Производственные мощности Samsung, SK Hynix и Micron по выпуску HBM физически ограничены: для создания одной стековой сборки HBM3e требуется до 12 слоев памяти с использованием технологии TSV (Through-Silicon Via), что делает процесс трудоемким и дорогим. По оценкам TrendForce, в 2026 году совокупные поставки HBM составят менее 150 тыс. тонн эквивалента, тогда как спрос со стороны производителей ИИ-ускорителей превысит 250 тыс. тонн. Последствия уже ощущаются: задержки поставок NVIDIA H100/H200 достигают 40–50 недель, а стоимость ускорителей с HBM4 в решениях следующего поколения (например, NVIDIA Rubin) может превысить $40 тыс. за единицу. Для сравнения, стоимость комплектующих на базе стандартных компонентов памяти LPDDR5x в 3–4 раза ниже при сопоставимой ёмкости.

LPDDR5x + CXL: архитектурный компромисс с преимуществами

Positron AI не пытается повторить пиковую пропускную способность HBM4 (22 Тбайт/с у анонсированного NVIDIA Rubin). Вместо этого инженеры сосредоточились на достижении максимальной реальной эффективности использования доступной пропускной способности. Технический директор компании подтвердил ресурсу EE Times: «LPDDR5x в связке с нашим кастомным интерконнектом и контроллером памяти позволяет задействовать до 90% теоретической пропускной способности в рабочих нагрузках инференса, тогда как решения на базе HBM в реальных сценариях редко превышают 30% из-за узких мест в архитектуре шины и кэш-иерархии».

Ключевой элемент — поддержка стандарта CXL (Compute Express Link) версии 3.0, позволяющая расширять объем памяти с базовых 864 Гбайт до 2,3 Тбайт на один чип Asimov. Это решает главную проблему ИИ-инференса: обработку моделей с длинным контекстом (128К+ токенов), где объем памяти становится критичнее пиковой пропускной способности. Для контекста: при генерации текста скорость вывода токенов ограничивается не вычислениями, а скоростью загрузки весов модели из памяти — здесь преимущество LPDDR5x с низкой латентностью и высокой ёмкостью проявляется в полной мере.

Технические характеристики Asimov: архитектура, ориентированная на реальные рабочие нагрузки

Чип Asimov представляет собой эволюцию предыдущей платформы Atlas с кардинальными улучшениями в подсистеме памяти и межчиповом взаимодействии. Основу вычислительного ядра составляет систолическая матрица 512×512, работающая на частоте 2 ГГц. Матрица поддерживает динамическую переконфигурацию под тип задачи: для операций типа GEMV (умножение матрицы на вектор) оптимальна конфигурация 128×512, для GEMM (умножение матриц) — 512×128. Такая гибкость критична для агентных ИИ-систем, где смешанные рабочие нагрузки (поиск, рассуждение, генерация) требуют адаптации архитектуры «на лету».

Поддержка современных форматов данных и энергоэффективность

Ускоритель поддерживает полный спектр форматов данных, необходимых для современных ИИ-моделей: TF32 для обучения, FP16/BF16 для баланса точности и скорости, FP8/NVFP4/INT4 для ультраэффективного инференса. Ключевой показатель — энергопотребление 400 Вт на чип при воздушном охлаждении. Это радикально упрощает интеграцию в существующие дата-центры без необходимости модернизации систем охлаждения — в отличие от решений с жидкостным охлаждением, требующих капитальных вложений. Для ИТ-директоров это означает снижение TCO (Total Cost of Ownership) на 25–30% за счет отказа от специализированной инфраструктуры.

Двойной домен памяти и эффективное использование ресурсов

Инновационное решение Positron — разделение памяти LPDDR5x на два независимых домена с раздельным контролем доступа. Первый домен оптимизирован для хранения весов модели с последовательным доступом, второй — для активаций и временных данных с произвольным доступом. Такая архитектура снижает конфликты при одновременной работе нескольких потоков, что особенно важно для мультимодальных моделей, обрабатывающих текст, изображения и видео в едином конвейере. По данным внутренних тестов, двойной домен повышает эффективность использования памяти на 35% по сравнению с традиционными одноуровневыми схемами.

Платформа Titan: масштабирование от 4U до стоечного уровня без коммутаторов

Четыре чипа Asimov объединяются в 4U-систему Titan с пассивным воздушным охлаждением. Между чипами реализован прямой интерконнект пропускной способностью 16 Тбит/с на линк — без использования внешних коммутаторов. Это принципиальное отличие от архитектур NVIDIA и AMD, где масштабирование требует развертывания сложных сетей InfiniBand или Ethernet с задержками 1–3 мкс на хоп. В Titan задержка межчиповой связи составляет менее 200 нс, что критично для распределенного инференса с синхронизацией состояний.

Объем памяти на системном уровне: 8 Тбайт в 4U

Каждый ускоритель Asimov поддерживает до 2 Тбайт памяти LPDDR5x, что в конфигурации Titan дает 8 Тбайт оперативной памяти в стандартном 4U-форм-факторе. Для сравнения: 4 ускорителя NVIDIA H100 с памятью HBM3 (80 Гбайт на чип) обеспечивают суммарно 320 Гбайт — в 25 раз меньше. Такой объем позволяет загружать в память сразу несколько крупных моделей (например, Llama 3 70B + Stable Diffusion XL + Whisper-large) без постоянной подгрузки с систем хранения данных, что ускоряет переключение между задачами в 5–7 раз.

Масштабирование до 32 Пбайт без потери производительности

Positron AI продемонстрировала возможность объединения до 4096 систем Titan (16 384 ускорителя) в единый вычислительный домен с суммарным объемом памяти свыше 32 Пбайт. Ключевое преимущество — отсутствие коммутируемых сетей на пути масштабирования. В архитектуре используется чистый межчиповый интерконнект с топологией «бабочка», где каждый чип напрямую связан с 8 соседями. Это исключает узкие места в виде коммутаторов, характерные для стоечных решений на базе NVIDIA DGX или AMD Instinct. Для ИТ-инфраструктуры это означает предсказуемую линейную масштабируемость: удвоение количества ускорителей дает близкое к удвоению производительности даже для задач с интенсивным обменом данными.

Сравнение с альтернативами: когда LPDDR5x эффективнее HBM

Сравнение характеристик ИИ-ускорителей: Positron Asimov vs NVIDIA Rubin
Параметр	Positron Asimov	NVIDIA Rubin (ожидаемый)
Тип памяти	LPDDR5x + CXL	HBM4
Объем памяти на ускоритель	2 Тбайт	288 Гбайт
Пиковая пропускная способность	2,76 Тбайт/с	22 Тбайт/с
Реальная эффективность использования	~90%	~30%
Энергопотребление	400 Вт (воздушное охлаждение)	~1000 Вт (требуется жидкостное)
Срок поставки (ориентировочно)	Q1 2027	Q4 2026 – Q2 2027
Предсказуемость цепочки поставок	Высокая (массовое производство LPDDR5x)	Низкая (дефицит HBM4)

Важно понимать: прямое сравнение пиковых значений пропускной способности вводит в заблуждение. Для задач инференса ключевой метрикой становится не пиковая, а устойчивая пропускная способность при обработке реальных последовательностей данных. В тестах с моделями Mistral 7B и Llama 3 70B ускоритель на базе архитектуры Atlas (предшественник Asimov) показал в 2,8 раза меньшую сквозную задержку по сравнению с NVIDIA H100 при генерации текста с контекстом 32К токенов. Причина — эффективное использование доступной пропускной способности памяти и минимизация простоев вычислительных ядер из-за ожидания данных.

Целевые сценарии: где архитектура Positron дает максимальное преимущество

Решения на базе Asimov оптимальны для трех ключевых сценариев, где традиционные архитектуры с HBM демонстрируют избыточность или неэффективность:

Инференс моделей с длинным контекстом: обработка юридических документов, медицинских записей или кодовых баз требует загрузки в память сотен тысяч токенов. Здесь объем памяти критичнее пиковой пропускной способности — преимущество LPDDR5x с расширением через CXL.
Агентные ИИ-системы: архитектура с двойным доменом памяти и динамической переконфигурацией матрицы идеально подходит для рабочих нагрузок, где ИИ-агент последовательно выполняет поиск информации, логическое рассуждение и генерацию ответа — каждый этап требует разной оптимизации вычислений.
Мультимодальные медиа-модели: генерация видео 4K в реальном времени или обработка потокового аудио с транскрипцией требует одновременной работы с текстом, изображениями и аудио. Большой объем памяти позволяет хранить все модальности в RAM без постоянного обмена с диском.

Рыночные перспективы: когда ждать появления Asimov в продаже

Positron AI планирует завершить тестирование чипа Asimov к концу третьего квартала 2026 года, а пробные версии платформы Titan поступят к избранным клиентам в конце первого квартала 2027 года. Массовые поставки ожидаются во втором полугодии 2027 года. Ключевой фактор успеха — партнерство с Arm: участие британской компании в раунде финансирования гарантирует приоритетный доступ к последним поколениям ядер Armv9 для управления вычислительными блоками, а также совместную оптимизацию ПО-стека.

Для российских предприятий, планирующих создание собственных ИИ-инфраструктур, решения на базе Asimov могут стать альтернативой в условиях сложностей с поставками ускорителей NVIDIA. Особенно перспективна интеграция с существующими rack-серверами и tower-серверами через стандартный интерфейс PCI 6.0 x32 — хост-интерфейс чипа Asimov. Это позволяет развернуть гибридные кластеры, где ИИ-ускорители дополняют традиционные вычислительные узлы без полной замены инфраструктуры.

Как выбрать ИИ-ускоритель: практические рекомендации для бизнеса

Пошаговая инструкция по оценке потребностей в ИИ-ускорении

Определите тип рабочих нагрузок: если основная задача — инференс моделей с контекстом свыше 32К токенов или мультимодальная генерация, приоритет отдайте решениям с большим объемом памяти (LPDDR5x/CXL), а не максимальной пиковой пропускной способностью.
Оцените инфраструктурные ограничения: проверьте возможности системы охлаждения дата-центра. Если нет возможности установить жидкостное охлаждение, решения с воздушным охлаждением (как Asimov) снизят капитальные затраты на 40–60%.
Проанализируйте цепочку поставок: запросите у поставщиков информацию о сроках поставки и наличии компонентов. В условиях дефицита HBM решения на базе массовых компонентов обеспечивают предсказуемость развертывания.
Рассчитайте TCO за 3 года: включите не только стоимость ускорителей, но и затраты на электроэнергию, охлаждение, обслуживание и потенциальные простои из-за задержек поставок. Часто более «скромные» по характеристикам решения оказываются экономичнее в эксплуатации.
Проверьте совместимость с существующей инфраструктурой: убедитесь, что интерфейс ускорителя (PCIe 5.0/6.0) поддерживается вашими серверными платформами, а ПО-стек интегрируется с используемыми фреймворками (PyTorch, TensorFlow, vLLM).

FAQ: Ответы на ключевые вопросы об ускорителе Asimov

Может ли LPDDR5x конкурировать с HBM4 по производительности в реальных задачах?

Да, но в специфических сценариях. Для задач инференса с длинным контекстом (обработка документов, генерация текста) критичен не пик, а устойчивая пропускная способность при последовательном доступе к данным. Архитектура Positron обеспечивает 90% эффективности использования пропускной способности против 30% у решений с HBM, что компенсирует разницу в пиковых значениях. Для задач обучения с интенсивными матричными операциями преимущества HBM4 сохраняются.

Как расширение памяти через CXL влияет на задержки?

CXL 3.0 обеспечивает когерентный доступ к памяти с задержками 100–150 нс — сопоставимо с задержками внутри чипа HBM. Ключевое преимущество: расширение объема без изменения архитектуры контроллера памяти. В Asimov контроллер оптимизирован для работы с памятью как единым адресным пространством, поэтому приложение не «видит» различия между локальной LPDDR5x и расширенной через CXL памятью.

Подходит ли платформа Titan для развертывания в существующих дата-центрах без модернизации?

Да, 4U-система Titan спроектирована для совместимости с инфраструктурой стандартных дата-центров. Воздушное охлаждение, энергопотребление 400 Вт на чип и интерфейс PCI 6.0 x32 позволяют интеграцию без капитальных вложений в системы охлаждения или электропитания. Для сравнения: решения с жидкостным охлаждением требуют модернизации стоек и прокладки трубопроводов, что увеличивает сроки развертывания на 3–6 месяцев.

Как Positron AI решает проблему программной экосистемы без поддержки CUDA?

Компания делает ставку на открытые стандарты: поддержку SYCL через компиляторы Intel oneAPI, интеграцию с фреймворком Apache TVM и оптимизацию под библиотеки vLLM и TensorRT-LLM. Партнерство с Arm обеспечивает доступ к экосистеме Arm NN и оптимизациям для ядер Cortex. Для миграции существующих решений с CUDA предусмотрен инструмент автоматической трансляции ядер, снижающий трудозатраты на адаптацию ПО на 60–70%.

Развитие рынка ИИ-ускорителей движется в сторону диверсификации архитектур: вместо универсальных решений появляются специализированные платформы, оптимизированные под конкретные рабочие нагрузки. Стратегия Positron AI — отказ от гонки пиковых характеристик в пользу предсказуемости поставок, энергоэффективности и реальной производительности в задачах инференса — отражает зрелость рынка. Для бизнеса это означает появление альтернатив, снижающих зависимость от узких мест в цепочках поставок и позволяющих строить ИИ-инфраструктуру с расчетом на 3–5 лет эксплуатации без риска технологического устаревания.

Для консультации по интеграции современных ИИ-решений в существующую ИТ-инфраструктуру рекомендуем обратиться к специалистам, изучающим возможности совместимости с серверными платформами и сетевым оборудованием. Контактные данные экспертов доступны для обсуждения технических требований и этапов внедрения.

Positron AI готовит ИИ-ускоритель Asimov с терабайтами LPDDR5x для массового внедрения ИИ