Dell XE9680: сервер ИИ-платформы с 8 ускорителями NVIDIA H100

PowerEdge XE9680 — флагманская 6U-платформа Dell Technologies для задач искусственного интеллекта, машинного обучения и высокопроизводительных вычислений. Сервер представляет собой эволюцию подхода к ИИ-инфраструктуре: вместо множества узких 1–2U-систем — единый шасси с рекордной плотностью ускорителей (до 8× NVIDIA H100/A100), объединённых через высокоскоростные интерконнекты и оптимизированных под работу с большими моделями. От предыдущих поколений ИИ-платформ отличается переходом на архитектуру PCIe Gen5, поддержкой памяти DDR5 и гибкими схемами охлаждения — от воздушной до полноразмерной жидкостной.

Эта модель — не «универсальный солдат». Смотреть в сторону dell xe9680 стоит, если перед вами стоят задачи:

обучение и инференс больших языковых моделей (LLM) и мультимодальных сетей;
масштабные симуляции в научных вычислениях (вычислительная гидродинамика, квантовая химия);
консолидация ИИ-нагрузок в едином шасси для снижения сложности кабельной инфраструктуры и управления.

Технические характеристики и сравнение с предыдущим поколением

XE9680 построен на платформе Intel Sapphire Rapids (4-е поколение Xeon Scalable) с чипсетом C741, что даёт переход на память DDR5 и шину PCIe 5.0 — ключевые улучшения относительно предыдущих ИИ-решений Dell на базе Ice Lake. Архитектура ориентирована на минимизацию «узких мест» между процессорами, памятью и ускорителями: пропускная способность каждого линка PCIe выросла вдвое (до ~32 ГБ/с на направление), что критично при передаче данных между хост-системой и 8 GPU.

Параметр	Характеристика
Процессоры	2× Intel Xeon Scalable 4th Gen (Sapphire Rapids), до 60 ядер на процессор, поддержка частот до 3.7 ГГц (буст), TDP до 350 Вт на сокет [подтверждено]
Память	DDR5, 32 слота, до 6 ТБ (с использованием модулей 192/256 ГБ), частоты до 4800 МГц, поддержка RDIMM/LRDIMM [подтверждено]
Дисковая подсистема	Спереди: до 24× NVMe U.2 2.5" (EDSFF не поддерживается); сзади: до 2× M.2 для загрузки (поддержка BOSS-N1) [подтверждено]
Слоты расширения	До 8× PCIe Gen5 x16 для GPU (физически x16, электрически x16), 2× дополнительных слота для сетевых карт/OCP 3.0 [подтверждено]
Сеть	Базово: 1× OCP 3.0 слот (поддержка 10/25/100/200GbE); дополнительные адаптеры: PCIe Gen5 NIC для InfiniBand/NDR или Ethernet 400GbE [подтверждено]
Питание	До 4× горячезаменяемых БП (3000 Вт каждый, 80 Plus Platinum/Titanium), конфигурация N+1/N+N, поддержка 200–240 В переменного и 240 В постоянного тока [подтверждено]
Управление	iDRAC9 Enterprise с поддержкой Redfish API, виртуальной консоли, автоматизированного развертывания через OpenManage Enterprise [подтверждено]

Главное отличие от предшественников — не просто «больше слотов для карт», а системный подход к балансу ресурсов. В решениях предыдущего поколения (например, на базе двухпроцессорных R750xa с 4 GPU) пропускная способность PCIe Gen4 часто становилась бутылочным горлышком при агрегации данных от ускорителей. Переход на poweredge xe9680 с PCIe Gen5 снимает это ограничение, особенно в сценариях, где требуется частая синхронизация весов между всеми 8 GPU (например, при обучении распределённых моделей).

Память DDR5 с частотой 4800 МГц и поддержкой до 6 ТБ критична для работы с большими датасетами «в памяти» — например, при обработке медицинских изображений высокого разрешения или обогащённых графов знаний. Для задач, где важна не только вычислительная мощность, но и объём оперативной памяти (масштабные симуляции молекулярной динамики), это даёт преимущество перед конфигурациями с ограничением в 2–3 ТБ.

Под какие задачи лучше всего подходит эта модель?

XE9680 раскрывается в сценариях с высокой степенью параллелизма ускорителей и интенсивным обменом данными между ними: обучение трансформеров, генеративные модели, научные расчёты на неструктурированных сетках. Для задач с низкой коммуникационной нагрузкой (пакетная инференс-обработка изображений) может быть избыточен — здесь эффективнее использовать несколько 2U-систем с 2–4 GPU.

Система охлаждения и инженерные особенности

При размещении 8 GPU с TDP до 700 Вт (H100 SXM5) в одном шасси тепловыделение достигает 6–7 кВт — это требует продуманной схемы отвода тепла. Воздушная версия XE9680 использует модульную систему вентиляторов с возможностью горячей замены: 8–10 вентиляторов в конфигурации N+1, с интеллектуальным управлением скоростью вращения на основе температуры отдельных зон (процессоры, память, слоты ускорителей). Воздух подаётся спереди, проходит через туннели охлаждения, выдувается сзади — классическая схема «горячий коридор/холодный коридор».

Для конфигураций с максимальной плотностью ускорителей (8× H100) Dell рекомендует жидкостное охлаждение. Сервер поддерживает как прямое охлаждение через пластины на процессорах и GPU (Direct Liquid Cooling), так и гибридные схемы. Важно: жидкостная версия маркируется как XE9680L — это не отдельная модель, а конфигурационный вариант с предустановленными элементами гидравлической развязки и усиленными креплениями. Для развёртывания потребуется совместимая инфраструктура СВО в ЦОД (трубопроводы, распределительные коллекторы).

Инженерные изменения относительно предыдущих поколений включают:

усиленное шасси с оптимизированными воздушными туннелями между слотами GPU для предотвращения «теплового взаимовлияния»;
модульные радиаторы с увеличенной площадью оребрения для высокотемпературных компонентов;
датчики температуры в каждой зоне охлаждения с автоматическим троттлингом при превышении порогов.

Шумовая характеристика в воздушной конфигурации при полной нагрузке — около 75–80 дБА на расстоянии 1 метр, что требует размещения в выделенных зонах ЦОД с шумоизоляцией. Жидкостная версия снижает этот показатель до 55–60 дБА.

Дизайн и архитектура

Внешний вид и эргономика

6U-форм-фактор обеспечивает достаточное пространство для обслуживания без демонтажа соседних серверов. Лицевая панель выполнена в фирменном стиле PowerEdge: съёмный безель с индикаторами состояния каждого накопителя, кнопка питания/сброса, сервисный порт для подключения VGA/USB при первичной настройке. Сзади — плотная компоновка: слоты расширения, разъёмы питания, порты iDRAC (выделенный 1GbE) и LOM/OCP. Все критичные компоненты (вентиляторы, БП, накопители) поддерживают горячую замену — обслуживание не требует остановки системы.

Дисковая подсистема

Основной фокус архитектуры — не на объёме хранения, а на скорости подачи данных к ускорителям. Спереди устанавливаются до 24 накопителей NVMe U.2 2.5", что даёт теоретическую пропускную способность свыше 30 ГБ/с при использовании современных дисков (например, Dell PowerVault NVMe). Для загрузки ОС применяется модуль BOSS-N1 с двумя M.2 накопителями в RAID 1 — решение проверенное и отказоустойчивое.

Важно: в ИИ-сценариях дисковая подсистема часто становится узким местом при загрузке больших датасетов. Рекомендуется комбинировать локальные NVMe с высокоскоростным распределённым хранилищем (например, параллельная файловая система через 200GbE). Для подключения внешних массивов потребуется отдельный контроллер — в базовой поставке контроллеры RAID не входят.

Масштабируемость и сеть

Ключевая особенность — отсутствие блокировок слотов при установке двухслотовых ускорителей. Все 8 слотов работают независимо в конфигурации x16 Gen5, что позволяет устанавливать как SXM5-модули (через мезонинные платы), так и PCIe-версии H100/A100. Для связи между ускорителями поддерживается [аксессуар Dell NVIDIA NVLink High-speed Interface Kit (2 слота) для видеокарт RTX](https://dellshop.ru/catalog/aksessuar-dell-nvidia-nvlink-high-speed-interface-kit-2-slota-dlya-videokart-rtx-a4000-a5000-a6000 ), обеспечивающий прямую связь с пропускной способностью до 900 ГБ/с между парами карт — критично для алгоритмов, чувствительных к задержкам (например, коллективная коммуникация в NCCL).

Питание ускорителей требует внимания: каждый 350–700 Вт GPU нуждается в выделенных 8-pin и 6-pin разъёмах. Используйте только сертифицированные кабели — например, [аксессуар Dell Кабель питания GPU (8-pin + 6-pin) короткий для видеокарт PCIe](https://dellshop.ru/catalog/aksessuar-dell-kabel-pitaniya-gpu-8-pin-6-pin-korotkiy-dlya-videokart-pcie-mpn-mgkmr ), который минимизирует потери и исключает перегрев при максимальной нагрузке.

Сетевая масштабируемость решается через слот OCP 3.0 (до 200GbE) и два дополнительных PCIe Gen5 x16 для адаптеров 400GbE или InfiniBand NDR. Для распределённого обучения на нескольких серверах XE9680 рекомендуется использовать коммутаторы с поддержкой RoCE v2 или прямое подключение через InfiniBand.

Управление, интеграция и обновление

iDRAC9 Enterprise — полноценная платформа управления «из коробки»: виртуальная консоль KVM, мониторинг температуры/нагрузки/потребления в реальном времени, автоматическое восстановление после сбоев. Интеграция с системами мониторинга (Zabbix, Prometheus) возможна через экспортеры метрик iDRAC или напрямую через Redfish API — Dell предоставляет готовые шаблоны для популярных решений.

Безопасность реализована на нескольких уровнях: модуль TPM 2.0 для защиты ключей, Secure Boot для проверки целостности прошивок, шифрование данных на уровне дисков (при использовании самозашифровывающихся накопителей). Обновления прошивок (BIOS, iDRAC, CPLD) выполняются «горячо» через веб-интерфейс iDRAC или автоматически через репозиторий в OpenManage Enterprise — поддерживается функция автоматической откатки при неудачной установке.

Тестирование и производительность

Собственных тестов нет. Оценка производительности основана на данных независимых лабораторий (включая результаты тестов от ретейлеров и системных интеграторов) и спецификациях архитектуры.

По заявлению производителя, конфигурация с 8× NVIDIA H100 SXM5 демонстрирует до 3–4× прирост в задачах обучения трансформеров относительно систем с 4× A100 на платформе предыдущего поколения — преимущества дают комбинация архитектуры Hopper, NVLink 4.0 и PCIe Gen5. В сценариях с высокой коммуникационной нагрузкой (например, коллективная операция all-reduce в Horovod) узким местом часто становится не сами ускорители, а сеть между серверами — поэтому для кластеров из нескольких XE9680 критична инфраструктура 200/400GbE или InfiniBand.

В односерверных конфигурациях ограничения проявляются в двух сценариях:

При работе с датасетами, не помещающимися в оперативную память — скорость загрузки с дисков становится бутылочным горлышком. Решение: агрессивное кэширование на уровне файловой системы или использование распределённых хранилищ с параллельным доступом.
При обучении моделей с низкой степенью параллелизма — не все фреймворки эффективно используют 8 ускорителей. Здесь важна оптимизация кода под многоузловую коммуникацию (NCCL, DeepSpeed).

Первым этапом апгрейда для большинства сценариев рекомендуется увеличение объёма памяти до 4–6 ТБ и переход на диски с интерфейсом PCIe Gen4 NVMe — это даёт более заметный эффект, чем замена сетевых адаптеров на более скоростные (если текущая сеть не перегружена).

Типовые конфигурации

Базовая конфигурация для старта

CPU: 2× Intel Xeon Gold 6430 (32 ядра, 2.1 ГГц)
RAM: 1 ТБ DDR5-4400 (16× 64 ГБ)
Диски: 4× 3.84 ТБ NVMe U.2 (данные) + BOSS-N1 2× 480 ГБ M.2 (ОС)
GPU: 4× NVIDIA A100 80 ГБ PCIe
Сеть: OCP 3.0 100GbE
БП: 2× 2400 Вт (1+1)

Сценарии: пилотные проекты по ИИ, разработка и тестирование моделей, инференс средних моделей. Ограничение: не хватит пропускной способности для обучения больших трансформеров. Масштабировать первым — память и количество GPU.

Сбалансированная для виртуализации/БД

Хотя XE9680 позиционируется как ИИ-платформа, его можно использовать для консолидации виртуальных сред с ускорением. Для этого потребуется комплект для установки ускорителей: [аксессуар Dell: Комплект GPU Ready Kit с кронштейном R750xa для серверов PowerEdge](https://dellshop.ru/catalog/aksessuar-dell-komplekt-gpu-ready-kit-s-kronshteynom-r750xa-dlya-serverov-poweredge-podderzhka-nvidia-ampere-a100a40a30h100-samostoyatelnaya-ustanovka ) обеспечивает механическую стабильность при установке до 4 GPU в конфигурации с упором на баланс CPU/RAM/ускорители.

CPU: 2× Intel Xeon Platinum 8468 (48 ядер, 2.7 ГГц)
RAM: 2 ТБ DDR5-4800 (16× 128 ГБ)
Диски: 12× 7.68 ТБ NVMe U.2 в программном RAID 10
GPU: 2× NVIDIA A40 для графической виртуализации
Сеть: OCP 3.0 200GbE + дополнительная 100GbE карта
БП: 3× 2400 Вт (2+1)

Сценарии: виртуализация рабочих станций (VDI), СУБД с ускорением запросов (например, Oracle с поддержкой GPU), аналитические платформы. Ограничение: избыточная высота 6U для задач без ускорителей — здесь эффективнее 2U-серверы линейки R760.

Топовая для тяжёлых нагрузок

Для максимальной производительности в задачах обучения больших моделей рекомендуется конфигурация с 8 GPU и жидкостным охлаждением. Полноценную платформу можно собрать на базе [сервера Dell PowerEdge XE9680L Rack Server для ИИ/ML/DL](https://dellshop.ru/catalog/server-dell-poweredge-xe9680l-rack-server-dlya-iimldl-vysokoplotnaya-platforma-s-podderzhkoy-do-8-gpu-nvidia-h100a100 ), который поставляется с предустановленными элементами гидравлической развязки и усиленной системой крепления ускорителей.

CPU: 2× Intel Xeon Platinum 8490H (60 ядер, 1.9 ГГц)
RAM: 6 ТБ DDR5-4800 (32× 192 ГБ LRDIMM)
Диски: 8× 6.4 ТБ NVMe U.2 Gen4
GPU: 8× NVIDIA H100 80 ГБ SXM5 с NVLink
Сеть: OCP 3.0 200GbE + 2× адаптера 400GbE
БП: 4× 3000 Вт Titanium (3+1)

Сценарии: обучение моделей >100 млрд параметров, мультимодальные сети, высокоточные научные симуляции. Ограничение: требует инфраструктуры жидкостного охлаждения в ЦОД и высокой квалификации инженеров для обслуживания.

Типичные ошибки при выборе конфигурации

Недооценка питания: установка 8× H100 без расчёта пикового потребления приводит к отключению БП. Решение: всегда закладывать запас 20–25% и использовать конфигурацию 4 БП для 8 ускорителей.
Игнорирование охлаждения: воздушная система не справляется с 8× H100 в стандартном ЦОД с температурой подачи >24°C. Решение: для максимальных конфигураций выбирать жидкостное охлаждение или ограничивать нагрузку на ускорители.
Слишком мало памяти: 1–2 ТБ на 8 GPU — недостаточно для больших батчей. Решение: минимум 512 ГБ RAM на GPU при обучении трансформеров.
Слабая сеть: 25GbE становится узким местом при распределённом обучении. Решение: для кластеров из 2+ серверов использовать минимум 100GbE, лучше 200/400GbE или InfiniBand.
Некачественные кабели питания GPU: использование несертифицированных кабелей вызывает перегрев и сбои. Решение: применять только оригинальные комплекты от Dell.

Выводы

Dell PowerEdge XE9680 — специализированная 6U-платформа для консолидации ИИ-нагрузок с рекордной плотностью ускорителей. Это не замена универсальным серверам, а решение для сценариев, где критичны пропускная способность между ускорителями и минимизация сложности инфраструктуры.

Преимущества:

До 8 GPU NVIDIA H100/A100 в одном шасси с полной пропускной способностью PCIe Gen5 — идеально для обучения больших моделей.
Поддержка жидкостного охлаждения (через версию XE9680L) для работы на пределе TDP ускорителей.
Гибкость конфигурирования: от 4 GPU для инференса до 8 GPU для обучения, с возможностью апгрейда «на лету».
Интеграция в экосистему Dell (OpenManage, SupportAssist) упрощает управление в крупных развёртываниях.

Ограничения:

Высокая стоимость входа и эксплуатации — оправдана только при реальной потребности в 6–8 ускорителях.
Требовательность к инфраструктуре ЦОД (охлаждение, электропитание, высота стойки).
Сложность обслуживания по сравнению с 1–2U-системами — для замены компонентов требуется больше пространства.

XE9680 подойдёт исследовательским центрам, крупным ИТ-компаниям с командами по ИИ, провайдерам ИИ-услуг и финансовым организациям, работающим с алгоритмической аналитикой в реальном времени. Для среднего бизнеса или задач с 1–4 ускорителями рассмотрите более компактные решения линейки PowerEdge.

Dell PowerEdge XE9680