NVIDIA Mellanox MQM8790-HS2F в действии: оптимизация низколатентных межсоединений для RDMA/HPC/AI кластеров

April 10, 2026

Предыстория и вызов: Когда сеть становится узким местом

Быстрорастущая организация, занимающаяся исследованиями в области ИИ, столкнулась с распространенной проблемой: их кластер из более чем 200 ГП, используемый для обучения больших языковых моделей и молекулярно-динамических симуляций, испытывал непредсказуемое время завершения заданий. Несмотря на мощные вычислительные узлы, существующая сеть Ethernet со скоростью 100 Гбит/с страдала от всплесков задержки, потери пакетов при инкаст-паттернах и высокой загрузки ЦП из-за традиционной обработки стека TCP/IP. Команде требовалось решение, которое могло бы обеспечить стабильную задержку менее микросекунды, полностью поддерживать RDMA для GPU Direct и масштабироваться без капитальных затрат. После оценки доступных вариантов они выбрали迈络思(NVIDIA Mellanox) MQM8790-HS2F в качестве основного строительного блока для сетевой архитектуры своего кластера следующего поколения.

Решение и развертывание: Интеграция коммутатора InfiniBand MQM8790-HS2F

Организация развернулакоммутатор InfiniBand MQM8790-HS2Fв двухуровневой топологии fat-tree, подключив 128 вычислительных узлов (каждый оснащен адаптерами NVIDIA ConnectX-6 HDR) и 4 узла хранения данных. Благодаря 40 портам QSFP56, работающим на скорости 200 Гбит/с HDR, одинNVIDIA Mellanox MQM8790-HS2Fобеспечил неблокирующую коммутационную способность 16 Тбит/с — этого было достаточно, чтобы заменить два устаревших коммутатора Ethernet, одновременно упростив кабельную инфраструктуру. Развертывание использовалоMQM8790-HS2F 200Gb/s HDR 40-port QSFP56нативную поддержку RDMA и GPUDirect, обеспечивая прямой доступ к памяти между ГП на разных серверах без вмешательства ЦП.

Ключевые детали реализации включали:

Адаптивная маршрутизация для автоматического балансирования трафика по нескольким путям, устраняющая горячие точки.
SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) для агрегации в сети, ускоряющий операции All-Reduce до 2,5 раз.
Управление перегрузками на уровне коммутатора, предотвращающее блокировку в начале очереди, распространенную в сетях Ethernet с потерями.

Перед покупкой инженерная команда изучилатехническое описание MQM8790-HS2Fиспецификации MQM8790-HS2F, чтобы подтвердить совместимость с их существующими кабелями и трансиверами Mellanox. Экосистемасовместимая с MQM8790-HS2F— включая оптические и медные кабели HDR — позволила им повторно использовать 40% своих предыдущих инвестиций в межсоединения, значительно снизив барьер для обновления.

Результаты и преимущества: Измеримый прирост производительности и эффективности

После миграции на сеть на основеMQM8790-HS2Fорганизация задокументировала три категории улучшений:

Снижение задержки: Средняя задержка MPI ping-pong снизилась с 2,1 мкс (Ethernet RoCE) до 0,82 мкс, при этом задержка в хвосте практически отсутствовала.
Пропускная способность заданий: Распределенные задания обучения (на основе NCCL) завершались на 37% быстрее благодаря снижению накладных расходов на связь и ускорению SHARPv3.
Разгрузка ЦП: RDMA через InfiniBand снизил загрузку ЦП для сетевых операций с ~15% до менее чем 2%, освободив ядра для вычислений.

В тесте на полносвязное соединение 128 ГПрешение на базе коммутатора InfiniBand MQM8790-HS2Fподдерживало скорость 198 Гбит/с на порт с нулевой потерей пакетов, по сравнению с 112 Гбит/с с потерей 1,2% на предыдущей сети Ethernet. Для финансовых симуляций, выполняемых той же командой, вариативность заданий была снижена на 78%, что позволило установить более строгие SLA и предсказуемое время выполнения.

Резюме и перспективы: Инвестиции на будущее

Это реальное развертывание демонстрирует, чтоMQM8790-HS2F— это больше, чем просто герой спецификаций; он обеспечивает ощутимые преимущества для производственных рабочих нагрузок HPC и ИИ. Сочетание пропускной способности 200 Гбит/с HDR, 40 портов высокой плотности и передовых вычислений в сети трансформирует экономику кластера, сокращая как время завершения заданий, так и операционные расходы. Для ИТ-руководителей, оценивающихстоимость MQM8790-HS2Fпо сравнению с приростом производительности, это исследование случая предполагает окупаемость инвестиций менее чем за 12 месяцев только за счет улучшений эффективности вычислений.

Поскольку организация планирует удвоить количество ГП до более чем 400 узлов, она уже выделила бюджет на дополнительныеMQM8790-HS2F для продажидля поддержания неблокирующей архитектуры fat-tree. Способность коммутатора смешивать скорости HDR и EDR обеспечивает плавный путь миграции по мере постепенной замены устаревших адаптеров. Для архитекторов, проектирующих кластеры следующего поколения, ориентированные на RDMA,NVIDIA Mellanox MQM8790-HS2Fпредлагает проверенную, готовую к производству основу, которая масштабируется от ведомственных исследований ИИ до эксафлопсных суперкомпьютеров.