NVIDIA Mellanox MQM8790-HS2F Техническое решение: оптимизация взаимосвязей с низкой задержкой для кластеров RDMA / HPC / AI
April 10, 2026
Данное техническое решение предназначено для сетевых архитекторов, инженеров предпродажной подготовки и руководителей эксплуатации. Оно представляет собой комплексное руководство по проектированию, развертыванию и эксплуатации высокопроизводительных сетей InfiniBand, ориентированных на кластеры высокопроизводительных вычислений (HPC) и обучения искусственного интеллекта (AI), интенсивно использующие RDMA.NVIDIA Mellanox MQM8790-HS2F, ориентированных на кластеры высокопроизводительных вычислений (HPC) и обучения искусственного интеллекта (AI), интенсивно использующие RDMA.
Современные кластеры для обучения ИИ и научных вычислений все чаще сталкиваются с сетевыми соединениями как с основным узким местом производительности. Традиционные сети Ethernet испытывают трудности с управлением перегрузками, задержками в хвосте и возможностями разгрузки ЦП, не справляясь с требованиями распределенных шаблонов связи обучения, таких как All-Reduce и All-to-All. Ключевые требования включают:задержка от конца до конца менее микросекунды, без потерь, без сброса пакетов, поддержка GPU Direct RDMA, и возможность линейного масштабирования до тысяч узлов. Для фундаментального решения этих проблем эффективности межсоединений требуется выделенная архитектура коммутации InfiniBand.
Данное решение рекомендует двухуровневую топологию Fat-Tree для достижения неблокирующей, полной биссекционной пропускной способности. Как уровень листьев, так и уровень spines используют коммутатор InfiniBand MQM8790-HS2F, который обеспечивает 40 портов 200 Гбит/с HDR QSFP56. В качестве примера для кластера из 512 узлов дизайн выглядит следующим образом:
- Уровень листьев: Каждый MQM8790-HS2F подключает 20 вычислительных узлов (двойной восходящий канал) и 8 восходящих каналов к уровню spines.
- Уровень spines: 8 коммутаторов MQM8790-HS2F формируют плоскость spines с полносвязной топологией между каждым листом и каждым коммутатором spines.
- Сеть хранения данных и управления: Отдельная подсеть InfiniBand или выделенная сеть Ethernet для предотвращения вмешательства в трафик вычислений.
Эта архитектура гарантирует пропускную способность 200 Гбит/с между любыми двумя узлами, с множеством избыточных путей, обеспечивающих, что единая точка отказа не повлияет на глобальную связность. Высокая плотность портов MQM8790-HS2F 200 Гбит/с HDR 40-портовый QSFP56 сокращает количество необходимых коммутаторов на 50% по сравнению с решениями предыдущего поколения EDR, а также снижает сложность сети.
NVIDIA Mellanox MQM8790-HS2F выступает в качестве основного коммутационного блока в этом решении, выполняя следующие критически важные роли:
- Механизм без потерь: Управление потоком на канальном уровне InfiniBand устраняет потерю пакетов, обеспечивая эффективность транспорта RDMA.
- Адаптивная маршрутизация: Динамически балансирует трафик по нескольким путям, избегая перегруженных участков и повышая эффективную пропускную способность.
- Вычисления в сети SHARPv3: Разгружает операции редукции на коммутатор, ускоряя All-Reduce в 2-3 раза.
- Высокая плотность и низкое энергопотребление: 40 портов по 200 Гбит/с с ведущим в отрасли потреблением энергии на порт, снижающим совокупную стоимость владения (TCO).
Согласно техническому описанию MQM8790-HS2F и спецификациям MQM8790-HS2F, коммутатор обеспечивает совокупную коммутационную способность 16 Тбит/с, задержку от порта до порта менее 130 нс и поддерживает горячую замену блоков питания и вентиляторов для круглосуточной работы в производственных средах. Кроме того, устройство полностью совместимо с адаптерами NVIDIA ConnectX-6/7 HDR и широким спектром оптических/медных кабелей HDR, что подтверждает зрелость экосистемы совместимой с MQM8790-HS2F.
При развертывании решения следуйте этим шагам:
- Управление подсетью: Разверните активный/резервный менеджер подсети (SM); рекомендуется платформа NVIDIA UFM для централизованного управления и телеметрии.
- Разделы и уровни обслуживания: Используйте ключи разделов (P_Key) для изоляции арендаторов или рабочих нагрузок; настройте сопоставления SL2VL для приоритезации трафика обучения ИИ.
- Выбор кабеля: Используйте пассивные медные кабели для коротких расстояний (≤3 м) и активные оптические кабели или трансиверы для более длинных участков для поддержания целостности сигнала.
Для более крупных кластеров, превышающих 2000 узлов, может быть принята трехуровневая топология Fat-Tree или Dragonfly+, при этом ядро продолжает использовать MQM8790-HS2F в качестве строительного блока. При закупке дополнительных единиц проверьте цену MQM8790-HS2F и доступность через авторизованных дистрибьюторов; проверенные объявления MQM8790-HS2F для продажи обычно включают последнюю прошивку и гарантию. решение на базе коммутатора InfiniBand MQM8790-HS2F плавно масштабируется от исследований ИИ на уровне отдела до центров суперкомпьютеров эксафлопсного класса.
Эффективная эксплуатация сети InfiniBand требует проактивного мониторинга и дисциплинированного устранения неполадок:
- Мониторинг: Используйте
ibnetdiscoverдля проверки топологии,perfqueryдля счетчиков портов и телеметрию UFM для видимости перегрузок в реальном времени. - Распространенные проблемы и их решение:
- Мерцание канала: Проверьте правильность подключения кабеля и выполните тесты диагностики кабеля; замените неисправную оптику.
- Отказ менеджера подсети: Убедитесь, что приоритеты SM правильно настроены и что вторичный SM имеет действительную базу данных.
- Неравномерная адаптивная маршрутизация: Настройте параметры алгоритма маршрутизации (например,
routing_engine=ftree) и включите распределение нагрузки.
- Советы по оптимизации: Включите агрегацию SHARP для коллективных операций; настройте MTU до 4096 байт для передачи больших сообщений; используйте качество обслуживания (QoS) для разделения трафика управления, данных и администрирования.
Регулярные обновления прошивки через портал поддержки NVIDIA обеспечивают исправления безопасности и улучшения производительности. Обратитесь к техническому описанию MQM8790-HS2F для получения подробных базовых показателей производительности и ожидаемых значений счетчиков в нормальных условиях.
NVIDIA Mellanox MQM8790-HS2F представляет собой перспективную платформу коммутации InfiniBand, которая решает основные проблемы межсоединений кластеров RDMA/HPC/AI: задержка, потери, нагрузка на ЦП и масштабируемость. Реализуя описанную выше двухуровневую архитектуру Fat-Tree, организации могут добиться линейного масштабирования производительности, предсказуемого времени завершения заданий и значительно снизить совокупную стоимость владения по сравнению с устаревшими решениями Ethernet. Сочетание скорости 200 Гбит/с HDR, плотности 40 портов и возможностей вычислений в сети делает этот коммутатор идеальным выбором для новых развертываний или поэтапных обновлений сетей EDR/HDR. Для команд архитекторов, оценивающих кластеры следующего поколения, решение на базе коммутатора InfiniBand MQM8790-HS2F предлагает проверенный, готовый к производству эталонный дизайн.

