Mellanox (NVIDIA) 920-9B110-00FH-0D0 InfiniBand Switch Техническое решение для оптимизации низкозадержной взаимосвязи

January 5, 2026

Mellanox (NVIDIA) 920-9B110-00FH-0D0 InfiniBand Switch Техническое решение для оптимизации низкозадержной взаимосвязи

1. Общая информация о проекте и анализ требований

Развертывание и масштабирование современных кластеров ускоренных вычислений для обучения ИИ и рабочих нагрузок HPC создает уникальные сетевые проблемы. Традиционные сети на основе TCP/IP вносят значительную задержку и накладные расходы на ЦП, становясь основным узким местом. Основные требования к межсоединению следующего поколения включают: детерминированную задержку менее микросекунды для предотвращения зависания GPU, высокую бисекционную пропускную способность для всех шаблонов связи, масштабируемые вычисления в сети для разгрузки коллективных операций и надежное управление фабрикой для простоты эксплуатации.

NVIDIA Mellanox 920-9B110-00FH-0D0 разработана для удовлетворения этих конкретных требований, формируя основу производительного и эффективного 920-9B110-00FH-0D0 InfiniBand switch OPN solution. В этом документе изложен подробный технический план его развертывания.2. Общая архитектура сети/системы

Предлагаемая архитектура представляет собой топологию fat-tree типа spine-leaf, которая является фактическим стандартом для построения предсказуемых кластеров HPC и AI с высокой пропускной способностью. Эта конструкция обеспечивает согласованное количество переходов и задержку между любыми двумя узлами, исключая переподписку и горячие точки. Архитектура построена на полностекольной, оптимизированной для NVIDIA экосистеме.

Вычислительный уровень:

  • Системы NVIDIA DGX или HGX или эквивалентные серверы GPU с NVIDIA ConnectX-7 NIC.Уровень межсоединения:
  • Однородная фабрика коммутаторов 920-9B110-00FH-0D0. Уровень управления и оркестровки:
  • NVIDIA UFM® для управления фабрикой, интегрированный с планировщиками кластеров, такими как Slurm или Kubernetes, через стек NVIDIA Magnum IO.Эта сквозная архитектура обеспечивает оптимальную производительность для RDMA и GPUDirect коммуникаций, создавая единую "фабрику как вычислительный ресурс".

3. Роль 920-9B110-00FH-0D0 и ключевые технические характеристики

В рамках этой архитектуры

920-9B110-00FH-0D0. Основные технические принципы:

Сверхнизкая задержка и высокая пропускная способность:

  • Оснащенный 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR ASIC, он обеспечивает лучшую в отрасли задержку от порта к порту и полную скорость 200 Гбит/с на порт, что критически важно для трафика RDMA.Вычисления в сети (SHARP):
  • Аппаратное обеспечение коммутатора ускоряет коллективные операции MPI и NCCL (All-Reduce, Broadcast), выполняя агрегирование данных в сети. Это значительно сокращает время простоя GPU и накладные расходы на ЦП.Усовершенствованное управление перегрузками:
  • Механизмы адаптивной маршрутизации и своевременного управления перегрузками динамически управляют потоками трафика, предотвращая потерю пакетов и обеспечивая справедливое распределение полосы пропускания в сценариях incast, распространенных при обучении ИИ.Телеметрия и видимость:
  • Встроенная поддержка инфраструктуры телеметрии NVIDIA обеспечивает глубокое понимание шаблонов трафика, занятости буферов и работоспособности каналов, что необходимо для настройки производительности.Инженерам следует обратиться к официальному

920-9B110-00FH-0D0 datasheet для получения подробных 920-9B110-00FH-0D0 specifications по питанию, охлаждению и конфигурациям портов.4. Рекомендации по развертыванию и масштабированию

Развертывание начинается с тщательного анализа списка совместимых компонентов

920-9B110-00FH-0D0. Типичной единицей масштабирования является «под», построенный с использованием неблокирующего fat-tree.Пример: Под кластера на 512 GPU

Уровень Leaf:

  • Разверните коммутаторы 920-9B110-00FH-0D0. Уровень Spine:
  • Второй уровень коммутаторов 920-9B110-00FH-0D0. Кабели:
  • Используйте кабели QSFP56 HDR (пассивные или активные) для всех соединений 200 Гбит/с между коммутаторами и серверами.Масштабирование за пределами пода:

Несколько подов можно соединить между собой с помощью выделенных spine-of-spine коммутаторов или путем расширения иерархии fat-tree, используя высокую радикс 920-9B110-00FH-0D0. 920-9B110-00FH-0D0 InfiniBand switch OPN предоставляет четкую дорожную карту для совместимости деталей во время расширения.5. Эксплуатация, мониторинг, устранение неполадок и оптимизация

Проактивное управление имеет решающее значение для поддержания максимальной производительности фабрики. NVIDIA UFM® — рекомендуемая центральная платформа управления.

Область эксплуатации

Инструмент/Функция Преимущество Подготовка и мониторинг фабрики
UFM® Device Manager и телеметрия Подготовка без вмешательства, информационные панели о состоянии в реальном времени и сбор метрик производительности. Устранение неполадок и анализ первопричин
UFM® Event Analyzer и диагностика кабелей Обнаружение аномалий на основе ИИ, подробные журналы событий и удаленное тестирование кабелей. Оптимизация производительности
UFM® Performance Advisor и SHARP Analytics Определяет точки перегрузки, оптимизирует маршрутизацию и контролирует эффективность вычислений в сети. Регулярные обновления прошивки и соблюдение передовых практик, изложенных в документации по коммутатору, необходимы. Для таких проблем, как ухудшение производительности RDMA, диагностический поток должен начинаться с телеметрии UFM®, проверки целостности кабеля и проверки настроек SHARP и управления перегрузками.

6. Заключение и оценка ценности

Внедрение межсоединения кластера на основе

Mellanox (NVIDIA) 920-9B110-00FH-0D0 обеспечивает перспективную, высокопроизводительную основу для RDMA, HPC и рабочих нагрузок ИИ. Его ценностное предложение многогранно: оно максимизирует использование GPU и рентабельность инвестиций за счет минимизации накладных расходов на связь, обеспечивает масштабируемый рост кластера и упрощает операции за счет интегрированного управления и телеметрии.Хотя

920-9B110-00FH-0D0 price представляет собой премиальную инвестицию, общая стоимость владения (TCO) является благоприятной при учете резкого сокращения времени выполнения заданий, повышения производительности исследователей и эффективного масштабирования, которое позволяет избежать дорогостоящей переделки фабрики. Организации, оценивающие 920-9B110-00FH-0D0 for sale , должны рассматривать его не как сетевые расходы, а как стратегический ускоритель вычислений. Это техническое решение предоставляет план для раскрытия всего потенциала инфраструктур ускоренных вычислений.