Mellanox (NVIDIA) 920-9B110-00FH-0D0 InfiniBand Switch Техническое решение для оптимизации низкозадержной взаимосвязи
January 5, 2026
1. Общая информация о проекте и анализ требований
Развертывание и масштабирование современных кластеров ускоренных вычислений для обучения ИИ и рабочих нагрузок HPC создает уникальные сетевые проблемы. Традиционные сети на основе TCP/IP вносят значительную задержку и накладные расходы на ЦП, становясь основным узким местом. Основные требования к межсоединению следующего поколения включают: детерминированную задержку менее микросекунды для предотвращения зависания GPU, высокую бисекционную пропускную способность для всех шаблонов связи, масштабируемые вычисления в сети для разгрузки коллективных операций и надежное управление фабрикой для простоты эксплуатации.
NVIDIA Mellanox 920-9B110-00FH-0D0 разработана для удовлетворения этих конкретных требований, формируя основу производительного и эффективного 920-9B110-00FH-0D0 InfiniBand switch OPN solution. В этом документе изложен подробный технический план его развертывания.2. Общая архитектура сети/системы
Предлагаемая архитектура представляет собой топологию fat-tree типа spine-leaf, которая является фактическим стандартом для построения предсказуемых кластеров HPC и AI с высокой пропускной способностью. Эта конструкция обеспечивает согласованное количество переходов и задержку между любыми двумя узлами, исключая переподписку и горячие точки. Архитектура построена на полностекольной, оптимизированной для NVIDIA экосистеме.
Вычислительный уровень:
- Системы NVIDIA DGX или HGX или эквивалентные серверы GPU с NVIDIA ConnectX-7 NIC.Уровень межсоединения:
- Однородная фабрика коммутаторов 920-9B110-00FH-0D0. Уровень управления и оркестровки:
- NVIDIA UFM® для управления фабрикой, интегрированный с планировщиками кластеров, такими как Slurm или Kubernetes, через стек NVIDIA Magnum IO.Эта сквозная архитектура обеспечивает оптимальную производительность для RDMA и GPUDirect коммуникаций, создавая единую "фабрику как вычислительный ресурс".
3. Роль 920-9B110-00FH-0D0 и ключевые технические характеристики
В рамках этой архитектуры
920-9B110-00FH-0D0. Основные технические принципы:
Сверхнизкая задержка и высокая пропускная способность:
- Оснащенный 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR ASIC, он обеспечивает лучшую в отрасли задержку от порта к порту и полную скорость 200 Гбит/с на порт, что критически важно для трафика RDMA.Вычисления в сети (SHARP):
- Аппаратное обеспечение коммутатора ускоряет коллективные операции MPI и NCCL (All-Reduce, Broadcast), выполняя агрегирование данных в сети. Это значительно сокращает время простоя GPU и накладные расходы на ЦП.Усовершенствованное управление перегрузками:
- Механизмы адаптивной маршрутизации и своевременного управления перегрузками динамически управляют потоками трафика, предотвращая потерю пакетов и обеспечивая справедливое распределение полосы пропускания в сценариях incast, распространенных при обучении ИИ.Телеметрия и видимость:
- Встроенная поддержка инфраструктуры телеметрии NVIDIA обеспечивает глубокое понимание шаблонов трафика, занятости буферов и работоспособности каналов, что необходимо для настройки производительности.Инженерам следует обратиться к официальному
920-9B110-00FH-0D0 datasheet для получения подробных 920-9B110-00FH-0D0 specifications по питанию, охлаждению и конфигурациям портов.4. Рекомендации по развертыванию и масштабированию
Развертывание начинается с тщательного анализа списка совместимых компонентов
920-9B110-00FH-0D0. Типичной единицей масштабирования является «под», построенный с использованием неблокирующего fat-tree.Пример: Под кластера на 512 GPU
Уровень Leaf:
- Разверните коммутаторы 920-9B110-00FH-0D0. Уровень Spine:
- Второй уровень коммутаторов 920-9B110-00FH-0D0. Кабели:
- Используйте кабели QSFP56 HDR (пассивные или активные) для всех соединений 200 Гбит/с между коммутаторами и серверами.Масштабирование за пределами пода:
Несколько подов можно соединить между собой с помощью выделенных spine-of-spine коммутаторов или путем расширения иерархии fat-tree, используя высокую радикс 920-9B110-00FH-0D0. 920-9B110-00FH-0D0 InfiniBand switch OPN предоставляет четкую дорожную карту для совместимости деталей во время расширения.5. Эксплуатация, мониторинг, устранение неполадок и оптимизация
Проактивное управление имеет решающее значение для поддержания максимальной производительности фабрики. NVIDIA UFM® — рекомендуемая центральная платформа управления.
Область эксплуатации
| Инструмент/Функция | Преимущество | Подготовка и мониторинг фабрики |
|---|---|---|
| UFM® Device Manager и телеметрия | Подготовка без вмешательства, информационные панели о состоянии в реальном времени и сбор метрик производительности. | Устранение неполадок и анализ первопричин |
| UFM® Event Analyzer и диагностика кабелей | Обнаружение аномалий на основе ИИ, подробные журналы событий и удаленное тестирование кабелей. | Оптимизация производительности |
| UFM® Performance Advisor и SHARP Analytics | Определяет точки перегрузки, оптимизирует маршрутизацию и контролирует эффективность вычислений в сети. | Регулярные обновления прошивки и соблюдение передовых практик, изложенных в документации по коммутатору, необходимы. Для таких проблем, как ухудшение производительности RDMA, диагностический поток должен начинаться с телеметрии UFM®, проверки целостности кабеля и проверки настроек SHARP и управления перегрузками. |
6. Заключение и оценка ценности
Внедрение межсоединения кластера на основе
Mellanox (NVIDIA) 920-9B110-00FH-0D0 обеспечивает перспективную, высокопроизводительную основу для RDMA, HPC и рабочих нагрузок ИИ. Его ценностное предложение многогранно: оно максимизирует использование GPU и рентабельность инвестиций за счет минимизации накладных расходов на связь, обеспечивает масштабируемый рост кластера и упрощает операции за счет интегрированного управления и телеметрии.Хотя
920-9B110-00FH-0D0 price представляет собой премиальную инвестицию, общая стоимость владения (TCO) является благоприятной при учете резкого сокращения времени выполнения заданий, повышения производительности исследователей и эффективного масштабирования, которое позволяет избежать дорогостоящей переделки фабрики. Организации, оценивающие 920-9B110-00FH-0D0 for sale , должны рассматривать его не как сетевые расходы, а как стратегический ускоритель вычислений. Это техническое решение предоставляет план для раскрытия всего потенциала инфраструктур ускоренных вычислений.

