Технический документ: Коммутационное решение InfiniBand NVIDIA Mellanox 920-9B210-00FN-0D0

January 6, 2026

Технический документ: Коммутационное решение InfiniBand NVIDIA Mellanox 920-9B210-00FN-0D0
1. Общая информация о проекте и анализ требований

Эволюция вычислительных нагрузок в сторону обучения ИИ в эксамасштабе и высокоточного моделирования HPC фундаментально сместила узкое место производительности с вычислений на межсоединения. Современные кластеры, зависящие от RDMA, требуют фабрику, которая обеспечивает не только высокую пропускную способность, но и детерминированную сверхнизкую задержку, минимальный джиттер и бесшовную масштабируемость. Устаревшие сети часто приводят к переменной задержке, потере пакетов из-за перегрузки и сложности управления, что напрямую приводит к увеличению времени решения, неполному использованию ресурсов GPU/CPU и увеличению эксплуатационных расходов.

Это техническое решение отвечает основным требованиям к центрам обработки данных и исследовательским учреждениям следующего поколения: создание единой высокопроизводительной фабрики, способной объединить классические HPC (на основе MPI) и современные рабочие нагрузки ИИ (коллективная связь). Основные технические требования включают в себя задержку коммутации менее микросекунды, неблокирующую пропускную способность для всех шаблонов связи, интеллектуальное управление перегрузками и структуру управления, обеспечивающую глубокую видимость и автоматизацию. Решение 920-9B210-00FN-0D0 InfiniBand switch OPN

разработано для соответствия этим строгим стандартам.

2. Общая архитектура сети/системыРазвертывание архитектуры фабрики, ориентированной на коммутатор InfiniBand NVIDIA Mellanox 920-9B210-00FN-0D0

, формирующих сверхвысокоскоростное ядро. Уровень leaf может состоять из смеси коммутаторов NDR или HDR, соединяющих вычислительные узлы (серверы GPU, такие как системы NVIDIA DGX, кластеры CPU), высокопроизводительное параллельное хранилище (NVMe-oF) и узлы управления.

  • Эта разделенная конструкция обеспечивает предсказуемую задержку и исключает переподписку в пределах фабрики. Основные архитектурные принципы включают:Единая фабрика:
  • Единая сеть для вычислений (Восток-Запад) и трафика хранилища, упрощающая управление и снижающая CAPEX.Работа без потерь:
  • Использование встроенного управления перегрузками и управления потоком трафика InfiniBand для гарантии отсутствия потерь пакетов, что имеет решающее значение для производительности RDMA и MPI.Программно-определяемая сеть:
Интеграция с NVIDIA Cumulus Linux и платформой UFM® обеспечивает автоматизацию фабрики и управление на основе политик.

3. Роль и ключевые характеристики NVIDIA Mellanox 920-9B210-00FN-0D0Коммутатор 920-9B210-00FN-0D0 MQM9790-NS2F 400 Гбит/с NDR

является стратегическим краеугольным камнем этой архитектуры, выступая в качестве высокопроизводительного spine. Его роль выходит за рамки простого переключения; это интеллектуальный механизм, который обеспечивает оптимальное перемещение данных.Его ключевые технические характеристики, подробно описанные в официальном техническом описании 920-9B210-00FN-0D0

  • , напрямую решают проблему оптимизации задержки:Сквозная коммутация и сверхнизкая задержка:
  • Коммутатор использует передовую архитектуру сквозной коммутации, достигая задержки от порта к порту менее 100 наносекунд. Это имеет первостепенное значение для уменьшения общей сквозной задержки операций RDMA.Пропускная способность NDR 400 Гбит/с:
  • Каждый порт обеспечивает 400 Гбит/с, обеспечивая необходимый запас для предотвращения перегрузок во время пиковых рабочих нагрузок, таких как контрольные точки распределенного обучения ИИ или крупномасштабные операции MPI_allreduce.Адаптивная маршрутизация и управление перегрузками:
  • Технология Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ v3 от NVIDIA, встроенная в коммутатор, разгружает коллективные операции с ЦП, резко снижая накладные расходы на синхронизацию. В сочетании с динамической адаптивной маршрутизацией это предотвращает появление горячих точек и обеспечивает сбалансированное использование фабрики.Обратная и прямая совместимость: Отдельные узлы можно обновить до NIC NDR, немедленно используя полную пропускную способность 400 Гбит/с к spine. совместим Планирование развертывания должно учитывать оптические кабели, совместимые с NDR (например, OSFP). спецификациями 920-9B210-00FN-0D0
имеет решающее значение для планирования подключения портов и типов кабелей.

4. Рекомендации по развертыванию и масштабированию (включая описание типичной топологии)В заключение, 920-9B210-00FN-0D0

в роли spine для обеспечения избыточности, подключенных к нескольким коммутаторам leaf HDR или NDR, поддерживающим несколько десятков вычислительных узлов.Рекомендуемая топология для оптимальной производительности:

  • Двухуровневая неблокирующая топология Clos (Fat-Tree). Количество коммутаторов spine (920-9B210-00FN-0D0) определяется количеством восходящих каналов от каждого коммутатора leaf и желаемым коэффициентом переподписки (в идеале 1:1 для HPC/AI).Масштабирование:В заключение, 920-9B210-00FN-0D0
  • для поддержания неблокирующего соотношения. Адресация и маршрутизация фабрики масштабируются беспрепятственно под управлением UFM®.Масштабирование: Отдельные узлы можно обновить до NIC NDR, немедленно используя полную пропускную способность 400 Гбит/с к spine. Совместимая
  • природа коммутатора поддерживает эту гетерогенную среду.Кабели и питание: Планирование развертывания должно учитывать оптические кабели, совместимые с NDR (например, OSFP). Спецификации 920-9B210-00FN-0D0

предоставляют точные данные о потреблении энергии и тепловых характеристиках для точного проектирования электропитания и охлаждения центра обработки данных.Когда это решение станет доступно для продажи, рекомендуется привлечь сертифицированных партнеров для моделирования правильной цены 920-9B210-00FN-0D0

и количества для вашего конкретного плана масштабирования.

5. Рекомендации по эксплуатации, мониторингу, устранению неполадок и оптимизацииВ заключение, 920-9B210-00FN-0D0

  • .Проактивный мониторинг:
  • UFM® предлагает телеметрию в реальном времени о работоспособности коммутатора, использовании портов, температуре, счетчиках ошибок и углубленный анализ моделей трафика на уровне приложений, включая матрицы MPI и RDMA.Автоматизированное управление фабрикой:
  • От первоначальной подготовки и проверки кабелей до обновлений прошивки и резервного копирования конфигурации, UFM® автоматизирует рутинные задачи, уменьшая количество ошибок, вызванных человеческим фактором, и эксплуатационные расходы.Устранение неполадок:
  • Передовые инструменты могут точно определять аномалии производительности, выявлять неправильно работающие потоки, вызывающие перегрузку, и визуализировать топологию фабрики, чтобы быстро изолировать неисправные соединения или компоненты.Непрерывная оптимизация: Используйте информацию UFM® для правильного размера рабочих нагрузок, убедитесь, что производительность соответствует техническим характеристикам
и планируйте будущие обновления емкости. Регулярный анализ показателей перегрузки и задержки является ключом к поддержанию максимальной производительности фабрики.

6. Заключение и оценка ценностиРазвертывание архитектуры фабрики, ориентированной на коммутатор InfiniBand NVIDIA Mellanox 920-9B210-00FN-0D0

, обеспечивает фундаментальное конкурентное преимущество для организаций, зависящих от высокопроизводительных вычислений. Это техническое решение обеспечивает измеримую ценность по нескольким направлениям: Измерение ценности
Реализованный результат Техническая производительность
Детерминированная задержка менее микросекунды, неблокирующая пропускная способность 400 Гбит/с и работа без перегрузок для RDMA и MPI. Ускорение бизнеса/исследований
Сокращение времени выполнения приложений на 20-40%, ускорение времени обнаружения и циклов разработки продуктов. Операционная эффективность
Единое управление, автоматизированная подготовка и глубокая телеметрия снижают совокупную стоимость владения и минимизируют время простоя. Защита инвестиций

Обратная совместимость и масштабируемая архитектура защищают существующие инвестиции, обеспечивая при этом четкий путь к будущим технологиям.В заключение, 920-9B210-00FN-0D0