Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Практическое применение коммутатора InfiniBand

January 6, 2026

последние новости компании о Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Практическое применение коммутатора InfiniBand

События и вызовы: узкое место сети в современных вычислениях

В гонке за научными открытиями и прорывами в ИИ, вычислительные возможности ведущего научно-исследовательского учреждения были задушены не отсутствием мощности обработки,но их сетевой тканьюИх существующая инфраструктура HDR InfiniBand, хотя и способна, пыталась идти в ногу с огромным,синхронизированные потребности в связи с их недавно развернутыми кластерами NVIDIA DGX и традиционными нагрузками на HPCИсследователи столкнулись с значительными задержками в сроках завершения работы, причем основным узким горлом стали задержка сети и перегрузка в процессе коммуникации "все-к-всем".

Проблема была двойной: во-первых, резко сократить задержку для операций удаленного прямого доступа к памяти (RDMA), критически важных для моделирования HPC на основе MPI.Неблокирующая ткань для обучения ИИ, которая требует постоянной синхронизации параметров на сотнях графических процессоровУчреждение нуждалось в будущем, которое могло бы обрабатывать скорости NDR 400Gb / s, при этом полностьюсовместимыс их существующей экосистемой, обеспечивая экономически эффективный путь модернизации без полного ремонта.

Решение и развертывание: внедрение ткани 920-9B210-00FN-0D0

После тщательной оценки учреждение выбралоNVIDIA Mellanox 920-9B210-00FN-0D0Это решение было сосредоточено на развертывании нескольких920-9B210-00FN-0D0 MQM9790-NS2F 400 Гбит/с NDRпереключатели, чтобы сформировать высокую пропускную способность, низкую задержку, позвоночный слой, соединяющий все вычислительные и хранилищные узлы.

Развертывание было структурировано как гибридная двухуровневая топология дерева жира, чтобы максимизировать бисекционную пропускную способность и минимизировать количество хопов.

  • Ткань:Спинный слой, построенный полностью из920-9B210-00FN-0D0коммутаторы, обеспечивающие NDR 400 Gb/s.
  • Бесшовная интеграция:Используя обратную совместимость переключателя, были подключены существующие переключатели HDR и NIC, защищая предыдущие инвестиции, позволяя дополнительные обновления узлов к NDR.
  • Продвинутое управление:Вся ткань, включая новую920-9B210-00FN-0D0 InfiniBand переключатель OPNВ результате, по данным NVIDIA UFM®, система была управляема под одной стеклянной панелью, что позволило получить точную телеметрию производительности, автоматическое обеспечение тканей и быструю изоляцию неисправностей.
  • Валидация:ИТ-команда тщательно проконсультировалась с официальным920-9B210-00FN-0D0 лист данныхиспецификациичтобы подтвердить пропускную способность кабеля, потребности в питании и охлаждении в их центре обработки данных, обеспечивая оптимальную производительность.

Эта архитектура создала единый920-9B210-00FN-0D0 InfiniBand Switch OPN решение, обслуживающий как классические HPC, так и новые нагрузки на ИИ в одной мощной сети.

Эффекты и выгоды: количественное повышение производительности и эффективности

Влияние развертывания920-9B210-00FN-0D0Было немедленно измеримо и трансформирующее в разных измерениях их деятельности.

Метрический До назначения После 920-9B210-00FN-0D0 Развертывание
Средняя MPI-задержка (обратная поездка) ~ 0,7 микросекунды ~0,5 микросекунд
Время завершения работы по обучению ИИ (большая модель) 5.2 дня 3.8 дней(27% сокращение)
Использование тканей во время пика Часто превышает 85%, вызывая перегрузку Стабильность ниже 60% при скоростях NDR
Административные задачи (реконфигурация завода) Ручные, трудоемкие процессы Автоматизированная через интеграцию UFM®

Наиболее значительным преимуществом было резкое сокращение времени выполнения приложений.Показано улучшение на 20-30% из-за более низкой и более последовательной задержки MPIДля команд ИИ почти теоретическая производительность RDMA над новой тканью означала, что ресурсы GPU были полностью насыщены вычислениями, а не застряли в ожидании сетевых передач.При оценке общего920-9B210-00FN-0D0 ценаВ результате ускорения результатов исследований была достигнута убедительная рентабельность инвестиций, значительно превышающая первоначальные капитальные затраты.

Заключение и перспективы: проект инфраструктуры, готовой к будущему

Успешное применениеNVIDIA Mellanox 920-9B210-00FN-0D0В этой исследовательской среде служит мощным планом для любой организации, столкнувшейся с аналогичными проблемами взаимосвязи.Это показывает, что инвестиции в передовую сетевую структуру не являются дополнительными затратами, а стратегическим мультипликатором для инвестиций в вычислительные технологии..

Развертывание института доказывает, что920-9B210-00FN-0D0Это более чем просто переключатель, это платформа для конвергенции, которая беспрепятственно объединяет нагрузки на высокопроизводительные вычислительные процессы и ИИ на основе RDMA в одной ультраотзывчивой сети.упрощение операций и ускорение обнаруженияПоскольку эта технология становится все более доступнойдля продажи, он устанавливает новый стандарт того, что возможно в высокопроизводительном кластеризации.

В перспективе, присущая масштабируемость и производительность NDR 400Gb / s означает, что учреждение хорошо подготовлено для интеграции еще более мощных вычислительных ресурсов в будущем.Это...920-9B210-00FN-0D0эффективно устранила сеть как узкое место, позволяя исследователям сосредоточиться исключительно на пределах своих алгоритмов и воображения.