NVIDIA Mellanox MCX556A-ECAT в действии: RDMA/RoCE обеспечивает сверхнизкую задержку и прорывную пропускную способность сервера

April 23, 2026

последние новости компании о NVIDIA Mellanox MCX556A-ECAT в действии: RDMA/RoCE обеспечивает сверхнизкую задержку и прорывную пропускную способность сервера

В распределенном хранилище, высокопроизводительных вычислениях (HPC) и кластерах обучения ИИ задержка работы сети и расходы на ЦП уже давно ограничивают общую эффективность серверов.Недавнее развертывание в крупном поставщике облачных услуг демонстрирует, какNVIDIA Mellanox MCX556A-ECATрешает эти проблемы с помощью технологий RDMA и RoCE, обеспечивая измеримые выгоды как в объеме пропускной способности, так и в сокращении задержки.

История и проблемы

Заказчик управляет многопетабайтным кластером хранения Ceph, поддерживающим тысячи виртуальных машин.их инфраструктура 25GbE, использующая стандартный TCP/IP, страдала от высокого использования процессора (более 60% на узлах хранения) и непоследовательной задержки во время пиковых нагрузок. Окна резервного копирования часто превышали восемь часов, а занятия по обучению ИИ испытывали задержки ввода/вывода. Команде нужно было решение, которое могло бы уменьшить вмешательство ЦП, снизить задержку,и масштабировать без полного ремонта инфраструктурыПосле рассмотренияMCX556A-ECAT datasheetи сравниватьMCX556A-ECAT спецификации, они выбралиMCX556A-ECATкак основный компонент обновления.

Решение и развертывание

Архитектура была сосредоточена наMCX556A-ECAT Ethernet адаптерная карта, двухпортовый адаптер 100GbE, поддерживающий PCIe 3.0/4.0 x16.MCX556A-ECAT ConnectX адаптер PCIe сетевая карта, это позволило RoCE v2 по всей существующей топологии листья-позвоночника с минимальными изменениями переключателя.

  • Замена устаревших 25GbE адаптеровMCX556A-ECATна 40 узлов хранения и 150 вычислительных узлов.
  • Разрешение на разгрузку оборудования: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA и T10-DIF для целостности данных.
  • Конфигурирование контроля приоритета потока (PFC) и улучшенного выбора передачи (ETS) для безубыточной транспортировки RoCE.
  • ПроверкаMCX556A-ECAT совместимасостояние с существующими коммутаторами Mellanox Spectrum и оптикой QSFP28.

Весь развертывание заняло два выходных, с нулевым временем простоя, используя живую миграцию для вычислительных нагрузок.

Результаты и польза

Измерения после развертывания показали значительное улучшение по ключевым показателям.

Метрический До (25GbE TCP/IP) После (MCX556A-ECAT с RoCE) Улучшение
Использование процессора узла хранения 62% 18% ↓ 71%
Средняя задержка (случайный чтение 4K) 450 мс 42 мс ↓ 90,7%
Совокупная пропускная способность кластеров 38 Гбит/с 172 Гбит/с ↑ 353%
Продолжительность окна резервного копирования 8.5 часов 1.8 часов ↓ 79%

Помимо цифр, инженерная команда сообщила, что RDMA значительно снижает нервозность, устраняя пики "задержки хвоста", которые ранее мучили контрольно-пропускные пункты обучения ИИ.MCX556A-ECAT Ethernet adapter card solution, карта также упростила устранение неполадок с помощью встроенной телеметрии и уведомления о перегрузке.MCX556A-ECAT ценаВ то время как производительность была улучшена, клиент достиг рентабельности инвестиций в течение девяти месяцев исключительно благодаря экономии CPU-ядра и более быстрому завершению работы.MCX556A-ECAT на продажуС помощью нескольких партнеров по каналам, что делает этот уровень производительности доступным и для предприятий среднего уровня.

Резюме и прогнозы

Развертывание доказывает, чтоMCX556A-ECATОн выполняет свои обещания: задержка RDMA до микросекунды, резкая нагрузка на ЦП и линейное масштабирование пропускной способности.NVIDIA Mellanox MCX556A-ECATПоскольку 100GbE становится новым стандартом для спин центров обработки данных, решения, построенные вокруг этого адаптера, будут продолжать превосходить старые стеки TCP/IP.Для детального планирования, обратитесь к должностному лицуMCX556A-ECAT datasheetили проконсультироваться с архитекторами решения для проверкиMCX556A-ECAT совместимаконфигурации для вашей конкретной среды.