Техническое решение: Серверный адаптер NVIDIA Mellanox MCX631102AN-ADAT — транспорт RDMA/RoCE с малой задержкой

April 27, 2026

Техническое решение: Серверный адаптер NVIDIA Mellanox MCX631102AN-ADAT — транспорт RDMA/RoCE с малой задержкой

Этот технический документ представляет собой исчерпывающее руководство для сетевых архитекторов, инженеров предпродажной подготовки и руководителей операционных подразделений, планирующих развертывание NVIDIA Mellanox MCX631102AN-ADAT в высокопроизводительных средах центров обработки данных. Решение ориентировано на устранение накладных расходов стека TCP/IP, обеспечение низколатентной передачи данных по протоколу RDMA/RoCEv2 и максимизацию пропускной способности сервера для рабочих нагрузок хранения данных, баз данных и ИИ.

1. Предыстория проекта и анализ требований

Современные архитектуры центров обработки данных сталкиваются с тремя сходящимися проблемами: взрывной рост трафика между серверами (east-west traffic), переход к дезагрегированным системам хранения данных (NVMe-oF, vSAN) и необходимость высвобождения циклов ЦП для логики приложений, а не для сетевой обработки. Устаревшие развертывания 25GbE с использованием традиционного TCP/IP страдают от высокой задержки в хвосте (200–500 мкс для операций хранения), чрезмерной обработки каждого пакета на уровне ядра и неэффективной пропускной способности для мелких пакетов. Основное требование — это низколатентная, без потерь сеть, обеспечивающая прямой доступ к памяти между серверами без вмешательства ЦП, при сохранении совместимости с существующей инфраструктурой Ethernet.

2. Общая архитектура сети и системы

Предлагаемое решение использует двухуровневую топологию «листовой-спинной» (leaf-spine) с без потерь конфигурацией RoCEv2. Ключевые архитектурные решения включают:

  • Физический уровень: Соединения 25GbE SFP28 от каждого сервера вычислений/хранения к коммутаторам уровня «листа», восходящие соединения 100GbE или 400GbE от «листа» к «спине».
  • Конвергентная сеть: Общая сеть Ethernet, несущая как стандартный трафик TCP, так и без потерь потоки RoCEv2, с использованием приоритезации на основе DSCP.
  • Управление потоком: Приоритетное управление потоком (PFC) для приоритетов без потерь, маркировка ECN для уведомления о перегрузке и согласование DCBX.
  • Сторона хоста: Выделенные слоты PCIe 4.0 x16 для каждойсетевой карты Ethernet MCX631102AN-ADAT, с включенным SR-IOV для виртуализированных сред.

Для развертываний NVMe-oF каждый сервер хранения оснащен двумядвухпортовыми сетевыми адаптерами 25GbE SFP28 MCX631102AN-ADAT ConnectX-6 Lx — один для клиентского трафика приложений и один для трафика репликации и восстановления на стороне сервера, обеспечивая изоляцию отказов и разделение QoS.

3. Роль и ключевые особенности MCX631102AN-ADAT в решении

АдаптерMCX631102AN-ADAT служит критически важным конечным устройством, обеспечивающим ускорение RDMA на стороне хоста. Его ключевой технический вклад заключается в следующем:

Функция Функциональное преимущество для RDMA/пропускной способности
Аппаратное разгрузка передачи данных RoCEv2, DCQCN, DCT, сопоставление тегов – нулевое участие ЦП в управлении надежными соединениями.
Интерфейс PCIe 4.0 x16 Достаточная пропускная способность хоста для агрегированной скорости линии 50 Гбит/с (25 Гбит/с на порт).
Векторный приемный движок Аппаратное распределение и сбор, разделение заголовков – улучшает пропускную способность мелких пакетов до 37Mpps на порт.
Безопасная загрузка и корневое доверие Проверка целостности прошивки для критически важных с точки зрения безопасности развертываний NFV и финансовых услуг.
SR-IOV с до 256 VFs Прямая передача очередей RoCE в виртуальные машины/контейнеры без накладных расходов на виртуализацию гипервизора.

Ссылаясь натехническое описание MCX631102AN-ADAT, адаптер также обеспечивает аппаратное временное маркирование (свободно работающий счетчик времени с разрешением 1 нс), что позволяет точно синхронизировать PTP/SyncE для финансовых торговых операций или приложений на периферии телекоммуникационных сетей.

4. Рекомендации по развертыванию и масштабированию (типичная топология)

Для развертываний в существующей инфраструктуре (brownfield) рекомендуется поэтапный подход:

  • Этап 1 – модернизация плоскости хранения: РазвернитеMCX631102AN-ADAT на всех серверах хранения, использующих программное обеспечение NVMe-oF (например, SPDK, TargeR). Настройте порты коммутаторов с приоритетами PFC 3 для RoCE и 1 для CNP, используя автоматическое согласование DCBX.
  • Этап 2 – активация плоскости вычислений: Установите адаптеры на серверы вычислений, использующие фреймворки баз данных или ИИ (TensorFlow, PyTorch с NCCL). Включите библиотеку RDMA-capable verbs и настройте индекс GID для RoCEv2.
  • Этап 3 – консолидация сети: Мигрируйте критически важные рабочие нагрузки TCP (аналитика в реальном времени, сайдкары микросервисов) на RoCE с типами служб UC или RC.

Контрольный список проверки топологии:

  • Все коммутаторы уровня «листа» должны поддерживать без потерь RoCE (PFC + ECN) с достаточным запасом буфера.
  • Сквозной MTU не менее 2000 байт (предпочтительно 9000 для больших кадров).
  • Доступность одноадресной маршрутизации для трафика RoCEv2 (UDP-порт 4791).
  • Проверенныйсписок совместимых с MCX631102AN-ADAT: NVIDIA Spectrum (предпочтительно), Cisco Nexus 9300-EX/FX, Arista 7050X/7050X3 с профилями DCBX.

5. Эксплуатация и обслуживание – мониторинг, устранение неполадок и оптимизация

Успех производственного развертывания зависит от надлежащей телеметрии и проактивной обработки исключений. Рекомендуемые операционные практики включают:

  • Обнаружение перегрузки: Отслеживайте счетчики паузовых кадров PFC на порт на коммутаторах и статистику пакетов, помеченных ECN, на адаптере с помощью ethtool -S или mlxlink.
  • Обеспечение SLO задержки: Разверните мониторинг задержки с аппаратным временным маркированием с помощью таких инструментов, как ucxtrace или mlx5cmd; типичное здоровое время двустороннего обмена данными (RTT) менее 10 мкс в пределах стойки, менее 30 мкс между стойками.
  • Согласование прошивки и драйвера: Используйте проверенный пакет прошивки NVIDIA (см.спецификации MCX631102AN-ADAT для точных номеров деталей) и версии драйверов (mlx5_core ≥ 5.9).
  • Управление RMA и жизненным циклом: При анализецены MCX631102AN-ADAT по сравнению с общей стоимостью владения (TCO) учитывайте цикл обновления узлов в 3-5 лет; несколько глобальных дистрибьюторов предлагаютMCX631102AN-ADAT для продажи с многолетней гарантией.

Для устранения неполадок наиболее распространенные проблемы: неправильно настроенные пороговые значения буфера коммутатора (приводящие к штормам паузовых кадров), несоответствие типа GID (предпочтительно тип GID 2 для IPv6 RoCEv2) и отсутствие аппаратного ускорения в вызовах приложения (убедитесь, что ibv_reg_mr имеет локальный доступ для записи).

6. Резюме и оценка ценности

АдаптерNVIDIA Mellanox MCX631102AN-ADAT представляет собой готовое к эксплуатациирешение на базе сетевого адаптера Ethernet MCX631102AN-ADAT для организаций, стремящихся раскрыть истинную низколатентную производительность на скорости линии на зрелой инфраструктуре 25GbE. Обеспечивая аппаратное ускорение RDMA/RoCEv2, решение достигает задержки NVMe-oF менее 20 микросекунд, высвобождает более 30% ядер ЦП для рабочих нагрузок приложений и поддерживает агрегированную пропускную способность 50 Гбит/с с эффективностью для мелких пакетов, ранее достижимой только на адаптерах 100GbE. Для архитекторов, планирующих новые гиперконвергентные кластеры или кластеры хранения данных для ИИ,MCX631102AN-ADAT является стратегическим инструментом, обеспечивающим профиль задержки InfiniBand при операционной простоте Ethernet.