NVIDIA Mellanox MCX653106A-HDAT Серверный адаптер Техническая книга

April 30, 2026

NVIDIA Mellanox MCX653106A-HDAT Серверный адаптер Техническая книга

Эта техническая книга предназначена для архитекторов сетей, инженеров допроса и операционных менеджеров.сети малозадержанных центров обработки данных с использованиемNVIDIA Mellanox MCX653106A-HDATNIC сервера, с акцентом на транспорт RDMA/RoCE и измеримые увеличения пропускной способности сервера.

1. Анализ контекста и требований проекта

Современные нагрузки на центры обработки данных, включая устройства для хранения NVMe-oF, распределенное обучение ИИ, высокочастотную торговлю и аналитику в режиме реального времени, предъявляют чрезвычайные требования к сетевой инфраструктуре.Традиционная обработка стека TCP/IP вводит три основных узких места: высокие накладные расходы на ЦП (часто превышающие 50% основных циклов), переменная задержка из-за ограничений обхода ядра и снижение эффективной пропускной способности от накладных расходов на обработку протокола.Организации требуют решения, которое обеспечивает пропускную способность с частотой линии с задержкой до микросекунды, освобождая ресурсы процессора для логики приложенияКлючевые требования включают аппаратно-разгруженную RDMA, беспроблемный транспорт RoCE, беспроблемную интеграцию с существующими Ethernet тканями,и комплексные операционные инструменты для мониторинга и устранения неполадок.

2. Общий дизайн сетевой и системной архитектуры

Предлагаемая архитектура использует двухуровневую топологию Clos (spine-leaf), оптимизированную для транспортировки RoCE.Улучшенный выбор передачи) с конфигурацией, гарантирующей беспроигрышное поведение для трафика RDMA. спинные переключатели позволяют не блокировать любое сообщение через ткань. Каждый вычислительный и хранилищный узел включаетКарта адаптера MCX653106A-HDAT Ethernet, который подключается к переключателям листьев через двойные порты 100GbE, сконфигурированные в активной-активной связи.Архитектура отделяет трафик RDMA (выделенная очередь приоритета с включенным PFC) от обычного трафика TCP/IP (череда наилучших усилий)Сегментация VLAN изолирует домены RDMA, в то время как маршрутизация обрабатывает межподсетевую связь, когда это необходимо.

3Роль и основные характеристики NVIDIA Mellanox MCX653106A-HDAT

ВMCX653106A-HDAT ConnectX адаптер PCIe сетевая картаПостроен на архитектуре ConnectX-6 с интерфейсом хоста PCIe 4.0 x16.Он обеспечивает пропускную способность 100 ГбЭ с двумя портами (или 200 ГбЭ с одним портом) с задержкой менее 600 нс при рабочей нагрузке RDMA.Ключевые особенности, используемые в этом проекте, включают:

  • Аппаратные RDMA & RoCE Огрузка:Полная разгрузка глаголов RDMA, исключение участия хост-CPU для перемещения данных.
  • Ускоритель NVMe-oF:Аппаратная логика, которая ускоряет NVMe команды, уменьшая задержку доступа к хранилищу более чем на 80% по сравнению с программами.
  • Программируемый путь передачи данных (ASAP2):Позволяет гибко обрабатывать пакеты и разгружать сети наложения (VXLAN, GENEVE).
  • Многохост и GPU Direct RDMA:Прямая одноранговая связь между графическими процессорами через узлы без вмешательства процессора является критической для кластеров ИИ.
  • Телеметрия и контроль перегрузок:Аппаратное наблюдение за потоком, маркировка ECN и ограничение динамической скорости.

Инженеры, проверяющиеЛист данных MCX653106A-HDATОфициальная версия будет поддерживать как стандартные, так и форм-факторы OCP 3.0, а также обеспечит всестороннее охват операционной системы (дистрибуции Linux с MLNX_OFED, Windows, ESXi) и широкую совместимость с серверами.Спецификации MCX653106A-HDATтакже подтверждают максимальное потребление энергии 75 Вт и температуру работы от 0 до 55 °C, подходящую для высокой плотности развертывания.

4. Рекомендации по развертыванию и масштабированию (с топологией)

Развертывание следует поэтапному подходу.

Компонент Конфигурация Количество
Узлы вычисления/хранения Intel/AMD с двойным разъемом, 256 ГБ+ оперативной памяти, накопители NVMe 16
NIC на узел MCX653106A-HDAT(двойной порт 100GbE) 16
Переключатели листьев Mellanox SN3700 (32x 100GbE, включенный DCB) 2
Смены позвоночника Mellanox SN3700 (100GbE подключения) 1 (скала до 2 для увольнения)

Шаги развертывания:

  1. Шаг 1 √ Валидация:ПодтверждениеСовместимость MCX653106A-HDATИспользуйте матрицу совместимости изЛист данных MCX653106A-HDAT.
  2. Шаг 2 √ Установка драйверов:Развернуть пакет драйверов MLNX_OFED (минимум версии 5.8) на всех узлах. Включить модули ядра RDMA и RoCE.
  3. Шаг 3 Конфигурация ткани:Включите PFC (приоритет 3 для RDMA) и ETS на переключателях листьев.
  4. Шаг 4 ¢ Настройка RoCE:Конфигурировать каждыйКарта адаптера MCX653106A-HDAT Ethernetс RoCE v2 (routable) или v1 (non-routable). Установите режим GID на RoCE v2 с IPv4-адресом.
  5. Шаг 5 ✓ Проверка:Запустить ib_write_bw и ib_send_lat тесты между узлами для проверки пропускной способности и задержки.перфорацияиmlnx_perf.

Для масштабирования за пределы 16 узлов, переход на топологию позвоночника с избыточными переключателями позвоночника, поддерживающими до 128 узлов.Решение карты адаптера MCX653106A-HDAT Ethernetскалируется линейно без реконфигурации ткани, поскольку RoCE использует ECMP для распределения нагрузки по нескольким путям.

5. Операции, мониторинг, устранение неполадок и оптимизация

Эффективная работа среды RDMA/RoCE требует специализированного оборудования.

  • Выявление заторы:Мониторинг паузных кадров PFC по портам с использованием телеметрии переключателя (например, Mellanox SHARP).
  • Базовая характеристика:ИспользованиеМлx5cmdиЭфтоол -SОтслеживать загрузки и ретрансляции.
  • ECN & DCQCN настройка:Включить явное уведомление о перегрузке (ECN) на переключателях и настроить параметры динамического управления перегрузкой (DCQCN) наMCX653106A-HDATводитель (например,dcqcn_r_ai=40,dcqcn_r_hai=10)).
  • Анализ журнала:Обзор/var/log/сообщениядля сбоев соединения с RDMA (например, ?? mlx5_core: не удалось создать QP). Проверьте соответствие индексов GID между конечными точками.
  • Обновления прошивки:Регулярно обновлять NIC прошивку черезМенеджер МЛКСФ..Спецификации MCX653106A-HDATРекомендую базовый уровень прошивки xx.36.1010 или выше для оптимальной производительности RoCE.
  • Планирование мощностей:Для организаций, оценивающихMCX653106A-HDAT ценаиMCX653106A-HDAT для продажискидки на объемы, темпы роста проектов для трафика RDMA и коэффициенты переподписки планов (обычно 3: 1 для тканей для хранения).

Общий сценарий устранения неполадок: односторонняя высокая задержка с нулевой потерей пакетов часто указывает на неправильно настроенные пороги ECN или асимметричные настройки PFC.mlnx_qosпроверять соответствие режима доверия и приоритета DSCP для всех элементов сети.

6. Резюме и оценка стоимости

ВNVIDIA Mellanox MCX653106A-HDATServer NIC обеспечивает готовую к производству основу для развертывания высокопроизводительных сетей RDMA/RoCE. Это техническое решение обеспечивает количественную ценность в нескольких измерениях:

  • Производительность:Пропускная способность до 200 Гбит/с на адаптер с задержкой до микросекунды, что позволяет масштабировать хранилища и распределять вычислительные нагрузки, ранее ограничиваемые TCP.
  • Эффективность:Снижение нагрузки на аппаратное обеспечение снижает потребление процессора, связанного с сетью, с > 50% до менее 15%, освобождая ядра для обработки приложений.
  • TCO:ВРешение карты адаптера MCX653106A-HDAT Ethernetуменьшает количество необходимых узлов для заданной цели пропускной способности, снижая капитальные и операционные расходы.MCX653106A-HDAT цена, рассмотрим период окупаемости 9-12 месяцев только из-за повышения эффективности.
  • Будущая готовность:Поддержка PCIe 5.0 (обратно совместимая) и программируемость через DOCA обеспечивает защиту инвестиций, поскольку скорости центра обработки данных мигрируют до 200/400 Гбит.

Для архитекторов, ищущих проверенную на производстве модель проектирования, это решение легко интегрируется в существующие операции Ethernet, одновременно раскрывая полный потенциал RDMA.Лист данных MCX653106A-HDATдля подробных механических чертежей, графических схем и передовых описаний характеристик.MCX653106A-HDAT ценаиMCX653106A-HDAT для продажиВремя доставки, связь с авторизованными дистрибьюторами NVIDIA Mellanox.