NVIDIA Mellanox MCX653106A-HDAT Серверный адаптер Техническая книга
April 30, 2026
Эта техническая книга предназначена для архитекторов сетей, инженеров допроса и операционных менеджеров.сети малозадержанных центров обработки данных с использованиемNVIDIA Mellanox MCX653106A-HDATNIC сервера, с акцентом на транспорт RDMA/RoCE и измеримые увеличения пропускной способности сервера.
Современные нагрузки на центры обработки данных, включая устройства для хранения NVMe-oF, распределенное обучение ИИ, высокочастотную торговлю и аналитику в режиме реального времени, предъявляют чрезвычайные требования к сетевой инфраструктуре.Традиционная обработка стека TCP/IP вводит три основных узких места: высокие накладные расходы на ЦП (часто превышающие 50% основных циклов), переменная задержка из-за ограничений обхода ядра и снижение эффективной пропускной способности от накладных расходов на обработку протокола.Организации требуют решения, которое обеспечивает пропускную способность с частотой линии с задержкой до микросекунды, освобождая ресурсы процессора для логики приложенияКлючевые требования включают аппаратно-разгруженную RDMA, беспроблемный транспорт RoCE, беспроблемную интеграцию с существующими Ethernet тканями,и комплексные операционные инструменты для мониторинга и устранения неполадок.
Предлагаемая архитектура использует двухуровневую топологию Clos (spine-leaf), оптимизированную для транспортировки RoCE.Улучшенный выбор передачи) с конфигурацией, гарантирующей беспроигрышное поведение для трафика RDMA. спинные переключатели позволяют не блокировать любое сообщение через ткань. Каждый вычислительный и хранилищный узел включаетКарта адаптера MCX653106A-HDAT Ethernet, который подключается к переключателям листьев через двойные порты 100GbE, сконфигурированные в активной-активной связи.Архитектура отделяет трафик RDMA (выделенная очередь приоритета с включенным PFC) от обычного трафика TCP/IP (череда наилучших усилий)Сегментация VLAN изолирует домены RDMA, в то время как маршрутизация обрабатывает межподсетевую связь, когда это необходимо.
ВMCX653106A-HDAT ConnectX адаптер PCIe сетевая картаПостроен на архитектуре ConnectX-6 с интерфейсом хоста PCIe 4.0 x16.Он обеспечивает пропускную способность 100 ГбЭ с двумя портами (или 200 ГбЭ с одним портом) с задержкой менее 600 нс при рабочей нагрузке RDMA.Ключевые особенности, используемые в этом проекте, включают:
- Аппаратные RDMA & RoCE Огрузка:Полная разгрузка глаголов RDMA, исключение участия хост-CPU для перемещения данных.
- Ускоритель NVMe-oF:Аппаратная логика, которая ускоряет NVMe команды, уменьшая задержку доступа к хранилищу более чем на 80% по сравнению с программами.
- Программируемый путь передачи данных (ASAP2):Позволяет гибко обрабатывать пакеты и разгружать сети наложения (VXLAN, GENEVE).
- Многохост и GPU Direct RDMA:Прямая одноранговая связь между графическими процессорами через узлы без вмешательства процессора является критической для кластеров ИИ.
- Телеметрия и контроль перегрузок:Аппаратное наблюдение за потоком, маркировка ECN и ограничение динамической скорости.
Инженеры, проверяющиеЛист данных MCX653106A-HDATОфициальная версия будет поддерживать как стандартные, так и форм-факторы OCP 3.0, а также обеспечит всестороннее охват операционной системы (дистрибуции Linux с MLNX_OFED, Windows, ESXi) и широкую совместимость с серверами.Спецификации MCX653106A-HDATтакже подтверждают максимальное потребление энергии 75 Вт и температуру работы от 0 до 55 °C, подходящую для высокой плотности развертывания.
Развертывание следует поэтапному подходу.
| Компонент | Конфигурация | Количество |
|---|---|---|
| Узлы вычисления/хранения | Intel/AMD с двойным разъемом, 256 ГБ+ оперативной памяти, накопители NVMe | 16 |
| NIC на узел | MCX653106A-HDAT(двойной порт 100GbE) | 16 |
| Переключатели листьев | Mellanox SN3700 (32x 100GbE, включенный DCB) | 2 |
| Смены позвоночника | Mellanox SN3700 (100GbE подключения) | 1 (скала до 2 для увольнения) |
Шаги развертывания:
- Шаг 1 √ Валидация:ПодтверждениеСовместимость MCX653106A-HDATИспользуйте матрицу совместимости изЛист данных MCX653106A-HDAT.
- Шаг 2 √ Установка драйверов:Развернуть пакет драйверов MLNX_OFED (минимум версии 5.8) на всех узлах. Включить модули ядра RDMA и RoCE.
- Шаг 3 Конфигурация ткани:Включите PFC (приоритет 3 для RDMA) и ETS на переключателях листьев.
- Шаг 4 ¢ Настройка RoCE:Конфигурировать каждыйКарта адаптера MCX653106A-HDAT Ethernetс RoCE v2 (routable) или v1 (non-routable). Установите режим GID на RoCE v2 с IPv4-адресом.
- Шаг 5 ✓ Проверка:Запустить ib_write_bw и ib_send_lat тесты между узлами для проверки пропускной способности и задержки.
перфорацияиmlnx_perf.
Для масштабирования за пределы 16 узлов, переход на топологию позвоночника с избыточными переключателями позвоночника, поддерживающими до 128 узлов.Решение карты адаптера MCX653106A-HDAT Ethernetскалируется линейно без реконфигурации ткани, поскольку RoCE использует ECMP для распределения нагрузки по нескольким путям.
Эффективная работа среды RDMA/RoCE требует специализированного оборудования.
- Выявление заторы:Мониторинг паузных кадров PFC по портам с использованием телеметрии переключателя (например, Mellanox SHARP).
- Базовая характеристика:Использование
Млx5cmdиЭфтоол -SОтслеживать загрузки и ретрансляции. - ECN & DCQCN настройка:Включить явное уведомление о перегрузке (ECN) на переключателях и настроить параметры динамического управления перегрузкой (DCQCN) наMCX653106A-HDATводитель (например,
dcqcn_r_ai=40,dcqcn_r_hai=10)). - Анализ журнала:Обзор
/var/log/сообщениядля сбоев соединения с RDMA (например, ?? mlx5_core: не удалось создать QP). Проверьте соответствие индексов GID между конечными точками. - Обновления прошивки:Регулярно обновлять NIC прошивку через
Менеджер МЛКСФ..Спецификации MCX653106A-HDATРекомендую базовый уровень прошивки xx.36.1010 или выше для оптимальной производительности RoCE. - Планирование мощностей:Для организаций, оценивающихMCX653106A-HDAT ценаиMCX653106A-HDAT для продажискидки на объемы, темпы роста проектов для трафика RDMA и коэффициенты переподписки планов (обычно 3: 1 для тканей для хранения).
Общий сценарий устранения неполадок: односторонняя высокая задержка с нулевой потерей пакетов часто указывает на неправильно настроенные пороги ECN или асимметричные настройки PFC.mlnx_qosпроверять соответствие режима доверия и приоритета DSCP для всех элементов сети.
ВNVIDIA Mellanox MCX653106A-HDATServer NIC обеспечивает готовую к производству основу для развертывания высокопроизводительных сетей RDMA/RoCE. Это техническое решение обеспечивает количественную ценность в нескольких измерениях:
- Производительность:Пропускная способность до 200 Гбит/с на адаптер с задержкой до микросекунды, что позволяет масштабировать хранилища и распределять вычислительные нагрузки, ранее ограничиваемые TCP.
- Эффективность:Снижение нагрузки на аппаратное обеспечение снижает потребление процессора, связанного с сетью, с > 50% до менее 15%, освобождая ядра для обработки приложений.
- TCO:ВРешение карты адаптера MCX653106A-HDAT Ethernetуменьшает количество необходимых узлов для заданной цели пропускной способности, снижая капитальные и операционные расходы.MCX653106A-HDAT цена, рассмотрим период окупаемости 9-12 месяцев только из-за повышения эффективности.
- Будущая готовность:Поддержка PCIe 5.0 (обратно совместимая) и программируемость через DOCA обеспечивает защиту инвестиций, поскольку скорости центра обработки данных мигрируют до 200/400 Гбит.
Для архитекторов, ищущих проверенную на производстве модель проектирования, это решение легко интегрируется в существующие операции Ethernet, одновременно раскрывая полный потенциал RDMA.Лист данных MCX653106A-HDATдля подробных механических чертежей, графических схем и передовых описаний характеристик.MCX653106A-HDAT ценаиMCX653106A-HDAT для продажиВремя доставки, связь с авторизованными дистрибьюторами NVIDIA Mellanox.

