Техническое решение: Оптимизация низкой задержки и пропускной способности RDMA/RoCE с помощью Mellanox

March 13, 2026

Техническое решение: Оптимизация низкой задержки и пропускной способности RDMA/RoCE с помощью Mellanox
1Анализ контекста и потребностей проекта

Современные центры обработки данных находятся под постоянным давлением, чтобы обеспечить более высокую производительность для приложений, чувствительных к задержке, таких как распределенные базы данных, высокопроизводительные вычисления (HPC),и кластеры обучения ИИТрадиционная сеть TCP/IP накладывает значительные нагрузки на процессор, создавая узкие уголки, которые ограничивают масштабируемость приложений и увеличивают время отклика.Для организаций, желающих модернизировать свою инфраструктуру, основное требование ясно: уменьшить задержку и увеличить пропускную способность сервера без дорогостоящих архитектурных ремонтов.

Решение заключается в принятии RDMA (Remote Direct Memory Access) через конвергированный Ethernet (RoCE).обход ядра операционной системы для освобождения ресурсов процессора и минимизации задержкиВ центре этой трансформации находится сетевая интерфейсная карта (NIC).MCX631432AN-ADABот Mellanox (NVIDIA) специально разработан для удовлетворения этих потребностей, обеспечивая прочную основу для тканей с поддержкой RoCE.

2. Общий проект сетевой и системной архитектуры

Предлагаемая архитектура представляет собой структуру листового позвоночника, предназначенную для беспотери Ethernet-среды, что является предпосылкой для оптимальной производительности RoCEv2.Дизайн интегрирует вычислительный и хранилищный трафик через единый, высокоскоростной ткани для снижения сложности и стоимости.

  • Спина:Высокопроизводительные коммутаторы 100GbE обеспечивают бесблокирующую связь между всеми коммутаторами листьев, обеспечивая любые пути с низкой задержкой.
  • Листный слойТоп-оф-рек (ToR) коммутаторы с 25GbE нисходящими ссылками подключаются к серверам и узлам хранения.Эти переключатели сконфигурированы с контролем приоритета потока (PFC) и явное уведомление о перегрузке (ECN) для поддержания без потерь ткани.
  • Серверный уровень:Каждый сервер оснащенNVIDIA Mellanox MCX631432AN-ADAB, двухпортовый адаптер 25GbE SFP28. Это позволяет связывать сеть или отдельные пути для хранения и вычислительного трафика.

Эта конструкция гарантирует, чтоКарта адаптера Ethernet MCX631432AN-ADABработает в среде, где трафик RoCE может протекать без потери пакетов, что имеет решающее значение для поддержания высокой пропускной способности и низкой задержки.

3Роль MCX631432AN-ADAB в решении

ВMCX631432AN-ADABВ качестве члена семейства ConnectX-6 Lx он приносит корпоративные функции форм-фактору 25GbE. Его основная роль заключается в том, чтобы служитьMCX631432AN-ADAB Ethernet решения для адаптерных картдля вычислительного и хранилищного трафика, отгрузка сетевых задач с серверного процессора.

Ключевые технические вклады адаптера включают:

  • Выгрузка оборудования:Карта обрабатывает все аспекты протокола RoCE в аппаратном обеспечении, включая транспортировку, инкапсуляцию и контроль перегрузки.
  • Гибкость двух портов:Двойные порты 25GbE могут быть сконфигурированы для перехода на активный / режим ожидания или использоваться для разделения типов трафика.один порт может обрабатывать передний Ethernet-трафик, в то время как другой предназначен для заднего трафика хранения с использованием RoCE, максимизируя производительность и безопасность.
  • Интерфейс хоста PCIe 3.0 x16:С достаточной пропускной способностью для одновременного запуска обоих портов 25GbE,MCX631432AN-ADAB ConnectX-6 Lx с двумя портами 25GbE SFP28обеспечивает отсутствие внутренних узких мест, ограничивающих производительность приложения.
4. Рекомендации по развертыванию и масштабированию

ВнедрениеMCX631432AN-ADABТребует тщательного планирования сетевой структуры и конфигурации сервера.

  • Приготовление ткани:Перед развертыванием необходимо настроить сетевые коммутаторы для поддержки RoCE. Это включает в себя включение PFC для класса трафика RoCE и реализацию управления перегрузкой на основе ECN.Это создает среду без потерь, необходимую для адаптера, чтобы работать оптимально.
  • Установка драйвера и прошивки:Установите последние драйверы NVIDIA WinOF-2 (для Windows) или MLNX_OFED (для Linux), чтобы обеспечить полную поддержку функций.MCX631432AN-ADABявляется обновленным для оптимальной производительности RoCE и совместимости.
  • Расширение кластера:Архитектура масштабируется горизонтально, добавляя больше узлов сервера, каждый со своим собственным MCX631432AN-ADAB.Неблокирующая ткань листового позвоночника гарантирует, что добавленные узлы не ухудшают производительность существующихДля более крупных развертываний можно использовать группы агрегации ссылок (LAG) между переключателями листа и позвоночника.

Типичная топология для кластера баз данных включает подключение основного и реплики серверов к одному и тому же переключателю листа, чтобы минимизировать задержку между раками.Каждый сервер использует свой двухпортный адаптер для подключения к двум отдельным переключателям листов для избыточности.

5Операционный мониторинг, устранение неполадок и оптимизация

После развертывания, поддержание производительности требует активного мониторинга и настройки.MCX631432AN-ADABпредоставляет для этой цели всеобъемлющую телеметрию.

  • Ключевые показатели мониторинга:Использование таких инструментов, как `mlxstat` и `ethtool` для мониторинга счетчиков портов, ошибок ссылок и статистики трафика RDMA.высокое количество указывает на потерю ткани, которая будет ухудшать производительность RoCE.
  • Обновления прошивки и драйверов:Новое прошивку часто включает в себя оптимизацию производительности и исправления ошибок, которые могут еще больше уменьшить задержку и улучшить совместимость с переходами вверх по течению.
  • Настройка производительности:Для среды с самыми требовательными требованиями к задержке тонкая настройка сдерживания прерывания и размера буфера может привести к дополнительным выгодам.Гибкость адаптера позволяет архитекторам набирать настройки на основе их конкретной нагрузки (eНапример, HPC против виртуализации).

Для устранения неполадок при подключении проверяют, что модули SFP28Совместимость MCX631432AN-ADABИспользование оптики, сертифицированной NVIDIA, обеспечивает надежное установление и производительность связи.

6. Резюме и оценка стоимости

ВMCX631432AN-ADABот Mellanox (NVIDIA) предоставляет четкий и эффективный путь к внедрению высокопроизводительной сети с низкой задержкой.организации могут достичь двойных преимуществ резко уменьшенных накладных расходов процессора и значительно увеличенной пропускной способности сервера. Подробная информацияСпецификации MCX631432AN-ADABиФайл данных MCX631432AN-ADABподтвердить его способность справляться с самыми сложными рабочими нагрузками.

Для ИТ-менеджеров и сетевых архитекторов, оценивающих обновление оборудования, повышение производительности, предлагаемое этим решением, прямо переводится в бизнес-ценность: более быстрая обработка транзакций,более эффективный доступ к хранилищуПоскольку потребности в данных продолжают возрастать, развертываниеMCX631432AN-ADABДля получения подробной информации о ценообразовании или для проверкиMCX631432AN-ADAB ценаи доступности, пожалуйста, проконсультируйтесь с вашим представителем NVIDIA.