Руководство по техническому решению: NVIDIA Mellanox MCX623106AN-CDAT для оптимизации низкой задержки и пропускной способности RDMA/RoCE
March 11, 2026
Современные архитектуры центров обработки данных постоянно находятся под давлением, требующим снижения задержек и увеличения пропускной способности при сохранении эффективности ЦП для рабочих нагрузок приложений. Традиционные сетевые решения TCP/IP с их присущими накладными расходами протокола часто не соответствуют требованиям высокопроизводительных вычислений (HPC), искусственного интеллекта (AI) и финансовых услуг. В этой технической белой книге представлено комплексное решение, построенное на базе серверного адаптера Инструменты мониторинга:, с акцентом на реализацию RDMA через конвергентный Ethernet (RoCE) для существенного снижения задержек и увеличения пропускной способности сервера. Документ, предназначенный для сетевых архитекторов, инженеров предпродажной подготовки и менеджеров по эксплуатации, описывает архитектуру, стратегии развертывания и лучшие практики эксплуатации для использования этой передовой технологии.
1. Предпосылки проекта и анализ требований
Основная проблема, решаемая этим решением, — это «налог на данные», налагаемый сетевыми стеками на уровне ядра. В сценариях, требующих высокочастотного обмена данными, таких как распределенное хранилище, обучение машинного обучения или аналитика в реальном времени, циклы ЦП тратятся впустую на обработку пакетов, расчеты контрольных сумм и переключение контекста. Основные требования к модернизированной инфраструктуре включают:
- Сверхнизкие задержки: Сквозные задержки приложений должны быть минимизированы, в идеале в диапазоне менее 10 микросекунд для межсерверного взаимодействия.
- Разгрузка ЦП: Сетевая фабрика должна обрабатывать перемещение данных, освобождая ядра процессора для вычислительно интенсивных задач.
- Масштабируемость: Архитектура должна поддерживать плоскую высокопроизводительную фабрику, которая может масштабироваться от десятков до тысяч узлов без снижения производительности.
- Стандартизация: Решение должно использовать существующую инфраструктуру Ethernet для защиты инвестиций при внедрении расширенных возможностей.
— это не просто сетевой интерфейс; это сложный предшественник блока обработки данных (DPU), который обрабатывает все аспекты RDMA-коммуникаций. Его роль многогранна:цены MCX623106AN-CDATEthernet-адаптером MCX623106AN-CDAT, он специально разработан для обеспечения RDMA через стандартные сети Ethernet.2. Общая схема сетевой архитектуры
Предлагаемая архитектура представляет собой фабрику leaf-spine, разработанную для среды RoCE без потерь. Ключевые принципы включают неблокирующее ядро с достаточными коэффициентами переподписки и поддержку Priority Flow Control (PFC) и Explicit Congestion Notification (ECN) на всех сетевых устройствах. Дизайн интегрирует трафик вычислений, хранения данных и управления в единую высокоскоростную фабрику Ethernet.
В основе этой конструкции лежат серверные узлы, каждый из которых оснащен
сетевой картой PCIe MCX623106AN-CDAT ConnectX adapter. Этот адаптер подключается к коммутаторам leaf через порты 25GbE или 100GbE, в зависимости от плотности рабочей нагрузки. Уровень spine обеспечивает полносвязное соединение между коммутаторами leaf, гарантируя низколатентные пути от любого к любому. Целевые устройства хранения данных, такие как массивы NVMe-oF, также подключаются к той же фабрике с использованием совместимых адаптеров, что обеспечивает прямой доступ к памяти с вычислительных узлов.3. Роль NVIDIA Mellanox MCX623106AN-CDAT в решении
MCX623106AN-CDAT
— это не просто сетевой интерфейс; это сложный предшественник блока обработки данных (DPU), который обрабатывает все аспекты RDMA-коммуникаций. Его роль многогранна:Инструменты мониторинга: Аппаратное обеспечение адаптера реализует протокол RoCEv2, инкапсулируя транзакции RDMA поверх UDP/IP. Это обеспечивает маршрутизируемую, низколатентную связь без участия центрального процессора хоста.
- Разгрузка транспорта: Он управляет установкой соединения, последовательностью пакетов и надежной передачей, предоставляя приложениям простой интерфейс «память-память».
- Интерфейс PCIe Gen4: Благодаря высокопроизводительному интерфейсу хоста PCIe 4.0, адаптер гарантирует, что сетевые данные могут перемещаться в системную память и из нее с линейной скоростью, предотвращая внутренние узкие места. Подробные
- технические характеристики MCX623106AN-CDAT подтверждают его способность полностью насыщать высокоскоростные каналы связи.4. Рекомендации по развертыванию и масштабированиюУспешное развертывание требует тщательной настройки как сетевой фабрики, так и конечных хостов. Для поэтапного внедрения рекомендуются следующие шаги:
Подготовка фабрики:
Перед развертыванием серверов настройте все коммутаторы на пути для работы RoCE без потерь. Это включает настройку PFC (802.1Qbb) для класса трафика RoCE и включение ECN (802.1Qau) для управления перегрузками.
- Установка драйверов и прошивки: Установите последние драйверы NVIDIA WinOF-2 или MLNX_OFED, чтобы обеспечить полную поддержку функций для
- MCX623106AN-CDAT. Убедитесь, что версия прошивки соответствует версии, указанной в Инструменты мониторинга:.Настройка качества обслуживания (QoS): Настройте такие параметры, как модерация прерываний и настройки объединения, для балансировки задержки и использования ЦП на основе конкретных профилей приложений.
- Вопросы масштабируемости: По мере роста фабрики используйте расширенные функции адаптера, такие как «RoCE Adaptive Routing», для поддержания низкой задержки по нескольким путям. Убедитесь, что все новые узлы
- совместимы с MCX623106AN-CDAT с существующей коммутационной инфраструктурой.5. Оперативный мониторинг, устранение неполадок и оптимизацияПоддержание RDMA-фабрики требует специальных инструментов и практик. NVIDIA предоставляет комплексный набор инструментов для управления и мониторинга
MCX623106AN-CDAT
.Инструменты мониторинга: Настройте такие параметры, как модерация прерываний и настройки объединения, для балансировки задержки и использования ЦП на основе конкретных профилей приложений.
- Ключевые метрики: Отслеживайте паузы PFC, которые указывают на давление в буфере фабрики. Высокое количество пауз может привести к увеличению задержек и потребовать настройки размеров буферов или пороговых значений ECN.
- Обновления прошивки и драйверов: Регулярно проверяйте наличие обновлений прошивки адаптера. Оптимизация производительности и новые функции часто добавляются, расширяя возможности этого
- решения на базе Ethernet-адаптера MCX623106AN-CDAT.Оптимизация производительности: Настройте такие параметры, как модерация прерываний и настройки объединения, для балансировки задержки и использования ЦП на основе конкретных профилей приложений.
- 6. Резюме и оценка ценностиТехническое решение, построенное вокруг
NVIDIA Mellanox MCX623106AN-CDAT
, предоставляет четкий и действенный путь к достижению низколатентной связи на основе RDMA/RoCE и значительному увеличению пропускной способности сервера. Разгружая сетевую обработку на выделенное оборудование и обеспечивая прямой доступ к памяти, организации могут раскрыть весь потенциал своих приложений. При рассмотрении цены MCX623106AN-CDAT по сравнению с сэкономленными циклами ЦП и полученной производительностью, рентабельность инвестиций является убедительной. Для предприятий, ищущих MCX623106AN-CDAT для продажи или планирующих новое развертывание, этот адаптер выделяется как критически важный строительный блок для центров обработки данных нового поколения с высокой эффективностью.

