NVIDIA Mellanox MCX653105A-HDAT Server Adapter Техническое решение: RDMA/RoCE низкозадержанный транспорт для максимального сервера

March 16, 2026

NVIDIA Mellanox MCX653105A-HDAT Server Adapter Техническое решение: RDMA/RoCE низкозадержанный транспорт для максимального сервера
1. Анализ контекста и потребностей проекта

Современные центры обработки данных находятся под беспрецедентным давлением, чтобы обеспечить быструю информацию из массивных наборов данных.или высокочастотные торговые платформы, основная сетевая инфраструктура часто становится основным узким горлом производительности.Традиционные сети на основе TCP/IP накладывают значительные нагрузки на ЦП из-за обработки ядра и копирования данныхПо мере того, как количество сердечников процессора увеличивается, а хранилища NVMe становятся повсеместными, сеть должна развиваться, чтобы поддерживать прямые,высокоскоростное перемещение данных без налогообложения хост-процессоров.

Требование ясно: архитекторам нужно сетевое решение, которое поддерживает удаленный прямой доступ к памяти (RDMA) для обхода ядра ОС,позволяет осуществлять прямую передачу данных между серверной памятью и хранилищем или другими серверамиRDMA over Converged Ethernet (RoCE) стал ведущим стандартом, обеспечивающим задержку класса InfiniBand на стандартной инфраструктуре Ethernet.迈络思 ((NVIDIA Mellanox) MCX653105A-HDATсерверный адаптер специально построен для удовлетворения этих потребностей, обеспечивая аппаратную основу для высокопроизводительной,безубыточная ткань RoCE, которая максимизирует пропускную способность сервера и минимизирует задержку приложения.

2. Общий проект сетевой и системной архитектуры

Предлагаемая архитектура базируется на неблокирующей, спинно-линейной Ethernet-ткани, предназначенной для поддержки трафика RoCEv2.Эта топология обеспечивает подключение от любого к любому с предсказуемой низкой задержкой и высокой пропускной способностьюКлючевые соображения проектирования включают:

  • Конфигурация ткани без потерь:Для обеспечения RoCE сеть должна быть без потерь. Это достигается с помощью контроля приоритета потока (PFC), как определено IEEE 802.1Qbb,который предотвращает пакеты для высокоприоритетного трафика RDMA путем приостановки потоков с более низким приоритетом при возникновении перегрузки.
  • Управление перегрузкой:Эксплицитное уведомление о перегрузке (ECN) маркирует пакеты для сигнализации о перегрузке конечным точкам, что позволяетMCX653105A-HDATадаптеры для снижения скорости передачи до того, как произойдет переполнение буфера.
  • Дизайн листа и позвоночника:Каждый сервер подключается к переключателю листья на 100GbE. После этого переключатели листья подключаются к нескольким переключателям позвоночника, обеспечивая полную двухсекционную полосу пропускания.Эта архитектура масштабируется линейно по мере того, как добавляется больше стойки.
  • Сегменты хранения и вычисления:Ткань поддерживает как NVMe-oF трафик хранения, так и межсерверную связь для распределенных приложений, все используя одну и ту же инфраструктуру с поддержкой RoCE.

В рамках этой архитектурыNVIDIA Mellanox MCX653105A-HDATслужит критической конечной точкой, позволяющей серверам в полной мере участвовать в структуре RDMA при отгрузке сетевых задач с процессора.

3Роль и ключевые характеристики MCX653105A-HDAT в решении

ВMCX653105A-HDATявляется двухпортовым адаптером 100 Гбит/с на базе архитектуры NVIDIA Mellanox ConnectX-6. Он является краеугольным камнем предлагаемого решения RDMA/RoCE, предлагая несколько ключевых возможностей:

  • Загрузка RoCE на основе аппаратного обеспечения:Адаптер обрабатывает все транспортные функции RDMA в аппаратном обеспечении, включая инкапсуляцию пакетов, надежность и контроль перегрузки.непосредственный вклад в улучшение пропускной способности серверов.
  • Поддержка PCIe Gen3/Gen4:С поддержкой до PCIe 4.0 x16,Карта адаптера MCX653105A-HDAT Ethernetобеспечивает достаточную пропускную способность хоста для достижения скорости линии 100 Гбит/с на обоих портах одновременно, что необходимо для требовательных NVMe-oF и HPC рабочих нагрузок.
  • Расширенная виртуализация:Ускорение SR-IOV и VirtIO позволяет адаптеру обеспечивать почти нативную производительность для виртуализированных нагрузок, что делает его подходящим для облачных и NFV-сред.
  • Программируемый трубопровод:Гибкий анализатор позволяет настраивать обработку пакетов и загрузку новых протоколов без обновления оборудования, гарантируя будущее инвестиции.

По словам чиновникаСпецификации MCX653105A-HDAT, адаптер также поддерживает аппаратную криптографию и управление ключами, обеспечивая безопасную RDMA без снижения производительности.Это особенно важно для финансовых услуг и развертывания облака для нескольких пользователей, где изоляция и шифрование данных являются обязательными..

4. Рекомендации по развертыванию и масштабированию

Рекомендуется поэтапный подход к развертыванию, чтобы свести к минимуму риск и обеспечить оптимальную производительность:

  • ФАЗА 1 ✓ Пилотный кластер:РазвернутьMCX653105A-HDAT ConnectX адаптер PCIe сетевая картаКонфигурируйте переключатели листов, чтобы включить PFC и ECN на портах, подключенных к этим серверам.Проверьте функциональность RDMA с помощью инструментов сравнения, таких как perftest.
  • Этап 2 Расширить развертывание на все узлы хранения. Мигрировать трафик NVMe-oF на ткань RoCE.Совместимость MCX653105A-HDATПрирода с основным программным обеспечением для хранения обеспечивает плавный переход.
  • Фаза 3 РазвернитеРаствор карты MCX653105A-HDAT Ethernet адаптерВключите RDMA для распределенных приложений, таких как Spark, TensorFlow и базы данных в памяти.

Для масштабирования убедитесь, что ткань позвоночника-листья перенаправлена для обработки пикового трафика.MCX653105A-HDAT для продажив вашем развертывании растет, использовать NVIDIA's Unified Fabric Manager (UFM) для автоматизированной оптимизации ткани и мониторинга состояния.

5Операции, мониторинг и оптимизация

Поддержание высокопроизводительной ткани RoCE требует активного мониторинга и настройки:

  • Инструменты мониторинга:Используйте Mellanox NEO и UFM для мониторинга состояния ткани, отслеживания паузовых кадров PFC и обнаружения точек перегрузки.Лист данных MCX653105A-HDATпредоставляет подробную информацию о контроле, доступную с помощью стандартных инструментов, таких как ethtool.
  • Настройка производительности:Прекрасное настройка слияния прерываний, размеры кольцевого буфера и параметры PCIe на основе характеристик рабочей нагрузки.может автоматически настраиваться на основе моделей движения.
  • Устранение неполадок:Общие проблемы включают PFC-штормы из-за неправильной конфигурации QoS или истощения буфера.MCX653105A-HDAT ценас точки зрения производительности обоснована регулярными испытаниями на валидацию.
  • Обновления прошивки и драйверов:Сохраняйте прошивку адаптера и стек драйверов NVIDIA обновленными, чтобы воспользоваться последними оптимизациями и исправлениями ошибок.Карта адаптера MCX653105A-HDAT Ethernetподдерживает обновляемую в полевом режиме прошивку для бесперебойных обновлений.
6Заключение и оценка стоимости

ВNVIDIA Mellanox MCX653105A-HDATсерверный адаптер обеспечивает надежную, высокопроизводительную основу для современных архитектур центров обработки данных, требующих низкой задержки и высокой пропускной способности.Он напрямую обращается к узкому горлу CPU., освобождая вычислительные ресурсы для прибыльных приложений.беспотерия Ethernet ткань, способная поддерживать самые сложные рабочие нагрузкиДля архитекторов, ищущих будущую сетевую инфраструктуру,MCX653105A-HDATпредставляет собой важнейший строительный элемент, который обеспечивает как немедленные результаты, так и долгосрочную ценность.