NVIDIA Mellanox MCX653106A-HDAT в действии: трансформация низколатентной передачи RDMA/RoCE и пропускной способности сервера
March 17, 2026
В эпоху аналитики в режиме реального времени и рабочей нагрузки, основанной на ИИ, центры обработки данных находятся под постоянным давлением, чтобы предоставлять больше данных с меньшей задержкой.Ведущий поставщик облачных услуг недавно столкнулся с критической проблемой: их распределенный кластер хранилища боролся с CPU нагрузки и задержки jitter вызванных традиционными протоколами TCP / IP.им нужно было решение, которое могло бы разгрузить сетевую обработку и позволить истинный обход ядраЭто история о том, какMCX653106A-HDATЭто стало краеугольным камнем их модернизации инфраструктуры.
Высокопроизводительные вычисления (HPC) и обучение ИИ компании требовали массового перемещения данных между сотнями узлов.Существующие 25GbE NIC потребляли до 30% ядер процессора только для управления сетевым трафикомЭто не только увеличило эксплуатационные расходы, но и привело к непредсказуемым пикам задержки во время пиковых нагрузок.Инженерная группа поняла, что для достижения желаемой производительности для их параллельной файловой системыДля этого им необходимо было использовать RDMA (Remote Direct Memory Access) через Converged Ethernet (RoCE).NVIDIA Mellanox MCX653106A-HDATРешение началось.
После тщательной оценки имеющегося оборудования команда выбралаMCX653106A-HDAT ConnectX адаптер PCIe сетевая картаРазвертывание было нацелено на хранилища и вычислительные узлы в их частной облачной среде.команда настроила беспотеристые Ethernet-ткани с использованием контроля приоритета потока (PFC) и улучшенного выбора передачи (ETS)Процесс установки был упрощен совместимостью карты с PCIe 3.0/4.0, что позволило обеспечить бесперебойную интеграцию как в новые, так и в существующие серверы.
ВКарта адаптера MCX653106A-HDAT Ethernetбыла сконфигурирована для поддержки 100 Гбит/с ссылок, обеспечивая немедленное обновление пропускной способности.команда успешно переместила сетевую обработку от процессора к самому адаптеруЧтобы обеспечить оптимальную производительность, инженеры упомянули обширныеСпецификации MCX653106A-HDATи настройки руководств для тонкой настройки размера буфера и прерывания настройки модерации, создавая прочную основу для трафика RDMA.
Влияние развертыванияMCX653106A-HDATСледующая таблица иллюстрирует эффективность, наблюдаемую в производственной среде после миграции на RDMA/RoCE:
| Метрический | До развертывания (TCP/IP) | После развертывания (RoCE v2) |
|---|---|---|
| Средняя задержка (IPC) | 12 мс | 2.1 μs |
| Использование процессора (сеть) | 28% | 5% |
| Пропускная способность на узел | 18 Гбит/с (эффективный) | 98 Гбит/с (скорость линии) |
СNVIDIA Mellanox MCX653106A-HDATЭто напрямую означает более быструю проверку моделей ИИ и более плавную аналитику в реальном времени.Освобожденные ядра процессора были перераспределены на рабочие нагрузки приложений, увеличивая общую эффективность кластера более чем на 20%.Видимость, обеспечиваемая передовой телеметрией адаптера, значительно повысила точность планирования мощности и анализа узких мест..
Поощренный успехом, инженерная группа теперь планирует расширить развертывание на свои виртуализированные среды.Совместимость MCX653106A-HDATВ связи с тем, что компания рассматривает возможность приобретения дополнительных единиц, она также планирует использовать более широкий спектр облачных архитектур.MCX653106A-HDAT ценаУченые также исследуют возможности, с помощью которыхРешение карты адаптера MCX653106A-HDAT Ethernetдля реализаций NVMe-oF, направленных на создание полностью дезагрегированной структуры хранения.
Это исследование показывает, что для организаций, которые серьезно относятся к сокращению задержки и максимизации пропускной способности сервера,MCX653106A-HDATДля детальных архитектурных схем и для проверки собственных системных требований, официальныйЛист данных MCX653106A-HDATобеспечивает всю необходимую техническую глубину.

