Анализ сетевой архитектуры Mellanox, поддерживающей обучение крупной модели ИИ

October 5, 2025

последние новости компании о Анализ сетевой архитектуры Mellanox, поддерживающей обучение крупной модели ИИ
Архитектура будущего: как Mellanox InfiniBand ускоряет обучение моделей ИИ в масштабе

Дата:18 ноября 2023 года

Поскольку модели искусственного интеллекта растут экспоненциально по размеру и сложности, сетевая ткань, соединяющая тысячи графических процессоров, стала критическим фактором эффективности обучения.Меланокс InfiniBandтехнология стала основой для современных кластеров сверхкомпьютеров ИИ, специально разработанных для преодоления коммуникационных узких мест, которые поражают большие масштабыОбучение моделей ИИЭта статья демонстрирует архитектурные инновации, которые делают InfiniBand де-факто стандартом для ускорения самых требовательных нагрузок ИИ в мире.

Сетевое узкое место в распределенном обучении ИИ

СовременныйОбучение моделей ИИ, например, для больших языковых моделей (LLM), опирается на параллельные стратегии данных, где параметры модели синхронизируются с тысячами графических процессоров после обработки каждой мини-партии данных.Время, проведенное в этой фазе синхронизации, известный как все-уменьшить, является чистым накладным.Сетевое устройство GPU, эти накладные расходы на связь могут потреблять более 50% от общего цикла обучения, резко уменьшая общую загрузку GPU и продлевая время досмотра с недель до месяцев.Сеть больше не просто трубка данных; это основной вычислительный компонент.

Mellanox InfiniBand: вычисления в сети для ИИ

Меланокс InfiniBandрешает эту проблему с помощью комплекса аппаратных двигателей ускорения, которые превращают сеть из пассивного участника в активный вычислительный актив.

  • SHARP (протокол масштабируемой иерархической агрегации и редукции):Эта революционная технология выполняет операции агрегирования (например, суммы, средние значения) непосредственно внутри коммутаторов InfiniBand.SHARP уменьшает количество данных в сетевой структуреЭто позволяет значительно сократить объем передаваемых данных и время, необходимое для синхронизации.
  • Адаптивный маршрутизатор и контроль перегрузки:Динамические возможности маршрутизации InfiniBand автоматически направляют трафик вокруг перегруженных точек,обеспечение единообразного использования сетевой структуры и предотвращение того, чтобы какое-либо отдельное звено превратилось в узкое место во время интенсивных фаз связи "все для всех".
  • Сверхнизкая задержка и высокая пропускная способность:С задержкой от конца до конца менее 600 наносекунд и поддержкой 400 Гбит/с и выше,Меланокс InfiniBandобеспечивает необработанную скорость, необходимую для обмена параметрами между графическими процессорами почти в реальном времени.
Количественное влияние на эффективность обучения и общую стоимость владения (TCO)

Архитектурные преимущества InfiniBand напрямую переводятся в превосходные результаты бизнеса и исследований для предприятий, работающих с крупномасштабными рабочими нагрузками ИИ.

Метрический Стандартная Ethernet-ткань Ткань Mellanox InfiniBand Улучшение
Использование графических процессоров (в масштабном обучении) 40-60% 90-95% >50% увеличение
Время для обучения модели (например, LLM с параметром 1B) 30 дней 18 дней Уменьшение на 40%
Эффективная полоса пропускания для All-Reduce ~120 Гбит/с ~380 Гбит/с 3 раза больше использования
Потребление энергии на обучающую работу 1.0x (основной показатель) ~ 0,7x Снижение на 30%

Эти показатели показывают, что оптимизированныйСетевое устройство GPUСтратегия - это не роскошь, а необходимость для достижения жизнеспособной рентабельности инвестиций в кластеры ИИ на несколько миллионов долларов.

Заключение: Создание специального для ИИ центра обработки данных

Эра дизайна универсальных центров обработки данных заканчивается для исследований ИИ.Обучение моделей ИИтребует совместно разработанного подхода, где вычислительная мощность графических процессоров сочетается с интеллектуальной ускоренной сетьюМеланокс InfiniBandМинимизируя расходы на связь и максимизируя использование GPU, архитектура InfiniBand является ключом к более быстрым инновациям, снижению затрат на обучение,и достижение ранее невозможных масштабов ИИЭто незаменимая основа для нового поколения прорывов ИИ.