Без границ между CPU и GPU: современные серверы и InfiniBand меняют подход к вычислениям

Новая эра вычислений

Ещё десять лет назад архитектура типичного сервера строилась вокруг одного или нескольких центральных процессоров. Всё остальное — память, диски, сетевые адаптеры — подключалось как периферия. Но с ростом объёмов данных и усложнением вычислительных задач стало ясно: CPU больше не справляется в одиночку. На сцену вышли графические процессоры, изначально созданные для рендеринга, но быстро превратившиеся в универсальные ускорители.

Сегодня гибридные архитектуры CPU+GPU — не экзотика, а основа для высокопроизводительных вычислений. Однако просто добавить пару GPU в сервер недостаточно. Масштабируемость упирается в фундаментальные ограничения: пропускную способность шин, задержки при обмене данными, фрагментацию памяти. Именно здесь на помощь приходят решения нового поколения — в том числе сервера собственного производства проектируемые с нуля под требования к ускоренной обработке данных, — и технологии вроде InfiniBand, которые стирают искусственные границы между вычислительными блоками, формируя единое, координированное вычислительное пространство.

Архитектурный разрыв: почему CPU и GPU раньше «не разговаривали»

Исторически GPU проектировались для параллельной обработки пикселей, а не для сложных вычислений. Даже когда стало понятно, что их потенциал можно использовать для численных задач, интеграция с CPU оставалась проблемой. Всё взаимодействие шло через шину PCIe — надёжную, но узкую для современных объёмов данных.

Эволюция PCIe не стояла на месте: каждое новое поколение удваивало пропускную способность по сравнению с предыдущим. Однако даже при этом росте шина оставалась узким местом в системах с интенсивным обменом данными между CPU и GPU. Для понимания масштаба ограничений полезно взглянуть на историю и характеристики PCIe:

Версия PCIe Год выпуска Пропускная способность на линию (однонаправленная, ГБ/с) Пропускная способность x16 (двунаправленная, ГБ/с)
1.0 2003 0.25 8
2.0 2007 0.5 16
3.0 2010 1 32
4.0 2017 2 64
5.0 2019 4 128
6.0 2022 8 256

PCIe 4.0, например, предлагает около 32 ГБ/с в двунаправленном режиме на x16-слот — цифра впечатляющая, но несопоставимая с пропускной способностью внутри GPU (терабайты в секунду через HBM). Это приводит к ситуации, когда GPU простаивает, ожидая данные от CPU или памяти, а дорогостоящие вычислительные ресурсы используются на 30–40%. При масштабировании на десятки или сотни узлов проблема усугубляется: задержки накапливаются, синхронизация усложняется, а прирост производительности перестаёт быть линейным.

Слот PCIe 4.0 x16 на современной материнской плате с чипсетом для настольного ПК.
Cлот PCIe 4.0 x16 на материнской плате — основной интерфейс подключения высокопроизводительных устройств, таких как видеокарты и ускорители ИИ. Несмотря на впечатляющую пропускную способность (до 64 ГБ/с в двунаправленном режиме), он остаётся узким местом по сравнению с внутренней пропускной способностью GPU.

Несмотря на появление PCIe 6.0 — официально утверждённого в январе 2022 года и обеспечивающего до 256 ГБ/с на x16 в двунаправленном режиме — его массовое внедрение по состоянию на 2025 год остаётся ограниченным. Высокая сложность реализации (включая переход на PAM-4-модуляцию и обязательную коррекцию ошибок на уровне канала FLIT) замедляет появление совместимых чипсетов и увеличивает стоимость систем. Поэтому большинство платформ по-прежнему используют PCIe 4.0 или 5.0, и архитектурный разрыв между внутренней пропускной способностью GPU и внешней шиной остаётся актуальной проблемой.

Более того, традиционные серверные платформы не были оптимизированы под плотное размещение GPU. Ограничения по питанию, тепловыделению и физическому пространству заставляли идти на компромиссы. Даже если удавалось установить восемь GPU в один сервер, их взаимодействие оставалось косвенным — через общий контроллер памяти или PCIe-коммутаторы, что вносило дополнительные задержки.

InfiniBand: не просто сеть, а нервная система вычислительного кластера

Решение лежит не только внутри сервера, но и между ними. Технология InfiniBand, разработанная ещё в начале 2000-х, обрела второе дыхание благодаря покупке Mellanox компанией NVIDIA. Сегодня InfiniBand — это не просто «альтернатива Ethernet», а высокопроизводительная межсоединительная ткань, спроектированная для HPC и масштабируемых вычислений.

Схематическая диаграмма архитектуры InfiniBand, показывающая подсети — Alpha, Beta — соединённые между собой маршрутизаторами. Каждая подсеть подключает несколько конечных узлов (End-node). Стрелки обозначают направление передачи данных.
Схематическая диаграмма архитектуры InfiniBand, показывающая подсети — Alpha и Beta — соединённые между собой маршрутизаторами. Каждая подсеть подключает несколько конечных узлов (End-node). Стрелки обозначают направление передачи данных.

Ключевые преимущества:

  • Пропускная способность до 800 Гбит/с (NDR 400 Гбит/с на линк, с возможностью агрегации);
  • Задержки менее 1 микросекунды;
  • RDMA (Remote Direct Memory Access) — прямой доступ к памяти удалённого узла без участия CPU.

В отличие от традиционного Ethernet, где каждая передача требует участия ОС и стека TCP/IP, InfiniBand работает на уровне железа. Это позволяет GPU в разных серверах обмениваться данными почти так же быстро, как если бы они находились в одном корпусе. Для задач, требующих распределённой обработки (например, численное моделирование или анализ потоковых данных), это критически важно.

Современные коммутаторы InfiniBand, такие как NVIDIA Quantum-2, поддерживают адаптивную маршрутизацию, self-healing топологии и аппаратное шифрование, обеспечивая не только скорость, но и отказоустойчивость. Благодаря технологии SHARP (Scalable Hierarchical Aggregation and Reduction Protocol), даже агрегационные операции (например, суммирование градиентов в распределённых вычислениях) выполняются прямо в сети — без возврата данных на узлы. Это снижает нагрузку на CPU и ускоряет выполнение задач в разы.

Серверы нового поколения: когда каждый компонент работает как единое целое

Современные серверные платформы — это уже не просто «коробки с процессорами», а высококомпонентные вычислительные модули. Примеры: NVIDIA HGX с 8 GPU, Supermicro SuperBlade, Dell PowerEdge XE9680. Все они спроектированы с учётом максимальной пропускной способности между CPU, GPU и сетью.

Ключевую роль играют технологии NVLink и NVSwitch. NVLink обеспечивает прямую связь между GPU со скоростью до 900 ГБ/с (в HGX H100), обходя CPU и PCIe. NVSwitch позволяет соединить все GPU в топологии «любой-с-любым», что критично для задач с плотными зависимостями между данными.

Микрочип и абстрактные связи к блокам ресурсов.

Но аппаратное обеспечение — лишь половина дела. Программная инфраструктура, такая как NVIDIA Fabric Manager или DOCA (для ускорения сетевых сервисов на DPU), обеспечивает динамическое распределение ресурсов, мониторинг и отказоустойчивость. Это превращает кластер из десятков серверов в единый логический вычислительный узел.

Особое внимание уделяется и совместимости. Системы на базе HGX сертифицированы для работы с основными enterprise-платформами — от VMware до Kubernetes. Это позволяет ИТ-отделам интегрировать ускоренные вычисления в существующие рабочие процессы без полной перестройки инфраструктуры.

Практические преимущества для бизнеса

Технологии такого уровня уже сегодня приносят ощутимую пользу в enterprise-средах — даже без упоминания типичных «умных» сценариев.

В финансовом секторе банки используют гибридные кластеры для расчёта рыночного риска в реальном времени. Раньше подобные модели запускались раз в сутки; теперь — каждые несколько минут, что позволяет оперативно реагировать на волатильность. Например, один из европейских инвестиционных банков сократил время расчёта портфельного риска с 6 часов до 12 минут, используя кластер из 32 серверов с H100 и InfiniBand NDR.

В энергетике и промышленности компании применяют эти системы для симуляции гидродинамики, прочностных испытаний или оптимизации логистики. Например, одна из нефтегазовых компаний сократила время построения сейсмической модели с 12 часов до 40 минут. Это не только ускоряет геологоразведку, но и напрямую влияет на сроки принятия решений по бурению.

В медицине ускоренная обработка томографических данных позволяет получать трёхмерные реконструкции органов почти мгновенно — что критично для оперативной диагностики и хирургического планирования. В одном из исследовательских центров США система на базе HGX A100 обрабатывает полный набор МРТ-снимков за 90 секунд против 25 минут на традиционной CPU-платформе.

Во всех этих случаях ключевой фактор — не просто «много GPU», а именно эффективное взаимодействие между ними, минимизация простоев и линейное масштабирование. Благодаря InfiniBand и оптимизированной архитектуре серверов, добавление новых узлов в кластер действительно приносит пропорциональный прирост производительности.

Что это значит для ИТ-инфраструктуры завтрашнего дня

Будущее ИТ-инфраструктуры — не в отдельных мощных серверах, а в вычислительных фабриках, где ресурсы динамически распределяются по запросу. Это требует иного подхода к проектированию ЦОД:

  • Охлаждение: плотные GPU-конфигурации выделяют до 10 кВт на стойку — нужны решения с жидкостным охлаждением;
  • Сеть: InfiniBand требует отдельного планирования топологии (Fat Tree, Dragonfly), но окупается в эксплуатации;
  • Управление: автоматизация через Kubernetes с поддержкой GPU и RDMA (например, с использованием NVIDIA GPU Operator).

Долгосрочная тенденция — disaggregated architecture, где CPU, GPU, память и хранилище становятся независимыми пулами ресурсов, подключаемыми по запросу через высокоскоростную ткань. InfiniBand и DPU (Data Processing Units, такие как NVIDIA BlueField) лежат в основе этой эволюции.

Схема разобщённой (disaggregated) архитектуры серверов с отдельными блоками CPU, памяти, хранилища и ускорителей, соединёнными высокоскоростной сетью.
Иллюстрация демонстрирует концепцию разобщённой архитектуры (disaggregated architecture) в серверных системах: вместо традиционных монолитных серверов вычислительные ресурсы — процессоры (CPU), оперативная память, устройства хранения данных и ускорители (например, GPU или FPGA) — физически разделены и объединены в общем пуле ресурсов.

BlueField, встроенный в современные серверы, берёт на себя задачи виртуализации, безопасности и сетевого стека, освобождая основной CPU для прикладных вычислений. Это не только повышает эффективность, но и упрощает масштабирование — ресурсы управляются централизованно, как в облачной среде.

Заключение: Объединённые ресурсы— путь к новой производительности

Сегодня граница между CPU и GPU всё больше стирается — не метафорически, а на уровне физических соединений и программной архитектуры. InfiniBand, NVLink, современные серверы и управляющее ПО превращают распределённые ресурсы в единый вычислительный континуум.

Это не просто эволюция производительности — это смена парадигмы. Вместо того чтобы масштабировать «вширь» с потерями на коммуникациях, компании получают возможность масштабировать «вглубь» — с предсказуемой эффективностью и минимальными накладными расходами.

Такие архитектуры уже перестали быть прерогативой суперкомпьютеров. Они приходят в корпоративные ЦОДы, становясь основой для самых разных задач — от инжиниринга до здравоохранения. И ключ к их успеху — не в количестве терафлопсов, а в том, насколько бесшовно всё это работает вместе.