Distributed Training

Training large models across multiple GPUs or machines simultaneously.

Distributed training splits a model's computation, data, or optimizer state across multiple GPUs to handle models or datasets too large for a single device. The three primary forms are data parallelism (replicate model, split data across devices), tensor parallelism (split each layer across devices), and pipeline parallelism (split layers across devices).

Effective distributed training requires high-bandwidth interconnect: NVLink between GPUs in a single chassis (SXM form factor) and InfiniBand or RoCE between machines. Frontier-model training routinely uses hundreds or thousands of GPUs connected through hierarchical networking.

Distributed training drives demand for SXM-based GPUs and multi-GPU server configurations. AIMC tracks per-GPU pricing; users planning distributed training should factor in interconnect requirements separately from raw hourly rates.

Related Terms

Concepts directly relevant to Distributed Training.

NVLink

NVIDIA's high-bandwidth GPU-to-GPU interconnect for multi-GPU systems.

SXM

NVIDIA's high-density socket form factor for datacenter GPUs.

LLM Training

Compute-intensive process of training large language models from scratch or via continued pre-training.

Workloads Where Distributed Training Matters

GPU fit analysis for the workloads this concept directly influences.

Llm Training

Ranked GPUs →

This definition is part of AIMC's reference glossary — 36 concepts across 10 categories.

Browse full glossary