Contenus
afficher
Description
La bibliothèque de communication collective NVIDIA (NCCL) implémente des primitives de communication multi-GPU et multi-nœud optimisées pour les processeurs graphiques NVIDIA et les réseaux. NCCL fournit des routines telles que all-gather, all-reduce, broadcast, reduce, reduce-scatter, ainsi que l’envoi et la réception point-à-point, qui sont optimisées pour obtenir une bande passante élevée et une latence faible via les interconnexions PCIe et NVLink à grande vitesse à l’intérieur d’un nœud et via le réseau NVIDIA Mellanox entre les nœuds.
Mise en place de l’environnement
ml nvidia/nccl
Version disponible : 2.18.1
Tutoriel
Lancer les tests NCCL sur un serveur GPU
- Faire tourner les tests sur un serveur GPU
- Editer le fichier nccl_test.sh
#!/bin/sh
#SBATCH --job-name=nccl_test
#SBATCH --partition=bigpu
#SBATCH --gres=gpu:2
#SBATCH --time=0:10:00
#SBATCH --output=job-%j.out
#SBATCH --nodes=1
ml nvidia/nccl
git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make
./build/all_reduce_perf -b 8 -e 256M -f 2 -g 2
#./build/all_reduce_perf -b 8 -e 256M -f 2 -g <ngpus>
- Lancer le job
sbatch test_nccl.sh