NCCL

Contenus afficher

Description

La bibliothèque de communication collective NVIDIA (NCCL) implémente des primitives de communication multi-GPU et multi-nœud optimisées pour les processeurs graphiques NVIDIA et les réseaux. NCCL fournit des routines telles que all-gather, all-reduce, broadcast, reduce, reduce-scatter, ainsi que l’envoi et la réception point-à-point, qui sont optimisées pour obtenir une bande passante élevée et une latence faible via les interconnexions PCIe et NVLink à grande vitesse à l’intérieur d’un nœud et via le réseau NVIDIA Mellanox entre les nœuds.

Mise en place de l’environnement

ml nvidia/nccl

Version disponible : 2.18.1

Tutoriel

Lancer les tests NCCL sur un serveur GPU

Faire tourner les tests sur un serveur GPU
Editer le fichier nccl_test.sh

#!/bin/sh
#SBATCH --job-name=nccl_test
#SBATCH --partition=bigpu
#SBATCH --gres=gpu:2
#SBATCH --time=0:10:00
#SBATCH --output=job-%j.out
#SBATCH --nodes=1

ml nvidia/nccl
git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make
./build/all_reduce_perf -b 8 -e 256M -f 2 -g 2
#./build/all_reduce_perf -b 8 -e 256M -f 2 -g <ngpus>

Lancer le job

sbatch test_nccl.sh

Plateforme MatriCS

Plateforme mutualisée pour les laboratoires de recherche de l'Université de Picardie Jules Verne

Description

Mise en place de l’environnement

Tutoriel

Lancer les tests NCCL sur un serveur GPU

Documentation