Date de début:
09:30
Date de fin:
10:00
Lieu:
-
Ville:
Le Croisic
Producteur:
-

Durée:
28:58
Type:
video/mp4
Poids:
539.15 Mo
Format:
mp4
Résolution:
1280x720
Codec:
-

Gestion des ressources en mémoire des GPU pour l’entraînement de Graph Neural Network (GNN) sur de larges graphes.

L’entraînement de modèles GNN sur de larges graphes est très couteux en mémoire. Cela représente un défi majeur pour les expériences dont les données éparses sont représentées par des graphes de très grande taille. Nous expliquerons les raisons de ce coût en mémoire spécifique aux architectures GNN et pourquoi les problèmes de dépassement de mémoire ne peuvent pas être résolus avec des approches multi-GPU de type distribution de données (Distributed Data Parralel), ou de type distribution du modèle (Distributed Model Parallel).
Nous présenterons les techniques de offloading et de checkpointing comme solutions potentielles au dépassement mémoire mais avec un coût en temps de calcul supplémentaire.
Avoir une utilisation plus efficace de la ressource GPU en cherchant le meilleur compromis entre la consommation en mémoire et temps de calcul permet de réduire le temps d’entraînement des modèles GNN, accélérer la recherche et tendre vers plus de sobriété énergétique.
Nous présenterons une étude comparative des performances en termes de temps de calculs et de consommation mémoire entre ces deux techniques appliquées à un cas concret : L’entraînement de modèles GNN pour la reconstruction de traces de particules chargées à partir de simulation réalisée dans ATLAS-ITk dans les conditions HL-LHC.

Sylvain Caillou (L2I Toulouse, CNRS)

Dernières vidéos