Un guide convivial sur les serveurs LLM multiGPU

La plupart des applications peuvent rester sur un seul GPU plus longtemps que vous ne le pensez. Passez à plusieurs GPU lorsque les objectifs de mémoire ou de débit l'exigent, ou lorsque la taille de votre modèle dépasse la mémoire GPU disponible. Le parallélisme augmente les coûts de communication et crée de nouveaux modes de défaillance : planifiez-le, testez-le et limitez vos limites.

Essayez Compute dès aujourd'hui : Lancez un VllM serveur d'inférence activé Calculer avec 2×, 4× ou 8× Préréglages du GPU. Choisissez la France ou les Émirats arabes unis, diffusez par défaut et veillez à ce que les max_tokens et les majuscules de contexte soient sensibles lorsque vous testez des formes par lots.

Quand le multiprocesseur graphique est réellement rentable

Le modèle ne convient pas. Même avec int8, la taille du modèle (poids + k‑cache) peut dépasser la VRAM d'une seule carte.
Le contexte est long. Une simultanéité élevée + de longues invites/sorties (longueur de séquence accrue) poussent le cache au-delà de la marge de sécurité.
Plafond de débit. Vous avez besoin de plus de jetons/seconde pour un même objectif de latence que ce qu'une carte peut fournir.

Le réglage de la taille globale des lots est important pour optimiser le débit et l'utilisation du GPU dans les configurations multi-GPU.

Si votre problème est principalement lié à la file d'attente ou à des majuscules surdimensionnées, corrigez-les d'abord. Le multiprocesseur graphique n'enregistre pas un mauvais planificateur.

Ensemble d'instructions mixte (court + long) pour mettre en lumière les problèmes d'équité.

Annulez les tempêtes pour tester la réutilisation et le nettoyage du cache KV.

Perte de nœuds: supprimez un processus/GPU ; testez avec différents GPU pour vérifier leur comportement en vol et leur robustesse en cas de basculement.

Échange à chaud modèle ou quantification ; comparer le TTFT/TPS et la qualité.

Une surveillance qui compte

TTFT p50/p95, TPS p50/p95
Taille du lot actif, longueur de la file d'attente
Espace mémoire GPU par GPU, cache hit/miss
Utilisation des liaisons inter-GPU (si disponible)
Taux d'erreur par type (OOM, délais d'attente, 5xx)
Distribution des paramètres du modèle et des partitions entre les GPU pour l'équilibrage de charge

Essayez Compute dès aujourd'hui: Répartissez-vous sur Calculer avec Plusieurs processeurs graphiques préréglages et compatibilité avec OpenAI VllM serveur. Gardez les terminaux à proximité des utilisateurs et mesurez-les avant de procéder à la mise à niveau du matériel.

Évoluez au-delà d'un seul GPU sans interrompre la latence

Utilisez le multiprocesseur graphique lorsque le modèle ou le cache ne conviennent pas, ou lorsque vous avez besoin de plus de jetons par seconde avec la même latence. Préférez d'abord les répliques parallèles aux données ; n'utilisez le tenseur/pipeline que lorsque vous le devez. Limitez les majuscules, diffusez, placez les nœuds à proximité des utilisateurs et laissez le TTFT/TPS vous guider dans votre prochaine étape.

FAQ

Ai-je besoin de NVLink pour le parallélisme des tenseurs ?

Cela m'aide beaucoup. Sans interconnexion rapide, la communication peut effacer les gains résultant de la division des couches.

Que dois-je essayer en premier : plus de GPU ou plus de nœuds ?

Essayez-en plus nœuds (données parallèles) premier. Il est plus simple, isole les défaillances et s'adapte parfaitement à de nombreuses charges de travail.

Pourquoi la latence s'est-elle aggravée après le passage au multiprocesseur graphique ?

Surcharge de communication probable ou forme de lot qui déclenche une pression sur le cache. Vérifiez la bande passante d'interconnexion, réduisez les limites et remesurez.

Le multiprocesseur graphique peut-il aider à gérer un contexte long ?

Oui, en répartissant la mémoire entre les cartes. Mais considérez également le RAG et la quantification avant d'ajouter de la complexité.

Comment savoir s'il est temps de passer à la version supérieure ?

Lorsque le TTFT p95 augmente et que le TPS s'aplatit à un trafic constant malgré des plafonds nets et une marge de mémoire suffisante sur un seul GPU.

Quel est le rôle de la couche d'intégration dans le parallélisme des pipelines ?

La couche d'intégration met en correspondance le vocabulaire d'entrée avec les états cachés. Dans le parallélisme du pipeline, la couche d'intégration est souvent placée au début du pipeline et peut être liée ou partagée entre les étapes du modèle pour garantir cohérence et efficacité.

Comment les blocs de transformateurs et les couches de transformateurs sont-ils répartis sur les GPU ?

Les blocs de transformateurs et les couches de transformateurs sont répartis sur les GPU selon un parallélisme de pipeline et de tenseur. Chaque GPU traite un sous-ensemble de ces couches, ce qui permet au modèle de s'adapter efficacement et de gérer des architectures plus importantes.

Comment les couches d'experts sont-elles réparties dans les modèles de mélange d'experts (MoE) ?

Les couches expertes des architectures MoE sont réparties sur plusieurs GPU. Cette distribution permet le calcul parallèle de différents experts, améliorant ainsi l'évolutivité et l'efficacité des calculs lors de la formation et de l'inférence.

Quels sont les défis liés à la formation de LLM avec une grande mémoire d'activation ?

La formation des LLM (grands modèles linguistiques) nécessite de gérer une mémoire d'activation importante. Des frameworks spécialisés tels que NeMo permettent de distribuer les données d'activation et d'optimiser l'utilisation de la mémoire, ce qui est essentiel pour un entraînement multi-GPU efficace.

Comment la séquence et la dimension de séquence affectent-elles les stratégies de parallélisme ?

Les stratégies de parallélisme telles que le parallélisme des séquences partitionnent et distribuent les données d'activation le long de la dimension de la séquence. Cela permet une gestion efficace de longues séquences d'entrée et une meilleure utilisation de la mémoire et des ressources de calcul du GPU.

Que signifie la propagation linéaire des données à travers les étapes du pipeline ?

La propagation linéaire signifie que les données se déplacent de manière séquentielle à travers chaque étage du pipeline, chaque étage déduisant des formes et traitant les sorties dans l'ordre, sans saut de connexions ni routage complexe.

Comment le parallélisme des pipelines est-il mis en œuvre dans les frameworks populaires ?

Le parallélisme des pipelines est implémenté dans des frameworks tels que Megatron-LM et DeepSpeed en s'intégrant au parallélisme des données (DP), au parallélisme tenseur (TP), à ZeRo et à divers calendriers de pipelines. Ces frameworks fournissent des configurations et des bases de code pratiques pour déployer efficacement le parallélisme des pipelines.

‍

Quand les étudiants en IA ne peuvent plus utiliser le bac à sable : comment DSTI a étendu son accès au GPU grâce à Hivenet

La DSTI School of Engineering s'est associée à Hivenet pour offrir aux étudiants de master un accès plus cohérent à des processeurs GPU européens abordables pour de véritables projets d'apprentissage en profondeur.