
Les GPU ont été conçus pour les jeux. Ils alimentent désormais l'IA, le rendu et le cloud computing, mais leur nom ne convient plus
Le terme carte graphique se sent dépassé. Les GPU ne sont pas vraiment axés sur les graphismes depuis des années. Les mêmes puces qui rendaient autrefois les ombres et les reflets entraînent désormais de grands modèles de langage et exécutent des tâches d'inférence d'IA. Le nom est resté, mais pas le but.
L'ironie, c'est que certains des GPU les plus puissants d'aujourd'hui ne peuvent même pas afficher de graphiques. Le H200 NVL de Nvidia, par exemple, n'a pas de sortie d'affichage : il est conçu uniquement pour le calcul. Des tests comme ceux de Laboratoires LTT rendent cela évident : lorsqu'ils ont comparé la H200 à la RTX 5090, la carte de jeu excellait en termes de vitesse brute mais manquait de mémoire sur les modèles plus grands. Le H200 a continué à fonctionner grâce à son énorme bande passante mémoire. Ce n'est pas une carte « graphique ». C'est un accélérateur.
Le travail des GPU modernes se divise en deux catégories. Les tâches liées au calcul dépendent du débit central et de la vitesse d'horloge. Les tâches liées à la mémoire dépendent de la capacité de la VRAM et de la bande passante. L'inférence et la formation se situent souvent quelque part entre les deux. C'est pourquoi un 5090 peut gérer un traitement rapide rapidement, mais un modèle qui dépasse ses 32 Go de VRAM tombera en panne ou ralentira jusqu'à un point d'exploration. Le H200, doté de 141 Go de mémoire HBM3e, continue de fonctionner avec la même charge.
Ce changement redéfinit la performance. La vitesse compte toujours, mais la capacité aussi. L'industrie des GPU se divise désormais entre les cartes conçues pour l'affichage et celles conçues pour les données. C'est une crise d'identité discrète qui se joue dans le matériel informatique.
Pour les développeurs qui explorent les performances d'inférence, L'inférence LLM en production : un guide pratique fournit des informations pratiques sur le débit, la latence et le traitement par lots.