
Les gens demandent « Combien coûte une machine virtuelle GPU ? » et j'espère qu'il y aura un numéro unique. Dans la pratique, le coût dépend de deux leviers que vous contrôlez : la machine que vous choisissez et la durée pendant laquelle vous la laissez fonctionner.
Cet article explique en termes simples comment fonctionne la tarification sur Compute, ce qui est inclus et les quelques habitudes qui permettent de prévoir les dépenses. Si vous n'êtes pas encore en train de décider si vous avez besoin d'une machine virtuelle, commencez ici.
Compute utilise des crédits prépayés. Vous ajoutez d'abord des crédits, puis votre solde diminue pendant qu'une instance est en cours d'exécution. La console affiche un taux horaire car il est facile à lire, mais la facturation est basée sur le temps d'exécution réel, à la seconde près. En savoir plus sur Facturation via Compute.
Cela signifie également qu' « un test supplémentaire » peut être peu coûteux s'il s'exécute pendant deux minutes, et coûteux si vous oubliez l'instance du jour au lendemain. Le système n'essaie pas de vous duper. C'est littéral.
Lorsque les gens parlent de tarification du cloud, ils parlent souvent de « chiffre horaire » et oublient le reste de la facture. Sur Compute, l'intention est que le prix que vous voyez couvre les éléments de base dont vous avez besoin pour courir: le calcul, le stockage, le trafic réseau, ainsi que les ressources clés telles que la mémoire et les processeurs.
De nombreuses plateformes proposent des débits GPU bas, mais facturent séparément le processeur, la RAM, la mémoire, les processeurs et le stockage, ce qui peut augmenter les coûts globaux.
Si vous voulez la formulation canonique exacte, traitez le page de documentation et de tarification comme source de vérité, car c'est ce qui est mis à jour en premier lorsque quelque chose change. Les frais cachés tels que les coûts de transfert de données, les frais de stockage et les frais de configuration peuvent rapidement s'accumuler et doivent être pris en compte lors de l'évaluation des coûts totaux.
Les prix des machines virtuelles GPU suivent généralement le modèle de GPU et le nombre de GPU que vous connectez. Les prix peuvent varier considérablement en fonction du modèle de processeur graphique, tel que les options NVIDIA A100 40 Go, A100 80 Go, H100, B200 et AMD, et du fournisseur de cloud. Plus de GPU coûtent plus cher. Plus de VRAM, de mémoire GPU et de mémoire système ont également tendance à se traduire par des prix plus élevés, car ils sont fournis avec des machines de plus grande taille. Le modèle de processeur graphique et son provisionnement sont les principaux facteurs du taux horaire de base ; par exemple, les GPU de la génération actuelle tels que le NVIDIA H100 peuvent coûter entre 2,10 et 15 dollars de l'heure, tandis que les anciens modèles tels que le V100 coûtent entre 0,14 et 6,25 dollars de l'heure. Le GPU NVIDIA A100 est couramment utilisé pour les charges de travail d'IA et est disponible à différents prix auprès de différents fournisseurs de cloud. Le prix du GPU NVIDIA H100 est d'environ 10 dollars de l'heure et le GPU NVIDIA B200 est disponible pour environ 14 dollars de l'heure dans certaines configurations.
Si vous dimensionnez pour l'AI/ML, le limiteur pratique est souvent la VRAM, la mémoire GPU ou la mémoire. Les charges de travail d'IA nécessitent généralement des GPU dotés d'une VRAM et d'une puissance de calcul plus élevées, tels que les NVIDIA H100 ou A100. Les GPU haut de gamme tels que NVIDIA H100, A100 et B200 sont optimisés et conçus spécialement pour les charges de travail d'IA exigeantes, tandis que les GPU à usage général conviennent à un plus large éventail de tâches. Les types d'instances GPU varient considérablement en termes de mémoire, de mémoire GPU et de puissance de traitement (processeurs), ce qui affecte leur adéquation aux différentes charges de travail. La mise en réseau à bande passante élevée entre les GPU est cruciale pour la formation à grande échelle et peut entraîner des coûts supplémentaires. Le coût des machines virtuelles GPU est également influencé par l'accès dédié au GPU par rapport à l'accès partagé au GPU, les frais de transfert de données, le stockage et la mise en réseau.
Les clusters GPU sont souvent utilisés pour les charges de travail d'apprentissage automatique à grande échelle, et le choix de la bonne configuration est important à la fois pour les coûts et les performances. L'éventail des opérations mathématiques gérées par les cœurs CUDA (processeurs) et la charge de travail globale doivent être pris en compte lors de la sélection d'une instance de GPU, d'autant plus que les GPU jouent un rôle central dans informatique moderne pour l'IA et les charges de travail scientifiques. Cet aperçu vous aide à faire votre choix sans vous perdre dans les spécifications : Machine virtuelle GPU : qu'est-ce que c'est et qui en a réellement besoin.
Le temps d'exécution est la partie que les gens sous-estiment. Si vous souhaitez contrôler les coûts, c'est le levier le plus important.
Si vous courez pendant 12 minutes et 20 secondes, cela fait 740 secondes. Vous payez pour 740 secondes d'exécution, soit 740/3600 du taux horaire indiqué. C'est ça. Pas de maths mystérieuses.
La tarification des GPU cloud devient délicate lorsque vous regardez au-delà des taux horaires. Les coûts de transfert de données surprennent souvent les équipes d'IA qui travaillent avec de grands ensembles de données ou des mises à jour fréquentes des modèles. Ces frais peuvent doubler votre facture cloud si vous ne faites pas attention.
Les prix de transfert de données varient énormément d'un fournisseur à l'autre. Certains frais par Go transféré vers ou hors de leur réseau. D'autres incluent le transfert gratuit ou la circulation illimitée au sein de leur infrastructure. Un débit GPU bon marché peut vous coûter des milliers de dollars supplémentaires si vous déplacez des téraoctets de données ou de résultats d'entraînement. Vous avez besoin du tableau complet des coûts, y compris questions clés à se poser avant de choisir un fournisseur de calcul distribué, avant de choisir un fournisseur.
Voici cinq moyens de contrôler les coûts de transfert de données liés à vos activités d'IA :
Les coûts de transfert de données sont importants pour toute équipe qui gère une formation ou une inférence à grande échelle en matière d'IA. Planifiez à l'avance et choisissez la bonne approche pour éviter les surprises en matière de facturation. Évaluez les fournisseurs sur l'ensemble du package : prix, performances, stockage, sécurité des fournisseurs informatiques certifiés par rapport aux fournisseurs de services informatiques communautaires, et les coûts cachés qui influent sur votre budget.
Utilisez le taux horaire affiché dans la console et convertissez-le en fonction de votre temps d'exécution.
Une heure, c'est 3 600 secondes.
Coût ≈ taux horaire × (secondes de course/3 600)
Le coût total est calculé en multipliant le taux horaire par le nombre de GPU de votre instance et la fraction d'heure utilisée.
Si vous préférez les mathématiques mentales, convertissez votre temps d'exécution en une fraction d'heure. Dix minutes, c'est un sixième d'heure. Trente minutes, c'est la moitié. Plus vous devez être précis, plus vous finirez par utiliser la page de facturation de toute façon.
Arrêtez tout ce que vous n'utilisez pas. Cela semble évident, mais c'est le plus gros gain en termes de coûts. Si une instance est arrêtée, la facturation des calculs s'arrête. Lorsque vous avez terminé la journée, terminez-la. Les périodes d'inactivité liées à l'utilisation du GPU entraînent des frais pour l'exécution de machines virtuelles qui ne traitent pas activement les charges de travail.
Envisagez les plateformes GPU sans serveur. Les plateformes GPU sans serveur telles que Runpod ou Cerebrium proposent des modèles de paiement à l'exécution qui éliminent les coûts liés aux temps d'inactivité, ce qui peut être une bonne option pour les développeurs et les clients qui souhaitent éviter de payer pour des ressources inutilisées ou qui préfèrent plateformes cloud GPU rentables pour l'IA et le ML..
Commencez par petites choses pendant le débogage. Une erreur courante consiste à payer pour une configuration GPU importante alors que vous êtes encore en train de résoudre des problèmes d'environnement de base. Effectuez votre configuration et vos premiers tests sur une taille plus petite. Passez à la vitesse supérieure lorsque vous savez que le flux de travail est réel. Développeurs et clients, en particulier les PME qui explorent Les tendances de l'IA qu'ils peuvent exploiter grâce à l'informatique GPU dans le cloud, peut bénéficier d'un démarrage avec des instances plus petites et d'une mise à l'échelle selon les besoins.
Ne payez pas le prix du GPU pour le fonctionnement du processeur. De nombreux pipelines consacrent du temps aux téléchargements, au prétraitement, à l'empaquetage ou à la fourniture d'une API légère. Si le GPU est inactif, vous payez pour une voiture de sport garée. Divisez les étapes gourmandes en ressources processeur en instances vCPU si cela convient à votre flux de travail. Les instances bare metal peuvent être plus rentables pour certaines charges de travail hautes performances, mais les machines virtuelles offrent plus de flexibilité à la plupart des développeurs qui souhaitent un accès évolutif à Les GPU dans l'informatique moderne via des plateformes cloud distribuées..
Traitez « l'arrêt » comme une pause et non comme un stockage. L'arrêt est idéal pour les courtes pauses et les redémarrages rapides, mais ne partez pas du principe qu'une instance arrêtée est une archive à long terme. Si vous avez besoin de conserver un environnement, sauvegardez ce qui compte et planifiez des reconstructions. Cette fiche explicative a pour but d'éviter les mauvaises surprises : Est-ce qu'une machine virtuelle conserve mes modifications ? Explication de la persistance sur le calcul.
Surveillez votre équilibre si vous occupez des emplois de longue durée. Comme les crédits sont prépayés, une longue période peut prendre fin plus tôt si votre solde ne permet pas de couvrir une durée plus longue. La meilleure solution est simple : rechargez la batterie avant de commencer ou activez la recharge automatique pour ne pas avoir à la garder.
L'interface utilisateur affiche les taux horaires, mais la facturation est à la seconde.
Des frais de calcul s'appliquent pendant l'exécution de l'instance. Si vous l'arrêtez ou y mettez fin, les frais de calcul cessent.
Vous avez généralement besoin d'un crédit suffisant pour démarrer la configuration que vous choisissez. Si vous êtes faible, rechargez ou choisissez une configuration plus petite.
Dimensionnez correctement le matériel et arrêtez l'instance dès que vous ne l'utilisez pas. Tout le reste est de second ordre.
Si vous souhaitez adopter l'approche la plus simple « voir ce que cela coûte », lancez une petite instance, effectuez un court test, puis consultez la page de facturation. Vous en apprendrez plus d'une seule course que de n'importe quelle théorie des prix.