Découvrez les résultats des benchmarks Hivenet pour la virtualisation GPU, l'inférence IA, les performances des modèles, les charges de travail OCR et la latence des API. Chaque benchmark indique ce qui a été testé, où il a été exécuté, le matériel utilisé et les cas où le résultat ne s'applique pas.
VM GPU vs. bare metal
NCCL AllReduce
RTX 5090
RTX 4090
Inférence de modèles fondamentaux
Débit OCR
Latence API
Rapports axés sur la méthodologie
Les clients se demandent si l'exécution de tâches GPU intensives dans une VM ralentit la charge de travail. Hivenet a testé NCCL AllReduce sur un seul hôte avec 8 GPU NVIDIA GeForce RTX 5090. La VM Hivenet Compute a égalé la base de référence bare metal dans les limites de la variance normale d'une exécution à l'autre.
Bande passante NCCL AllReduce sur la base de référence bare metal 8× RTX 5090.
Bande passante NCCL AllReduce sur le même benchmark au sein d'une VM.
Le résultat de la VM était légèrement supérieur, mais l'écart se situe dans la variance normale. La conclusion utile est que la VM a égalé la bande passante du bare metal sur ce test.
Hivenet regroupe les benchmarks par type de charge de travail afin que les équipes puissent comparer les résultats pertinents pour leur propre cas d'utilisation.
NCCL AllReduce sur un seul hôte 8× RTX 5090, mesurant si la VM introduit une pénalité de communication multi-GPU sur un seul hôte mesurable.
Contenu comparatif pour les charges de travail de modèles 7B–8B, le RAG, le développement et l'inférence soucieuse des coûts.
Benchmarks de service utilisant des formes d'invite réalistes, des balayages de concurrence, le TTFT, le TPOT, la latence inter-jetons, la latence de bout en bout et le débit.
Rapports orientés production pour les charges de travail spécifiques aux modèles, incluant les seuils SLO, les courbes de débit, la latence de queue et les paramètres de concurrence recommandés.
Tests de pipeline OCR couvrant la détection de mise en page, le recadrage de région et la qualité/le débit OCR pour les charges de travail documentaires.
Mesures automatisées de la latence des points de terminaison dans tous les environnements, suivant la latence moyenne, P90, P95 et P99 par rapport aux bases de référence et aux versions précédentes.
Les bancs d'essai sont utiles lorsque la configuration est suffisamment claire pour être reproduite, remise en question ou comparée. Les pages de banc d'essai Hivenet rendent les conditions de test visibles.
Domaine du banc d'essai
Ce qu'il couvre
Charge de travail
Ce que le banc d'essai a testé
Matériel
GPU, CPU, mémoire, stockage, réseau, nombre d'hôtes
Environnement
VM, bare metal, conteneur, région, pilote, CUDA, framework
Modèle ou données
Nom du modèle, précision, jeu de données, forme de l'invite, taille du fichier ou entrée de la charge de travail
Profil de charge
Concurrence, requêtes par seconde, taille du lot, taille du message, durée
Métriques
Débit, latence, TTFT, TPOT, bande passante, taux d'erreur, base de coût
Base de comparaison
Ce à quoi Hivenet est comparé et pourquoi
Résultat
Résultat principal et comment l'interpréter
Limites
Ce que le benchmark ne prouve pas
Date
Quand le test a été exécuté et si les résultats ont changé depuis
Le benchmark VM vs bare metal est utile car NCCL AllReduce révèle des problèmes que des tests mono-GPU moins exigeants peuvent manquer. Si le passthrough GPU est incomplet, si la topologie est mal exposée ou si le chemin de communication est inefficace, la communication multi-GPU le révèle souvent rapidement.
Ce résultat soutient
Ce résultat ne prouve pas
La VM testée n'a pas montré de pénalité mesurable de bande passante NCCL AllReduce.
Chaque charge de travail fonctionnera de manière identique au bare metal.
Le passthrough PCIe optimisé peut exposer proprement le chemin GPU d'un seul hôte.
L'entraînement distribué sur plusieurs hôtes se comportera de la même manière.
Le calcul avec Hivenet peut être fiable pour les tâches multi-GPU sur un seul hôte.
Le stockage, le réseau, le CPU, le chargement des données ou les choix de framework ne seront jamais un goulot d'étranglement.
Les charges de travail distribuées sur plusieurs hôtes nécessitent leur propre test. Dès qu'une tâche s'étend sur plusieurs hôtes, le réseau devient un facteur majeur.
Les performances d'inférence dépendent du modèle, de la précision, de la taille de l'invite, de la longueur de la sortie, de la concurrence, du moteur de service et de l'objectif de latence. Les benchmarks d'inférence Hivenet distinguent le seuil de latence, le plafond de débit et les recommandations de concurrence en production.
Temps jusqu'au premier jeton. Important pour la réactivité perçue et les charges de travail interactives.
Temps par jeton de sortie. Utile pour la vitesse de génération après le premier jeton.
Temps total de la requête, de la soumission à la sortie complète.
Mesure de débit pour comparer les configurations de service sous une charge définie.
Indique si une configuration reste stable à mesure que la concurrence augmente.
Une configuration plus rapide est utile lorsqu'elle correspond également à la charge de travail, au budget et au modèle d'exploitation. Les pages de benchmark de Hivenet relient les résultats techniques à la base tarifaire lorsque cela est possible, afin que les équipes puissent comparer les performances et les coûts ensemble.
Les benchmarks doivent indiquer l'instance, le niveau de point de terminaison ou le prix de stockage utilisé pour la comparaison.
Un résultat solide pour un modèle, une taille de lot ou une forme d'invite ne s'applique pas automatiquement à une autre charge de travail.
Les tests courts, les tâches longues, l'inférence stable, le trafic en rafale et les flux de travail par lots peuvent produire des résultats coût-performance différents.
Comparez la location de GPU/CPU, l'API d'inférence, le stockage S3 et l'IA privée en fonction de la part de la pile que votre équipe souhaite opérer.
Hivenet exécute des charges de travail d'IA, de calcul et de stockage sur une infrastructure basée sur Policloud, conçue pour des performances fiables, une visibilité des coûts et un déploiement régional. Les benchmarks montrent comment cette infrastructure se comporte sous des charges de travail spécifiques.
L'infrastructure modulaire offre à Hivenet un moyen pratique de placer la capacité plus près de l'énergie, de la région et de la demande de charge de travail.
Hivenet connecte l'infrastructure, les logiciels, les API, la facturation, les modèles d'accès et les flux de travail des produits en une plateforme que les équipes peuvent tester et opérer.
Les benchmarks utilisent des chaînes d'outils et des métriques pratiques afin que les équipes puissent comparer les résultats avec des flux de travail qu'elles comprennent.
Chaque benchmark doit expliquer où le résultat s'applique et où une charge de travail nécessite son propre test.
Un benchmark peut montrer si Hivenet convient parfaitement à un certain type de charge de travail. Il ne peut pas remplacer le test de votre propre modèle, pipeline de données, objectif de latence et contraintes de production.
Testez le temps d'étape, l'utilisation du GPU, le temps de communication, le comportement de chargement des données, la précision, la taille du lot, la longueur de la séquence et les paramètres de l'optimiseur.
Testez la latence, le débit, le comportement de concurrence, les démarrages à froid, la forme de l'invite, la longueur de la sortie et la qualité du modèle sur le trafic réel.
Testez la taille des fichiers, le modèle d'accès, la sortie de données, le nombre d'objets, le comportement de listage, le débit et l'intégration avec les outils utilisés par votre équipe.
Testez la latence moyenne, la latence de queue, les taux d'erreur, le comportement de limitation de débit, les identifiants de requête et les changements de performance entre les versions.

Pour l'accès au compte, les problèmes de facturation, le comportement du produit, les problèmes de transfert, les questions de stockage ou les problèmes de configuration Compute.

Pour les déploiements plus importants, les charges de travail IA, les projets d'IA privés, la migration de stockage S3 ou la planification de capacité future.

Pour les questions de sécurité, l'examen des achats, la divulgation responsable ou les demandes liées à la confiance.

Vérifiez l'état du service ou les informations sur les incidents en cours, le cas échéant.

Stockez des ensembles de données, des sauvegardes, des médias, des archives et des fichiers de pipeline d'IA avec une sortie de données gratuite et des outils familiers.
FAQ
Lisez la documentation, explorez les ressources pour développeurs, ouvrez le Centre d'aide ou contactez Hivenet pour obtenir de l'aide ou des conseils commerciaux.