Les allégations de performance doivent être chiffrées.

Découvrez les résultats des benchmarks Hivenet pour la virtualisation GPU, l'inférence IA, les performances des modèles, les charges de travail OCR et la latence des API. Chaque benchmark indique ce qui a été testé, où il a été exécuté, le matériel utilisé et les cas où le résultat ne s'applique pas.

VM GPU vs. bare metal

NCCL AllReduce

RTX 5090

RTX 4090

Inférence de modèles fondamentaux

Débit OCR

Latence API

Rapports axés sur la méthodologie

VM GPU vs bare metal : égalité dans les limites de la variance d'une exécution à l'autre.

Les clients se demandent si l'exécution de tâches GPU intensives dans une VM ralentit la charge de travail. Hivenet a testé NCCL AllReduce sur un seul hôte avec 8 GPU NVIDIA GeForce RTX 5090. La VM Hivenet Compute a égalé la base de référence bare metal dans les limites de la variance normale d'une exécution à l'autre.

Bare metal

19,25 Go/s

Bande passante NCCL AllReduce sur la base de référence bare metal 8× RTX 5090.

Calcul avec VM Hivenet

19,34 Go/s

Bande passante NCCL AllReduce sur le même benchmark au sein d'une VM.

Résultat

+0,5 %

Le résultat de la VM était légèrement supérieur, mais l'écart se situe dans la variance normale. La conclusion utile est que la VM a égalé la bande passante du bare metal sur ce test.

Domaines de benchmark que nous suivons.

Hivenet regroupe les benchmarks par type de charge de travail afin que les équipes puissent comparer les résultats pertinents pour leur propre cas d'utilisation.

Virtualisation GPU

VM vs bare metal

NCCL AllReduce sur un seul hôte 8× RTX 5090, mesurant si la VM introduit une pénalité de communication multi-GPU sur un seul hôte mesurable.

Charges de travail GPU pour développeurs

RTX 4090 vs A100

Contenu comparatif pour les charges de travail de modèles 7B–8B, le RAG, le développement et l'inférence soucieuse des coûts.

Inférence de modèles fondamentaux

Débit et latence sous charge

Benchmarks de service utilisant des formes d'invite réalistes, des balayages de concurrence, le TTFT, le TPOT, la latence inter-jetons, la latence de bout en bout et le débit.

Performances des modèles en production

Rapports de performance spécifiques aux modèles

Rapports orientés production pour les charges de travail spécifiques aux modèles, incluant les seuils SLO, les courbes de débit, la latence de queue et les paramètres de concurrence recommandés.

Charges de travail OCR

Qualité et débit de Falcon-OCR

Tests de pipeline OCR couvrant la détection de mise en page, le recadrage de région et la qualité/le débit OCR pour les charges de travail documentaires.

Performances API

Benchmarks de latence API

Mesures automatisées de la latence des points de terminaison dans tous les environnements, suivant la latence moyenne, P90, P95 et P99 par rapport aux bases de référence et aux versions précédentes.

Ce que chaque banc d'essai montre.

Les bancs d'essai sont utiles lorsque la configuration est suffisamment claire pour être reproduite, remise en question ou comparée. Les pages de banc d'essai Hivenet rendent les conditions de test visibles.

Domaine du banc d'essai

Ce qu'il couvre

Charge de travail

Ce que le banc d'essai a testé

Matériel

GPU, CPU, mémoire, stockage, réseau, nombre d'hôtes

Environnement

VM, bare metal, conteneur, région, pilote, CUDA, framework

Modèle ou données

Nom du modèle, précision, jeu de données, forme de l'invite, taille du fichier ou entrée de la charge de travail

Profil de charge

Concurrence, requêtes par seconde, taille du lot, taille du message, durée

Métriques

Débit, latence, TTFT, TPOT, bande passante, taux d'erreur, base de coût

Base de comparaison

Ce à quoi Hivenet est comparé et pourquoi

Résultat

Résultat principal et comment l'interpréter

Limites

Ce que le benchmark ne prouve pas

Date

Quand le test a été exécuté et si les résultats ont changé depuis

Balayez vers la gauche pour en voir plus

Ce que le résultat de la virtualisation GPU prouve, et ce qu'il ne prouve pas.

Le benchmark VM vs bare metal est utile car NCCL AllReduce révèle des problèmes que des tests mono-GPU moins exigeants peuvent manquer. Si le passthrough GPU est incomplet, si la topologie est mal exposée ou si le chemin de communication est inefficace, la communication multi-GPU le révèle souvent rapidement.

Ce résultat soutient

Ce résultat ne prouve pas

La VM testée n'a pas montré de pénalité mesurable de bande passante NCCL AllReduce.

Chaque charge de travail fonctionnera de manière identique au bare metal.

Le passthrough PCIe optimisé peut exposer proprement le chemin GPU d'un seul hôte.

L'entraînement distribué sur plusieurs hôtes se comportera de la même manière.

Le calcul avec Hivenet peut être fiable pour les tâches multi-GPU sur un seul hôte.

Le stockage, le réseau, le CPU, le chargement des données ou les choix de framework ne seront jamais un goulot d'étranglement.

Balayez vers la gauche pour en voir plus

Les charges de travail distribuées sur plusieurs hôtes nécessitent leur propre test. Dès qu'une tâche s'étend sur plusieurs hôtes, le réseau devient un facteur majeur.

Lire le benchmark complet

Comment Hivenet mesure les charges de travail d'inférence.

Les performances d'inférence dépendent du modèle, de la précision, de la taille de l'invite, de la longueur de la sortie, de la concurrence, du moteur de service et de l'objectif de latence. Les benchmarks d'inférence Hivenet distinguent le seuil de latence, le plafond de débit et les recommandations de concurrence en production.

TTFT

Temps jusqu'au premier jeton. Important pour la réactivité perçue et les charges de travail interactives.

TPOT

Temps par jeton de sortie. Utile pour la vitesse de génération après le premier jeton.

Latence de bout en bout

Temps total de la requête, de la soumission à la sortie complète.

Jetons par seconde

Mesure de débit pour comparer les configurations de service sous une charge définie.

Taux d'erreur

Indique si une configuration reste stable à mesure que la concurrence augmente.

La performance n'est pertinente que si les aspects économiques sont respectés.

Une configuration plus rapide est utile lorsqu'elle correspond également à la charge de travail, au budget et au modèle d'exploitation. Les pages de benchmark de Hivenet relient les résultats techniques à la base tarifaire lorsque cela est possible, afin que les équipes puissent comparer les performances et les coûts ensemble.

Base tarifaire

Les benchmarks doivent indiquer l'instance, le niveau de point de terminaison ou le prix de stockage utilisé pour la comparaison.

Adéquation à la charge de travail

Un résultat solide pour un modèle, une taille de lot ou une forme d'invite ne s'applique pas automatiquement à une autre charge de travail.

Comportement d'exécution

Les tests courts, les tâches longues, l'inférence stable, le trafic en rafale et les flux de travail par lots peuvent produire des résultats coût-performance différents.

Chemin de la plateforme

Comparez la location de GPU/CPU, l'API d'inférence, le stockage S3 et l'IA privée en fonction de la part de la pile que votre équipe souhaite opérer.

Une infrastructure de niveau entreprise nécessite des preuves mesurables.

Hivenet exécute des charges de travail d'IA, de calcul et de stockage sur une infrastructure basée sur Policloud, conçue pour des performances fiables, une visibilité des coûts et un déploiement régional. Les benchmarks montrent comment cette infrastructure se comporte sous des charges de travail spécifiques.

Capacité basée sur Policloud

L'infrastructure modulaire offre à Hivenet un moyen pratique de placer la capacité plus près de l'énergie, de la région et de la demande de charge de travail.

Chemins de traitement fiables

Hivenet connecte l'infrastructure, les logiciels, les API, la facturation, les modèles d'accès et les flux de travail des produits en une plateforme que les équipes peuvent tester et opérer.

Outils standards

Les benchmarks utilisent des chaînes d'outils et des métriques pratiques afin que les équipes puissent comparer les résultats avec des flux de travail qu'elles comprennent.

Limites claires

Chaque benchmark doit expliquer où le résultat s'applique et où une charge de travail nécessite son propre test.

Découvrez comment Hivenet fonctionne

Votre charge de travail nécessite toujours son propre test.

Un benchmark peut montrer si Hivenet convient parfaitement à un certain type de charge de travail. Il ne peut pas remplacer le test de votre propre modèle, pipeline de données, objectif de latence et contraintes de production.

Entraînement et affinage

Testez le temps d'étape, l'utilisation du GPU, le temps de communication, le comportement de chargement des données, la précision, la taille du lot, la longueur de la séquence et les paramètres de l'optimiseur.

Inférence

Testez la latence, le débit, le comportement de concurrence, les démarrages à froid, la forme de l'invite, la longueur de la sortie et la qualité du modèle sur le trafic réel.

Charges de travail gourmandes en stockage

Testez la taille des fichiers, le modèle d'accès, la sortie de données, le nombre d'objets, le comportement de listage, le débit et l'intégration avec les outils utilisés par votre équipe.

API

Testez la latence moyenne, la latence de queue, les taux d'erreur, le comportement de limitation de débit, les identifiants de requête et les changements de performance entre les versions.

Besoin d'aide pour choisir la bonne voie ?

Support produit

Pour l'accès au compte, les problèmes de facturation, le comportement du produit, les problèmes de transfert, les questions de stockage ou les problèmes de configuration Compute.

Ventes et examen des charges de travail

Pour les déploiements plus importants, les charges de travail IA, les projets d'IA privés, la migration de stockage S3 ou la planification de capacité future.

Contact sécurité

Pour les questions de sécurité, l'examen des achats, la divulgation responsable ou les demandes liées à la confiance.

Statut et incidents

Vérifiez l'état du service ou les informations sur les incidents en cours, le cas échéant.

Stockage compatible S3

Stockez des ensembles de données, des sauvegardes, des médias, des archives et des fichiers de pipeline d'IA avec une sortie de données gratuite et des outils familiers.

FAQ

Questions courantes sur les ressources

Commencez par la bonne ressource.

Lisez la documentation, explorez les ressources pour développeurs, ouvrez le Centre d'aide ou contactez Hivenet pour obtenir de l'aide ou des conseils commerciaux.

Shader gradient background

PoliCloud + Hivenet

30 % de réduction sur les forfaits Hivenet !

PoliCloud, propulsé par la technologie de Hivenet, redéfinit le stockage cloud souverain. Pour célébrer notre partenariat, nous offrons 30 % de réduction sur tous les forfaits Hivenet—pour une durée limitée !

*L'offre se termine le 31 mars 2025. Ne la manquez pas !

Lisez nos Conditions Générales