
Compute - API d'inférence
Déployez des points de terminaison dédiés sans avoir à gérer vous-même la pile de services. L'API d'inférence Hivenet offre aux équipes des points de terminaison compatibles OpenAI, une tarification par réplique et des options de déploiement régionales pour les workloads d'IA en production sur une infrastructure basée sur Policloud.
API compatible OpenAI
Points de terminaison dédiés
Un routeur par client
Une région par point de terminaison
Tarification par réplique
Facturé à la seconde
Zones de déploiement en France, aux Émirats arabes unis et aux États-Unis
Qwen · Llama · Mistral · Falcon · GPT OSS · Gemma
Compute with Hivenet vous offre une infrastructure enterprise-grade avec un contrôle total de l'instance, de l'environnement et de la pile. Chaque GPU a une tâche.
Utilisez des points de terminaison gérés pour les modèles open source et fondamentaux, épinglés à une région sélectionnée, Hivenet gérant le routeur, la passerelle, les répliques, l'observabilité et la couche de points de terminaison.
Utilisez un point de terminaison compatible OpenAI, mettez à jour votre URL de base et conservez les modèles de client courants pour les workflows OpenAI SDK, LangChain, LlamaIndex et curl.
Utilisez une tarification par réplique facturée à la seconde pour les workloads de production stables, où un coût d'infrastructure connu est plus facile à gérer qu'un compteur de jetons.
L'API d'inférence Hivenet est conçue pour les équipes qui recherchent les avantages coût et contrôle des modèles open source et fondamentaux, sans gérer elles-mêmes les GPU, les moteurs d'inférence, les répliques, la surveillance et la fiabilité des points de terminaison.
Testez les classes de modèles Qwen en fonction de vos invites, de votre objectif de latence, de la longueur du contexte et de vos besoins en matière de coût-performance. Les modèles Qwen plus petits peuvent s'intégrer dans des flux de travail GPU efficaces, tandis que les classes plus grandes nécessitent des tests avant la production.
Exécutez des workloads DeepSeek distillés lorsque la taille du modèle est adaptée au matériel RTX 4090 ou RTX 5090. Considérez les workloads de raisonnement plus importants comme des candidats à l'évaluation comparative avant leur utilisation en production.
Choisissez la juridiction où votre point de terminaison s'exécute, avec des options de déploiement en France, aux Émirats arabes unis et aux États-Unis.
Conservez les schémas clients familiers. Modifiez l'URL de base, utilisez l'authentification Bearer et continuez.
Quelle que soit la taille, il y a une voie adaptée. Commencez avec le vCPU pour le calcul à usage général, passez à la RTX 4090 pour les tests et la recherche, à la RTX 5090 pour le débit d'IA spécialisé, et à la série RTX 6000 pour le travail à l'échelle de l'entreprise. Petite expérience ou déploiement en production, la plateforme s'adapte à la tâche.
Pourquoi
Utilisation
Pourquoi
Je veux un point de terminaison compatible OpenAI
API d'inférence Hivenet
Hivenet gère la couche de service
Scripts de traitement par lots ou prétraitement
vCPU ou GPU
Commencez avec le vCPU, sauf si la tâche utilise CUDA ou l'accélération parallèle
Jupyter, PyTorch ou expériences de modèle
RTX 4090 ou RTX 5090
L'accélération GPU aide avec les flux de travail ML et les tests itératifs
ComfyUI, Stable Diffusion, Flux ou rendu
RTX 4090 ou RTX 5090
Les charges de travail d'image et de rendu bénéficient directement de l'accélération GPU
Je veux un système d'IA personnalisé sur des données sensibles
Private AI
Hivenet peut vous aider à définir les besoins en matière de modèle, de données, de déploiement et de support
Les modèles open source ont offert aux équipes un moyen de sortir de la routine des API fermées. Hivenet offre à ces modèles l'infrastructure qu'ils méritent : le bon GPU pour leur classe, un contrôle total sur la pile de service et une tarification qui fait de l'exécution de votre propre modèle le choix évident. C'est pour ce type de workload que Compute with Hivenet a été conçu : synthèse, extraction, classification, RAG, automatisation du support, assistance au code et outils internes, sur les modèles open source que vous déployez réellement.
Prendre en charge les flux de travail de génération augmentée par récupération pour la connaissance interne, le support client, la documentation et les données commerciales.
Extraire les dates, entités, catégories et champs structurés à partir de documents, messages, tickets, factures ou enregistrements.
Résumer les documents, conversations, fils de discussion d'assistance, recherches et contenu opérationnel.
Classer les messages, enregistrements, tickets, documents et flux de travail à l'aide de points de terminaison dédiés.
Prenez en charge les flux de travail liés au code lorsque la qualité du modèle, le coût et le placement des données sont adaptés à la tâche.
Développez des fonctionnalités d'IA pour les équipes qui ont besoin de coûts prévisibles et d'un contrôle plus clair sur l'exécution de l'inférence.
Les modèles open source et fondamentaux conviennent parfaitement à de nombreuses tâches de production lorsque le modèle est adapté au workload et testé avec des données réelles.
Sélectionnez parmi un catalogue géré de familles de modèles tels que Qwen, Llama, Mistral, Falcon, GPT OSS et Gemma.
Adaptez le niveau d'endpoint à la taille du modèle, à l'objectif de débit, aux besoins en latence et au nombre de répliques.
Épinglez le point de terminaison à une juridiction disponible, telle que la France, les Émirats arabes unis ou les États-Unis.
Utilisez une interface API compatible OpenAI afin que les workflows existants basés sur OpenAI SDK, LangChain, LlamaIndex, LiteLLM ou curl puissent se connecter avec des modifications minimales.
Examinez les métriques du point de terminaison telles que les requêtes, les jetons, la latence, les erreurs, le coût et le temps jusqu'au premier jeton, le cas échéant.
Chaque benchmark indique ce qui a été testé : modèle, précision, niveau de réplique, configuration GPU, taux de requêtes, latence et région.
Choisissez parmi un catalogue géré de familles de modèles telles que Qwen, Llama, Mistral, Falcon, GPT OSS et Gemma.
Adaptez le niveau du point de terminaison à la taille du modèle, à l'objectif de débit, aux besoins en latence et au nombre de répliques.
Épinglez le point de terminaison à une juridiction disponible, telle que la France, les Émirats arabes unis ou les États-Unis.
Utilisez une interface API compatible OpenAI afin que les workflows existants basés sur OpenAI SDK, LangChain, LlamaIndex, LiteLLM ou curl puissent se connecter avec des modifications minimales.
Examinez les métriques du point de terminaison telles que les requêtes, les jetons, la latence, les erreurs, le coût et le temps jusqu'au premier jeton, le cas échéant.
Le catalogue de lancement se concentre sur des classes de modèles pratiques pour les workloads des PME : des modèles petits et moyens pour un débit rentable, et des modèles plus grands pour des tâches de meilleure qualité lorsque le workload justifie la configuration de répliques.
Famille de modèles
Utilisation typique
Chemin du point de terminaison
Qwen
Extraction, RAG, sortie structurée, tâches multilingues
Point de terminaison géré ou chemin Compute
Llama
RAG, résumé, assistants, outils internes
Point de terminaison géré ou chemin de calcul
Mistral
Suivi d'instructions, résumé, outils, workloads européens
Point de terminaison géré ou chemin de calcul
Falcon
Workloads d'inférence plus petits et efficaces
Point de terminaison géré
GPT Open Source
Workloads d'inférence de modèle généraux
Point de terminaison géré ou voie Compute
Gemma
Flux de travail et expériences de modèles plus petits
Point de terminaison géré ou voie de calcul
Qwen est un excellent point de départ pour les équipes testant l'extraction structurée, le RAG et l'automatisation des flux de travail de production.
Exécutez des familles de modèles largement adoptées pour le RAG, la synthèse, les outils internes et les expériences de service de modèles.
L'API d'inférence Hivenet commence avec un catalogue géré. Si vous avez besoin de poids personnalisés, de modèles fine-tunés ou d'un chemin de déploiement privé, contactez le service commercial.
L'API d'inférence Hivenet utilise une tarification par réplique facturée à la seconde. Cela offre aux équipes de production un moyen plus clair de budgétiser les workloads stables qu'un compteur de jetons qui augmente de manière imprévisible avec l'utilisation.
Payez pour la capacité de point de terminaison que vous déployez, avec une tarification liée au niveau de modèle et à la configuration des répliques.
La facturation suit le temps d'exécution réel au lieu de contraindre chaque workload à une logique d'engagement mensuel.
Planifiez les dépenses d'inférence en EUR là où c'est pris en charge, avec une tarification en USD disponible pour les plans destinés aux États-Unis.
Les points de terminaison dédiés sont conçus pour les équipes de production qui souhaitent un coût d'infrastructure prévisible.
Niveau
Exemple d'utilisation
Prix
Petit point de terminaison
Modèles plus petits et workloads efficaces
à partir de 0,62 €/h
Petit point de terminaison rapide
Modèles plus petits avec une plus grande marge de débit
à partir de 1,10 €/h
Point de terminaison moyen
Modèles de taille moyenne tels que les workloads de classe Qwen
à partir de 2,10 €/h
Grand point de terminaison
Workloads de classe 70B là où c'est pris en charge
à partir de 3,80 €/h
L'API d'inférence Hivenet fonctionne sur une infrastructure basée sur Policloud, conçue pour les workloads nécessitant des performances prévisibles, un placement régional clair et un chemin d'infrastructure fiable. L'enjeu n'est pas de revendiquer la propriété du matériel, mais de fournir une infrastructure fiable que votre équipe peut expliquer.
Choisissez la région au moment du déploiement. Le point de terminaison reste lié à cette région.
Un routeur par client permet d'éviter les schémas de routage de type « voisin bruyant » et rend le chemin d'inférence plus facile à expliquer.
Hivenet gère le routeur, la passerelle, l'environnement d'exécution et la couche de facturation pour le point de terminaison géré.
Exécutez l'inférence sur un chemin d'accès basé sur Policloud au lieu de router l'IA de production entièrement via les API par défaut des hyperscalers.
La qualité du modèle dépend du workload. L'API d'inférence Hivenet est la plus performante lorsque le modèle répond à vos exigences de qualité et que la capacité dédiée améliore les coûts, le débit ou la résidence par rapport à votre chemin d'API actuel.
La couche d'inférence de Hivenet est conçue pour améliorer le débit par euro sur le matériel Hivenet. Les résultats des benchmarks montrent le workload, le modèle, le matériel et la configuration du point de terminaison derrière chaque chiffre.
Testez le modèle avec votre trafic réel, vos exigences de qualité, vos objectifs de latence et votre format de sortie avant de passer à un volume de production.
Suivez les requêtes, les jetons, la latence, les erreurs, les coûts et le temps jusqu'au premier jeton, lorsque disponible.
L'API d'inférence Hivenet est compatible OpenAI, ce qui permet aux équipes de conserver les schémas de client courants et de mettre à jour la configuration du point de terminaison au lieu de réécrire l'intégration de zéro.
La couche d'inférence de Hivenet est conçue pour améliorer le débit par euro sur le matériel Hivenet. Les résultats des benchmarks montrent la charge de travail, le modèle, le matériel et la configuration du point de terminaison derrière chaque chiffre.
Testez le modèle avec votre trafic réel, vos exigences de qualité, vos objectifs de latence et votre format de sortie avant de passer au volume de production.
Suivez les requêtes, les jetons, la latence, les erreurs, les coûts et le temps jusqu'au premier jeton, lorsque disponible.
# Utiliser le client OpenAI, pointant vers Hivenet
from openai import OpenAI
client = OpenAI(
api_key="HIVENET_API_KEY",
base_url="https://api.hivenet.example/v1"
)
response = client.chat.completions.create(
model="qwen-example",
messages=[{"role": "user", "content": "Summarize this document."}]
)
L'API d'inférence Hivenet est conçue pour les équipes gérant des flux de travail d'IA en production à grand volume : automatisation de documents, extraction, RAG, flux de travail de support et outils internes.
Une équipe d'automatisation des processus métier utilise un point de terminaison Qwen dédié en France pour une partie d'un flux de travail d'extraction en production.
Le profil idéal est une équipe qui investit déjà des sommes importantes dans des API LLM en production et qui recherche une capacité dédiée et prévisible.
L'API d'inférence Hivenet est le chemin de point de terminaison géré. D'autres workloads pourraient être mieux pris en charge par la location de GPU/CPU, Private AI, le RAG ou le stockage S3.

Louez des instances RTX 4090, RTX 5090 ou vCPU lorsque votre équipe souhaite un contrôle total sur l'instance, le framework et la pile de service.

Collaborez avec Hivenet sur des projets d'IA guidés impliquant des données sensibles, le choix du modèle, le support de déploiement ou des besoins spécifiques.

Créez des systèmes de récupération sur vos propres données en utilisant les chemins d'IA et de stockage de Hivenet.

Stockez des ensembles de données, des documents et des artefacts de pipeline d'IA avec des outils compatibles S3 et un trafic sortant gratuit.
FAQ
Commencez avec un vCPU pour le calcul à usage général, une RTX 4090 pour les tests et la recherche, une RTX 5090 pour l'IA spécialisée, ou une série RTX 6000 pour les charges de travail à l'échelle de l'entreprise. Contactez-nous si vous souhaitez de l'aide pour faire le bon choix dès le départ.