Compute - API d'inférence

Exécutez des modèles open source et fondamentaux via une API d'inférence gérée.

Déployez des points de terminaison dédiés sans avoir à gérer vous-même la pile de services. L'API d'inférence Hivenet offre aux équipes des points de terminaison compatibles OpenAI, une tarification par réplique et des options de déploiement régionales pour les workloads d'IA en production sur une infrastructure basée sur Policloud.

API compatible OpenAI

Points de terminaison dédiés

Un routeur par client

Une région par point de terminaison

Tarification par réplique

Facturé à la seconde

Zones de déploiement en France, aux Émirats arabes unis et aux États-Unis

Qwen · Llama · Mistral · Falcon · GPT OSS · Gemma

Adaptez la taille de l'instance. Maximisez la puissance de calcul par euro.

Compute with Hivenet vous offre une infrastructure enterprise-grade avec un contrôle total de l'instance, de l'environnement et de la pile. Chaque GPU a une tâche.

L'API d'inférence Hivenet vous offre une autre voie.

Utilisez des points de terminaison gérés pour les modèles open source et fondamentaux, épinglés à une région sélectionnée, Hivenet gérant le routeur, la passerelle, les répliques, l'observabilité et la couche de points de terminaison.

L'expérience API reste familière.

Utilisez un point de terminaison compatible OpenAI, mettez à jour votre URL de base et conservez les modèles de client courants pour les workflows OpenAI SDK, LangChain, LlamaIndex et curl.

Le modèle de coût est dédié et prévisible.

Utilisez une tarification par réplique facturée à la seconde pour les workloads de production stables, où un coût d'infrastructure connu est plus facile à gérer qu'un compteur de jetons.

Pour les équipes exécutant des workloads LLM en production à grande échelle.

L'API d'inférence Hivenet est conçue pour les équipes qui recherchent les avantages coût et contrôle des modèles open source et fondamentaux, sans gérer elles-mêmes les GPU, les moteurs d'inférence, les répliques, la surveillance et la fiabilité des points de terminaison.

Équipes de production utilisant des API LLM

Testez les classes de modèles Qwen en fonction de vos invites, de votre objectif de latence, de la longueur du contexte et de vos besoins en matière de coût-performance. Les modèles Qwen plus petits peuvent s'intégrer dans des flux de travail GPU efficaces, tandis que les classes plus grandes nécessitent des tests avant la production.

PME avec des coûts d'IA croissants

Exécutez des workloads DeepSeek distillés lorsque la taille du modèle est adaptée au matériel RTX 4090 ou RTX 5090. Considérez les workloads de raisonnement plus importants comme des candidats à l'évaluation comparative avant leur utilisation en production.

Équipes ayant des exigences de résidence

Choisissez la juridiction où votre point de terminaison s'exécute, avec des options de déploiement en France, aux Émirats arabes unis et aux États-Unis.

Développeurs utilisant des outils compatibles OpenAI

Conservez les schémas clients familiers. Modifiez l'URL de base, utilisez l'authentification Bearer et continuez.

Exécutez n'importe quel workload, grand ou petit.

Quelle que soit la taille, il y a une voie adaptée. Commencez avec le vCPU pour le calcul à usage général, passez à la RTX 4090 pour les tests et la recherche, à la RTX 5090 pour le débit d'IA spécialisé, et à la série RTX 6000 pour le travail à l'échelle de l'entreprise. Petite expérience ou déploiement en production, la plateforme s'adapte à la tâche.

Pourquoi

Utilisation

Pourquoi

Je veux un point de terminaison compatible OpenAI

API d'inférence Hivenet

Hivenet gère la couche de service

Scripts de traitement par lots ou prétraitement

vCPU ou GPU

Commencez avec le vCPU, sauf si la tâche utilise CUDA ou l'accélération parallèle

Jupyter, PyTorch ou expériences de modèle

RTX 4090 ou RTX 5090

L'accélération GPU aide avec les flux de travail ML et les tests itératifs

ComfyUI, Stable Diffusion, Flux ou rendu

RTX 4090 ou RTX 5090

Les charges de travail d'image et de rendu bénéficient directement de l'accélération GPU

Je veux un système d'IA personnalisé sur des données sensibles

Private AI

Hivenet peut vous aider à définir les besoins en matière de modèle, de données, de déploiement et de support

Balayez vers la gauche pour en voir plus

Explorer la location de GPU/CPU

Un environnement robuste pour les workloads d'IA open source.

Les modèles open source ont offert aux équipes un moyen de sortir de la routine des API fermées. Hivenet offre à ces modèles l'infrastructure qu'ils méritent : le bon GPU pour leur classe, un contrôle total sur la pile de service et une tarification qui fait de l'exécution de votre propre modèle le choix évident. C'est pour ce type de workload que Compute with Hivenet a été conçu : synthèse, extraction, classification, RAG, automatisation du support, assistance au code et outils internes, sur les modèles open source que vous déployez réellement.

RAG

Prendre en charge les flux de travail de génération augmentée par récupération pour la connaissance interne, le support client, la documentation et les données commerciales.

Extraction structurée

Extraire les dates, entités, catégories et champs structurés à partir de documents, messages, tickets, factures ou enregistrements.

Synthèse

Résumer les documents, conversations, fils de discussion d'assistance, recherches et contenu opérationnel.

Classification

Classer les messages, enregistrements, tickets, documents et flux de travail à l'aide de points de terminaison dédiés.

Assistance au codage

Prenez en charge les flux de travail liés au code lorsque la qualité du modèle, le coût et le placement des données sont adaptés à la tâche.

Outils internes

Développez des fonctionnalités d'IA pour les équipes qui ont besoin de coûts prévisibles et d'un contrôle plus clair sur l'exécution de l'inférence.

Conçu pour l'usage réel en équipe et en production.

Les modèles open source et fondamentaux conviennent parfaitement à de nombreuses tâches de production lorsque le modèle est adapté au workload et testé avec des données réelles.

1

Choisir un modèle

Sélectionnez parmi un catalogue géré de familles de modèles tels que Qwen, Llama, Mistral, Falcon, GPT OSS et Gemma.

2

Choisir le bon niveau

Adaptez le niveau d'endpoint à la taille du modèle, à l'objectif de débit, aux besoins en latence et au nombre de répliques.

3

Choisir un emplacement

Épinglez le point de terminaison à une juridiction disponible, telle que la France, les Émirats arabes unis ou les États-Unis.

4

Échangez l'URL de base

Utilisez une interface API compatible OpenAI afin que les workflows existants basés sur OpenAI SDK, LangChain, LlamaIndex, LiteLLM ou curl puissent se connecter avec des modifications minimales.

5

Surveiller et ajuster

Examinez les métriques du point de terminaison telles que les requêtes, les jetons, la latence, les erreurs, le coût et le temps jusqu'au premier jeton, le cas échéant.

Preuve du point de terminaison dédié, avec la méthodologie sous-jacente.

Chaque benchmark indique ce qui a été testé : modèle, précision, niveau de réplique, configuration GPU, taux de requêtes, latence et région.

Disponibilité du point de terminaison

99,7 %

Choisissez parmi un catalogue géré de familles de modèles telles que Qwen, Llama, Mistral, Falcon, GPT OSS et Gemma.

Référence Qwen

P95 inférieur à 30 secondes

Adaptez le niveau du point de terminaison à la taille du modèle, à l'objectif de débit, aux besoins en latence et au nombre de répliques.

Temps jusqu'au premier jeton

Moins de 5 secondes

Épinglez le point de terminaison à une juridiction disponible, telle que la France, les Émirats arabes unis ou les États-Unis.

Intégration

Compatible OpenAI SDK

Utilisez une interface API compatible OpenAI afin que les workflows existants basés sur OpenAI SDK, LangChain, LlamaIndex, LiteLLM ou curl puissent se connecter avec des modifications minimales.

Routage

Monolocataire

Examinez les métriques du point de terminaison telles que les requêtes, les jetons, la latence, les erreurs, le coût et le temps jusqu'au premier jeton, le cas échéant.

Familles de modèles pour les workloads de production.

Le catalogue de lancement se concentre sur des classes de modèles pratiques pour les workloads des PME : des modèles petits et moyens pour un débit rentable, et des modèles plus grands pour des tâches de meilleure qualité lorsque le workload justifie la configuration de répliques.

Famille de modèles

Utilisation typique

Chemin du point de terminaison

Qwen

Extraction, RAG, sortie structurée, tâches multilingues

Point de terminaison géré ou chemin Compute

Llama

RAG, résumé, assistants, outils internes

Point de terminaison géré ou chemin de calcul

Mistral

Suivi d'instructions, résumé, outils, workloads européens

Point de terminaison géré ou chemin de calcul

Falcon

Workloads d'inférence plus petits et efficaces

Point de terminaison géré

GPT Open Source

Workloads d'inférence de modèle généraux

Point de terminaison géré ou voie Compute

Gemma

Flux de travail et expériences de modèles plus petits

Point de terminaison géré ou voie de calcul

Balayez vers la gauche pour en voir plus

Qwen pour l'extraction en production et le RAG

Qwen est un excellent point de départ pour les équipes testant l'extraction structurée, le RAG et l'automatisation des flux de travail de production.

Workloads Llama et Mistral

Exécutez des familles de modèles largement adoptées pour le RAG, la synthèse, les outils internes et les expériences de service de modèles.

Catalogue géré pour commencer

L'API d'inférence Hivenet commence avec un catalogue géré. Si vous avez besoin de poids personnalisés, de modèles fine-tunés ou d'un chemin de déploiement privé, contactez le service commercial.

Tarification prévisible pour les points de terminaison dédiés.

L'API d'inférence Hivenet utilise une tarification par réplique facturée à la seconde. Cela offre aux équipes de production un moyen plus clair de budgétiser les workloads stables qu'un compteur de jetons qui augmente de manière imprévisible avec l'utilisation.

Tarification par réplique

Payez pour la capacité de point de terminaison que vous déployez, avec une tarification liée au niveau de modèle et à la configuration des répliques.

Facturé à la seconde

La facturation suit le temps d'exécution réel au lieu de contraindre chaque workload à une logique d'engagement mensuel.

Tarification en EUR

Planifiez les dépenses d'inférence en EUR là où c'est pris en charge, avec une tarification en USD disponible pour les plans destinés aux États-Unis.

Pas de compteur de jetons pour les points de terminaison dédiés

Les points de terminaison dédiés sont conçus pour les équipes de production qui souhaitent un coût d'infrastructure prévisible.

Niveau

Exemple d'utilisation

Prix

Petit point de terminaison

Modèles plus petits et workloads efficaces

à partir de 0,62 €/h

Petit point de terminaison rapide

Modèles plus petits avec une plus grande marge de débit

à partir de 1,10 €/h

Point de terminaison moyen

Modèles de taille moyenne tels que les workloads de classe Qwen

à partir de 2,10 €/h

Grand point de terminaison

Workloads de classe 70B là où c'est pris en charge

à partir de 3,80 €/h

Faites glisser vers la gauche pour en voir plus

Contact sales

Infrastructure enterprise-grade pour les points de terminaison d'IA régionaux.

L'API d'inférence Hivenet fonctionne sur une infrastructure basée sur Policloud, conçue pour les workloads nécessitant des performances prévisibles, un placement régional clair et un chemin d'infrastructure fiable. L'enjeu n'est pas de revendiquer la propriété du matériel, mais de fournir une infrastructure fiable que votre équipe peut expliquer.

Point de terminaison mono-région

Choisissez la région au moment du déploiement. Le point de terminaison reste lié à cette région.

Routage mono-locataire

Un routeur par client permet d'éviter les schémas de routage de type « voisin bruyant » et rend le chemin d'inférence plus facile à expliquer.

Opération full stack

Hivenet gère le routeur, la passerelle, l'environnement d'exécution et la couche de facturation pour le point de terminaison géré.

Policloud logotype

Chemin d'infrastructure que vous pouvez expliquer

Exécutez l'inférence sur un chemin d'accès basé sur Policloud au lieu de router l'IA de production entièrement via les API par défaut des hyperscalers.

Testez la qualité et le débit sur votre workload réel.

La qualité du modèle dépend du workload. L'API d'inférence Hivenet est la plus performante lorsque le modèle répond à vos exigences de qualité et que la capacité dédiée améliore les coûts, le débit ou la résidence par rapport à votre chemin d'API actuel.

Débit optimisé par le middleware

Conçu pour la performance par euro

La couche d'inférence de Hivenet est conçue pour améliorer le débit par euro sur le matériel Hivenet. Les résultats des benchmarks montrent le workload, le modèle, le matériel et la configuration du point de terminaison derrière chaque chiffre.

Évaluations de modèles

Vos prompts déterminent l'adéquation

Testez le modèle avec votre trafic réel, vos exigences de qualité, vos objectifs de latence et votre format de sortie avant de passer à un volume de production.

Métriques des points de terminaison

Surveillez les signaux pertinents

Suivez les requêtes, les jetons, la latence, les erreurs, les coûts et le temps jusqu'au premier jeton, lorsque disponible.

Conservez la familiarité de votre code client.

L'API d'inférence Hivenet est compatible OpenAI, ce qui permet aux équipes de conserver les schémas de client courants et de mettre à jour la configuration du point de terminaison au lieu de réécrire l'intégration de zéro.

Conçu pour la performance par euro

La couche d'inférence de Hivenet est conçue pour améliorer le débit par euro sur le matériel Hivenet. Les résultats des benchmarks montrent la charge de travail, le modèle, le matériel et la configuration du point de terminaison derrière chaque chiffre.

Vos invites déterminent l'adéquation

Testez le modèle avec votre trafic réel, vos exigences de qualité, vos objectifs de latence et votre format de sortie avant de passer au volume de production.

Surveillez les signaux qui comptent

Suivez les requêtes, les jetons, la latence, les erreurs, les coûts et le temps jusqu'au premier jeton, lorsque disponible.

# Utiliser le client OpenAI, pointant vers Hivenet
from openai import OpenAI

client = OpenAI(
   api_key="HIVENET_API_KEY",
   base_url="https://api.hivenet.example/v1"
)

response = client.chat.completions.create(
   model="qwen-example",
   messages=[{"role": "user", "content": "Summarize this document."}]
)

Conçue pour les besoins réels de la production.

L'API d'inférence Hivenet est conçue pour les équipes gérant des flux de travail d'IA en production à grand volume : automatisation de documents, extraction, RAG, flux de travail de support et outils internes.

Exemple de profil de production

Automatisation documentaire à fort volume

Une équipe d'automatisation des processus métier utilise un point de terminaison Qwen dédié en France pour une partie d'un flux de travail d'extraction en production.

Exemple de client

PME dépensant entre 5 000 € et 50 000 € par mois en API

Le profil idéal est une équipe qui investit déjà des sommes importantes dans des API LLM en production et qui recherche une capacité dédiée et prévisible.

Discutons de votre cas d'utilisation

Besoin d'une approche différente pour votre infrastructure IA ?

L'API d'inférence Hivenet est le chemin de point de terminaison géré. D'autres workloads pourraient être mieux pris en charge par la location de GPU/CPU, Private AI, le RAG ou le stockage S3.

Location de GPU/CPU

Louez des instances RTX 4090, RTX 5090 ou vCPU lorsque votre équipe souhaite un contrôle total sur l'instance, le framework et la pile de service.

Private AI

Collaborez avec Hivenet sur des projets d'IA guidés impliquant des données sensibles, le choix du modèle, le support de déploiement ou des besoins spécifiques.

RAG

Créez des systèmes de récupération sur vos propres données en utilisant les chemins d'IA et de stockage de Hivenet.

Stockage compatible S3

Stockez des ensembles de données, des documents et des artefacts de pipeline d'IA avec des outils compatibles S3 et un trafic sortant gratuit.

FAQ

Questions fréquentes

Apportez la charge de travail.

Commencez avec un vCPU pour le calcul à usage général, une RTX 4090 pour les tests et la recherche, une RTX 5090 pour l'IA spécialisée, ou une série RTX 6000 pour les charges de travail à l'échelle de l'entreprise. Contactez-nous si vous souhaitez de l'aide pour faire le bon choix dès le départ.

Shader gradient background

PoliCloud + Hivenet

30 % de réduction sur les forfaits Hivenet !

PoliCloud, propulsé par la technologie de Hivenet, redéfinit le stockage cloud souverain. Pour célébrer notre partenariat, nous offrons 30 % de réduction sur tous les forfaits Hivenet—pour une durée limitée !

*L'offre se termine le 31 mars 2025. Ne la manquez pas !

Lisez nos Conditions Générales