Yes. You can start with a managed vLLM template to serve models quickly.

Can I keep the service behind HTTPS?

Yes. HTTPS is available alongside TCP and UDP.

Do you store my inputs or outputs?

Logs and data stay in your instance unless you choose to persist them.

Inferência com computação

Execute a inferência de GPU sem a sobrecarga usual

Inicie cargas de trabalho de inferência nas instâncias RTX 4090 e RTX 5090, comece rapidamente com o vLLM gerenciado e pague somente pelo tempo que usar.

Experimente o Compute

Por que as equipes escolhem a computação para inferência

Inferência gerenciada com vLLM

Comece a servir em minutos com um modelo de vLLM gerenciado em vez de criar toda a camada de serviço do zero.

Preços simples

Use o faturamento por segundo sem cobranças de saída separadas e preços que já incluem computação, armazenamento e volume de rede.

Rede flexível

Exponha as portas de que seu serviço precisa e execute com HTTPS, TCP ou UDP.

Opções de implantação regional

Execute cargas de trabalho mais perto de onde seus usuários e sistemas operam quando as opções de latência e implantação são importantes.

Como funciona

Deslize para a esquerda para ver mais

Escolha a camada 4090 ou 5090 que se adapte ao seu modelo e perfil de tráfego.

Inicie a partir de uma imagem PyTorch ou vLLM limpa e comece com uma configuração que já corresponda ao trabalho.

Ative HTTPS, TCP ou UDP e direcione seu aplicativo para o endpoint de que ele precisa.

Transforme sua configuração em um modelo personalizado para que o próximo lançamento dê menos trabalho.

O que as pessoas usam no Compute

IA conversacional para suporte e tutoria

Endpoints LLM ajustados para aplicativos e APIs

Modelos de voz para transcrição ou legendas em tempo real

Visão geral dos preços

As cargas de trabalho de inferência geralmente passam longos períodos ociosas, o que faz com que o modelo de preços seja tão importante quanto a velocidade bruta da GPU. A computação simplifica isso com cobrança por segundo e preços agrupados.

RTX 5090

€ 0,40 - 3,20 /h

→

1 × - 8 ×

vCPU 8 - - -

RAM 73 - - 584 - GB

Espaço em disco 250 - - 2000 - GB

Largura de banda 1000 - Mb/s

RTX 4090

€ 0,20 - 1,60 /h

→