← Blog
September 3, 2025

A computação agora oferece suporte a servidores de inferência vLLM

O Compute acabou de receber uma grande atualização. Agora você pode iniciar um servidor de inferência com o vLLM com apenas alguns cliques. Escolha um modelo, escolha seu hardware e você está pronto para começar.

É rápido começar, mas se você quiser ajustar as coisas, as configurações estão disponíveis: tamanho do contexto, amostragem, uso de memória e muito mais.

Estamos começando com o Falcon3. No momento, você encontrará Falcon3 3B, Falcon3 Mamba-7B, Falcon3 7B e Falcon3 10B no catálogo. Mas isso é só o começo. Llama, Mistral, Qwen e GPT-OSS estão a caminho.

E se o modelo que você precisa não estiver listado, avise-nos. Vamos adicioná-lo!

Introdução ao recurso VLLM e sua configuração - Assista ao vídeo

O fluxo da instância também foi reconstruído. É mais fácil de seguir e funciona da mesma forma se você estiver criando uma GPU geral ou um servidor de inferência. Você também notará mais opções de conexão. O HTTPS permanece o padrão, mas agora você pode abrir portas TCP e UDP, executar sessões SSH que sobrevivem às interrupções com o tmux ou iniciar diretamente no Jupyter

O preço ainda é simples. Você vê o custo por hora antes do lançamento e paga apenas por segundo com créditos. Você pode começar aos poucos em um único RTX 4090 ou escalar até um cluster 5090 de oito vias, dependendo do modelo escolhido. Os servidores estão ativos nos Emirados Árabes Unidos e na França, com mais locais a caminho.

Esse é um grande passo para a computação. A inferência é integrada, fácil de usar e flexível o suficiente para lidar com cargas de trabalho sérias. Mal podemos esperar para ver o que você executa nele e quais modelos você pedirá que adicionemos a seguir.

Inicie seu primeiro servidor de inferência