Compute ahora admite servidores de inferencia de vLLM

Compute acaba de recibir una actualización importante. Ahora puede lanzar un servidor de inferencias con vLLM con solo unos pocos clics. Elija un modelo, elija su hardware y estará listo para comenzar.

Empezar es rápido, pero si quieres afinar las cosas, los ajustes están ahí: longitud del contexto, muestreo, uso de memoria y más.

Empezaremos con Falcon3. En este momento, encontrarás Falcon3 3B, Falcon3 Mamba-7B, Falcon3 7B y Falcon3 10B en el catálogo. Pero eso es solo el principio. Llama, Mistral, Qwen y GPT-OSS están en camino.

Y si el modelo que necesita no aparece en la lista, infórmenos. ¡Lo agregaremos!

Introducción a la función VLLM y su configuración: vea el vídeo

También se ha reconstruido el flujo de instancias. Es más fácil de seguir y funciona de la misma manera tanto si utilizas una GPU general como si utilizas un servidor de inferencias. También verás más opciones de conexión. HTTPS sigue siendo el predeterminado, pero ahora puedes abrir los puertos TCP y UDP, ejecutar sesiones SSH que sobrevivan a las interrupciones con tmux o lanzarlas directamente a Jupyter

Los precios siguen siendo sencillos. Verás el coste por hora antes del lanzamiento y solo pagarás por segundo con créditos. Puedes empezar de a poco con una sola RTX 4090 o escalar hasta un clúster 5090 de ocho vías, según el modelo que elijas. Los servidores están activos en los Emiratos Árabes Unidos y Francia, y hay más ubicaciones en camino.

Este es un gran paso para Compute. La inferencia está integrada, es fácil de usar y es lo suficientemente flexible como para gestionar cargas de trabajo importantes. Estamos ansiosos por ver qué es lo que usas y qué modelos nos pedirás que agreguemos a continuación.

Lanza tu primer servidor de inferencia

Compute ahora admite servidores de inferencia de vLLM

Cuando los estudiantes de IA superan el entorno limitado: cómo DSTI amplió su acceso a la GPU con Hivenet