← Blog
July 31, 2025

Las RTX 5090 ya están disponibles en Compute

El siguiente peldaño en la escala de GPU

Si está ejecutando trabajos de IA, ya sabe en qué medida su elección de hardware determina lo que es posible y lo que cuesta. Por eso hemos añadido la NVIDIA RTX 5090 a Compute. Más velocidad, menos esperas y un precio justo. Vayamos directamente a los números.

Por qué la 5090 se une a la gama

Cuando lo lanzamos con la 4090, solucionamos un gran problema: las GPU para centros de datos como la A100 eran imposibles de conseguir o tenían un precio exagerado. El 4090 resultó ser el punto óptimo para la mayoría de las cargas de trabajo de IA e inferencia de LLM.

Sin embargo, nuestros usuarios nos empujaron aún más. Los equipos querían una inferencia más rápida, una mejor escalabilidad y la opción de hacer todo lo posible sin consumir energía. Cuando llegaron los primeros modelos 5090, los pusimos a prueba y abrimos una región completamente nueva (los Emiratos Árabes Unidos 2) para que pudierais acceder de inmediato.

Lo más destacado de los puntos de referencia de un vistazo

Hemos realizado pruebas paralelas utilizando cargas de trabajo de LLM reales. Esto es lo que más destaca:

  • 5090 barras de extremo a extremo latencia hasta 9,6 veces en comparación con la 4090, y más que duplica la velocidad de la A100.
  • Con cargas elevadas, la 5090 ofrece casi 7 veces más rendimiento del 4090 y más de 2,5 veces el rendimiento del A100.
  • Cada 5090 utiliza energía de forma más inteligente, ya que ofrece más de tres veces el rendimiento por vatio que el 4090.

Average and Peak Token throughput in Compute with Hivenet

Si tienes LLM pequeñas y medianas, la 5090 es ahora la opción más rápida y rentable de Compute.

Cómo realizamos las pruebas

No nos escondemos detrás de puntos de referencia que nadie puede reproducir. Esta es nuestra configuración:

  • Modelo: meta-llama 3.1-8B-Instruct
  • Tamaño del lote: Contexto 8.192; salida 512 tokens
  • Motor: VllM 0.8.3 (benchmark_serving.py)
  • Escenarios:
    1. Carga moderada (1 solicitud/s, 100 solicitudes)
    2. Carga extrema (1100 solicitudes/s, 1500 solicitudes)
  • Regiones: Francia, Emiratos Árabes Unidos 2

Puedes consultar los resultados detallados en nuestra PDF de referencia. Si desea ver más de cerca las configuraciones de prueba o desea realizar sus propias comparaciones, simplemente pregunte. Estaremos encantados de explicarle los detalles.

Qué significa para su carga de trabajo

Con la tecnología 5090, cualquier persona que ejecute un LLM con hasta 13 000 millones de parámetros puede obtener el rendimiento del centro de datos, sin tener que pagar una factura del centro de datos ni tener una lista de espera de seis meses. Las tarjetas se escalan de forma lineal, por lo que puedes agruparlas y hacer frente a grandes cargas de trabajo, o crear una para realizar experimentos rápidos.

  • En la mayoría de los trabajos de inferencia, obtendrá una latencia más baja y una mejor relación precio/rendimiento que cualquier otra opción de procesamiento anterior.
  • La facturación por segundo mantiene los costos honestos sin acumulaciones ni sorpresas.

Cuando los 4090 o A100 siguen ganando

No todos los trabajos necesitan el martillo más grande. Aquí es cuando la 4090 o la A100 podrían ser tu mejor elección:

  • Si estás entrenando con modelos enormes y necesitas más VRAM de la que ofrece una 5090, los nodos A100 siguen teniendo sentido.
  • Para trabajos con secuencias de gran longitud o ajustes precisos entre tarjetas, los A100 brillan.
  • El 4090 sigue siendo un valor increíble para proyectos más pequeños o presupuestos ajustados.

Aun así, creemos que, para la mayoría de los casos de uso, los 4090 y ahora los 5090 son una mejor opción que los A100. Échale un vistazo a nuestra publicación anterior Por qué cada vez más desarrolladores eligen la RTX 4090 en lugar de la A100 para obtener más información.

Cómo lanzar un 5090 en Compute

Es tan sencillo como siempre:

  1. Inicie sesión en su Calcular salpicadero
  2. Elige una región
  3. Seleccione GPU (5090) como tu hardware
  4. Elige tu plantilla (o crea la tuya propia)
  5. Haga clic Lanzar

Screenshot from the Compute with Hivenet console

Estarás listo y funcionando en menos de un minuto.

Mirando hacia el futuro

Ya estamos planificando la construcción de más regiones con una capacidad de 5090 y estamos probando plantillas con varias GPU. Si tienes comentarios o quieres alguna función, comunícanoslo. La computación siempre evoluciona contigo.