GPU en la nube
Rendimiento del A100 por el precio de un 4090. Facturación por segundo. Sin colas. Sin gastos de salida.


Punto de referencia de una sola GPU en la infraestructura de Hivenet:
TTFT: 349,9 ms a 1 solicitud/s (línea base de una sola solicitud).
Rendimiento máximo: 737 tokens/sa la vez que entrega 737 tokens/s bajo carga sostenida.¹
¹ Metodología de referencia y condiciones de prueba aquí.
Especificación
Valor
Por qué es importante
Arquitectura
Ada Lovelace
Proceso de 4 nm: eficiente bajo una carga pesada sostenida
Memoria
24 GB GDDR6X
Se adapta a Llama-3 70B (cuantificación de 4 bits) en una sola tarjeta
Ancho de banda
1.008 Gb/s
Evita que el tensor se detenga en la inferencia de lotes grandes
Rendimiento del FP16
165 TFLOPS
Espacio libre para modelos de difusión a 1024×1024
TDP
450 W
Menos que un A100 de 40 GB con un rendimiento de inferencia equivalente
Inicie una ejecución de QLora en menos de 60 segundos. Haga una pausa y reanude en cualquier momento, sin cargo por el tiempo de inactividad.
La VRAM de 24 GB admite una caché de 14 GB KV con total precisión. La mayoría de los modelos de difusión a 1024 × 1024 no requieren cuantificación.
La inferencia permanece en tu cuenta. No hay registros de API de terceros.
El ancho de banda de memoria de 1.008 GB/s gestiona 4K fotogramas sin interrupciones de E/S.
2 × - 32 ×
CARNERO 4 - 64 GB
Espacio en disco 50 - 800 GB
Ancho de banda 250 - 1000 MB/s
Facturación por segundo. Sin gastos de salida. Almacenamiento incluido.
Póngase en contacto con nosotros en support@hivenet.com o a través del chat de la aplicación.