GPUs em nuvem
Desempenho do A100 pelo preço de um 4090. Cobrança por segundo. Sem filas. Sem taxas de saída.


Referência de GPU única na infraestrutura Hivenet:
TTFT: 349,9 ms a 1 req/s (linha de base de solicitação única).
Pico de produtividade: 737 tokens/senquanto entrega 737 tokens/s sob carga sustentada.¹
¹ Metodologia de referência e condições de teste aqui.
Especificação
Valor
Por que isso importa
Arquitetura
Ada Lovelace
Processo de 4 nm — eficiente sob carga pesada sustentada
Memória
24 GB GDDR6X
Compatível com Llama-3 70B (quantização de 4 bits) em uma única placa
Largura de banda
1.008 Gb/s
Evita paralisações do tensor na inferência de grandes lotes
Taxa de transferência do FP16
165 FRACASSOS
Espaço livre para modelos de difusão em 1024 × 1024
TDP
450 W
Menor que um A100 de 40 GB com taxa de transferência de inferência equivalente
Inicie uma execução do QLoRa em menos de 60 segundos. Faça uma pausa e retome a qualquer momento, sem cobrança pelo tempo ocioso.
A VRAM de 24 GB suporta cache de 14 GB KV com precisão total. Nenhuma quantização é necessária para a maioria dos modelos de difusão em 1024 × 1024.
A inferência permanece em sua conta. Sem registros de API de terceiros.
A largura de banda de memória de 1.008 GB/s suporta quadros de 4K sem interrupções de E/S.
2 × - 32 ×
RAM 4 - 64 GB
Espaço em disco 50 - 800 GB
Largura de banda 250 - 1000 Mb/s
Cobrança por segundo. Sem taxas de saída. Armazenamento incluído.
Entre em contato conosco em support@hivenet.com ou por meio do bate-papo no aplicativo.