Preços de VMs com GPU em nuvem: o que você realmente está pagando

As pessoas perguntam “Quanto custa uma VM de GPU?” e espero por um único número. Na prática, o custo se resume a duas alavancas que você controla: a máquina que você escolhe e por quanto tempo você a deixa funcionando.

Este artigo explica como os preços funcionam na computação em termos simples, o que está incluído e os poucos hábitos que mantêm os gastos previsíveis. Se você ainda está decidindo se precisa mesmo de uma VM, comece aqui.

Como funcionam os preços de computação

A computação usa créditos pré-pagos. Você adiciona créditos primeiro e, em seguida, seu saldo diminui enquanto uma instância está em execução. O console mostra uma taxa horária porque é fácil de ler, mas a cobrança é baseada no tempo de execução real, até o segundo. Saiba mais sobre Faturamento em computação.

Isso também significa que “mais um teste” pode ser barato se for executado por dois minutos e caro se você esquecer a instância da noite para o dia. O sistema não está tentando enganar você. É literal.

O que está incluído (e o que geralmente não está)

Quando as pessoas falam sobre preços na nuvem, elas geralmente se referem ao “número por hora” e esquecem o resto da fatura. Na computação, a intenção é que o preço que você vê cobre o básico que você precisa para operar: computação, armazenamento, tráfego de rede, bem como recursos essenciais, como memória e processadores.

Muitas plataformas anunciam taxas baixas de GPU, mas cobram separadamente pela CPU, RAM, memória, processadores e armazenamento, o que pode aumentar os custos gerais.

Se você quiser o texto exato e canônico, trate o documentos e página de preços como fonte da verdade, porque é isso que é atualizado primeiro quando algo muda. Taxas ocultas, como custos de transferência de dados, taxas de armazenamento e cobranças de configuração, podem aumentar rapidamente e devem ser consideradas ao avaliar os custos totais.

Os dois fatores reais de custo

Escolha de hardware

Os preços da GPU VM acompanham principalmente o modelo da GPU e quantas GPUs você conecta. Os preços podem variar significativamente com base no modelo de GPU, como as opções NVIDIA A100 40GB, A100 80GB, H100, B200 e AMD, e no provedor de nuvem. Mais GPUs custam mais. Mais VRAM, memória de GPU e memória de sistema também tendem a significar um preço mais alto, pois vêm com tamanhos de máquina maiores. O modelo de GPU e seu provisionamento são os principais fatores da taxa horária básica; por exemplo, as GPUs da geração atual, como a NVIDIA H100, podem variar de $2,10 a $15,00 por hora, enquanto modelos mais antigos, como a V100, variam de $0,14 a $6,25 por hora. A GPU NVIDIA A100 é comumente usada para cargas de trabalho de IA e está disponível por vários preços em diferentes provedores de nuvem. A GPU NVIDIA H100 custa cerca de $10,00 por hora e a GPU NVIDIA B200 está disponível por cerca de $14,00 por hora em determinadas configurações.

Se você está dimensionando para AI/ML, o limitador prático geralmente é VRAM, memória GPU ou memória. As cargas de trabalho de IA normalmente exigem GPUs com maior capacidade computacional e de VRAM, como a NVIDIA H100 ou A100. As GPUs de última geração, como NVIDIA H100, A100 e B200, são otimizadas e criadas especificamente para cargas de trabalho de IA exigentes, enquanto as GPUs de uso geral são adequadas para uma ampla variedade de tarefas. Os tipos de instância de GPU variam muito em termos de memória, memória de GPU e capacidade de processamento (processadores), afetando sua adequação a diferentes cargas de trabalho. A rede de alta largura de banda entre GPUs é crucial para o treinamento em grande escala e pode acarretar custos adicionais. O custo das máquinas virtuais de GPU também é influenciado pelo acesso dedicado versus compartilhado à GPU, taxas de transferência de dados, armazenamento e rede.

Os clusters de GPU geralmente são usados para cargas de trabalho de aprendizado de máquina em grande escala, e escolher a configuração certa é importante tanto para o custo quanto para o desempenho. A variedade de operações matemáticas realizadas pelos núcleos CUDA (processadores) e a carga de trabalho geral devem ser consideradas ao selecionar uma instância de GPU, especialmente porque as GPUs assumem um papel central no computação moderna para cargas de trabalho científicas e de IA. Essa visão geral ajuda você a escolher sem se perder nas especificações: Máquina virtual GPU: o que é e quem realmente precisa de uma.

Tempo de execução

O tempo de execução é a parte que as pessoas subestimam. Se você quiser controlar os custos, essa é a alavanca que mais importa.

Se você correr por 12 minutos e 20 segundos, são 740 segundos. Você paga por 740 segundos de tempo de execução, que é 740/3600 da taxa horária mostrada. É isso mesmo. Sem matemática misteriosa.

Transferência de dados: o custo oculto nos preços da GPU VM

Os preços das GPUs em nuvem ficam complicados quando você olha além das tarifas horárias. Os custos de transferência de dados geralmente surpreendem as equipes de IA que trabalham com grandes conjuntos de dados ou atualizações frequentes de modelos. Essas taxas podem dobrar sua conta de nuvem se você não tomar cuidado.

Os preços de transferência de dados diferem muito entre os provedores. Alguns cobram por GB transferido para dentro ou para fora da rede. Outros incluem transferência gratuita ou movimentação ilimitada dentro de sua infraestrutura. Uma taxa de GPU barata pode custar milhares a mais se você estiver movendo terabytes de dados ou resultados de treinamento. Você precisa de uma visão completa dos custos, incluindo principais perguntas a serem feitas antes de escolher um provedor de computação distribuída, antes de escolher um fornecedor..

Aqui estão cinco maneiras de controlar os custos de transferência de dados para seu trabalho de IA:

Conheça o modelo de transferência do seu provedor. Alguns incluem a movimentação gratuita de dados em sua rede. Outros cobram por cada GB. Descubra o que está incluído antes de mover grandes conjuntos de dados.
Use o armazenamento de objetos para centralizar os dados. Armazene seus dados, modelos e resultados de treinamento em um só lugar. Isso reduz as transferências repetidas e mantém os custos previsíveis.
Compare os custos totais, não apenas os preços das instâncias. Veja as taxas de GPU e as taxas de transferência juntas. Uma taxa horária mais alta pode economizar dinheiro se a transferência estiver incluída ou for mais barata.
Use a capacidade reservada quando possível. Cargas de trabalho previsíveis se qualificam para instâncias reservadas e descontos de uso. Isso geralmente também inclui melhores taxas de transferência e armazenamento.
Acompanhe e ajuste seu fluxo de trabalho. Monitore o uso da transferência mensalmente. Agrupe seus uploads, compacte dados quando puder e reutilize conjuntos de dados já armazenados na nuvem.

Os custos de transferência de dados são importantes para qualquer equipe que executa treinamento ou inferência de IA em grande escala. Planeje com antecedência e escolha a abordagem certa para evitar surpresas no faturamento. Avalie os fornecedores no pacote completo: preços, desempenho, armazenamento, segurança de provedores de computação certificados versus comunitáriose os custos ocultos que afetam seu orçamento.

Como estimar o custo rapidamente (sem planilhas)

Use a taxa horária mostrada no console e converta-a com base no seu tempo de execução.

Uma hora equivale a 3.600 segundos.

Custo ≈ taxa horária × (segundos consecutivos/3.600)

O custo total é calculado multiplicando a taxa horária pelo número de GPUs em sua instância e pela fração da hora usada.

Se você preferir matemática mental, converta seu tempo de execução em uma fração de hora. Dez minutos é um sexto de uma hora. Trinta minutos é a metade. Quanto mais preciso você precisar ser, mais você acabará usando a página de cobrança de qualquer maneira.

Os hábitos que mantêm os gastos sob controle

Pare qualquer coisa que você não esteja usando. Isso parece óbvio, mas é o maior ganho de custo. Se uma instância for interrompida, o faturamento computacional será interrompido. Quando terminar o dia, encerre-o. O tempo ocioso no uso da GPU leva ao pagamento pela execução de VMs que não estão processando ativamente cargas de trabalho.

Considere plataformas de GPU sem servidor. Plataformas de GPU sem servidor, como Runpod ou Cerebrium, oferecem modelos de pagamento por execução que eliminam custos de tempo ocioso, o que pode ser uma boa opção para desenvolvedores e clientes que desejam evitar pagar por recursos não utilizados ou que preferem plataformas de nuvem de GPU econômicas para IA e ML..

Comece aos poucos enquanto estiver depurando. Um erro comum é pagar por uma grande configuração de GPU enquanto você ainda está corrigindo problemas básicos do ambiente. Faça sua configuração e os primeiros testes em um tamanho menor. Aumente a escala quando você souber que o fluxo de trabalho é real. Tanto desenvolvedores quanto clientes, especialmente pequenas e médias empresas que estão explorando Tendências de IA que eles podem aproveitar com a computação de GPU em nuvem, pode se beneficiar de começar com instâncias menores e ampliar conforme necessário.

Não pague preços de GPU pelo trabalho com CPU. Muitos pipelines gastam tempo em downloads, pré-processamento, empacotamento ou veiculação de uma API leve. Se a GPU estiver ociosa, você está pagando por um carro esportivo estacionado. Divida as etapas pesadas da CPU em instâncias de vCPU, se isso se adequar ao seu fluxo de trabalho. As instâncias bare metal podem ser mais econômicas para determinadas cargas de trabalho de alto desempenho, mas as máquinas virtuais oferecem mais flexibilidade para a maioria dos desenvolvedores que desejam acesso escalável a GPUs na computação moderna por meio de plataformas de nuvem distribuídas..

Trate “parar” como uma pausa, não como armazenamento. A interrupção é ótima para pausas curtas e reinicializações rápidas, mas não presuma que uma instância interrompida seja um arquivamento de longo prazo. Se você precisar manter um ambiente, faça backup do que é importante e planeje reconstruções. Este explicador tem como objetivo evitar surpresas desagradáveis: Uma VM mantém minhas alterações? Explicação da persistência na computação.

Fique de olho no equilíbrio se você executar trabalhos longos. Como os créditos são pré-pagos, um longo prazo pode terminar mais cedo se seu saldo não puder cobrir mais tempo de execução. A melhor solução é simples: recarregue antes de começar ou ative a recarga automática para que você não precise cuidar dela.

Algumas perguntas sobre preços que as pessoas pesquisam

Você fatura por segundo ou por hora?

A interface do usuário mostra as taxas por hora, mas o faturamento é por segundo.

Eu pago quando a VM é interrompida?

As cobranças de computação são aplicadas enquanto a instância está em execução. Se você interromper ou encerrar, as cobranças de computação serão interrompidas.

Existe um gasto mínimo?

Normalmente, você precisa de crédito suficiente para iniciar a configuração escolhida. Se você estiver com pouca carga, recarregue ou escolha uma configuração menor.

Qual é a melhor maneira de reduzir custos?

Dimensione corretamente o hardware e interrompa a instância no momento em que você não a estiver usando. Todo o resto é de segunda ordem.

Experimente o Compute

Se você quiser a abordagem mais simples de “ver quanto custa”, inicie uma pequena instância, faça um pequeno teste e verifique a página de cobrança. Você aprenderá mais com uma corrida real do que com qualquer teoria de preços.

‍

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.