Como as GPUs ociosas podem reduzir pela metade seus custos de computação de IA

Os enxames de GPU corporativos superam os A100s em nuvem em 37%

---

‍

Empresas de todos os lugares enfrentam custos crescentes de nuvem e uma pressão crescente para atingir metas de zero líquido. Escondida nos desktops, estações de trabalho e servidores corporativos do dia a dia está uma oportunidade inexplorada. Uma recente prova de conceito (PoC) demonstrou que um “enxame” distribuído de GPUs de nível de consumo pode igualar (e frequentemente superar) as GPUs de nuvem premium para cargas de trabalho de IA corporativa.

Um tipo diferente de teste de nuvem

Em colaboração com um banco global, exploramos se as GPUs corporativas padrão poderiam substituir a inferência de IA hospedada na nuvem. O PoC comparou GPUs de estação de trabalho (NVIDIA RTX 4500, RTX 4090 e dupla RTX 6000 Ada) com a instância de GPU A100 de 80 GB de alto desempenho da Runpod.

Dentro do enxame de GPU

A Hivenet transforma GPUs corporativas ociosas em uma rede de computação segura e pronta para uso corporativo. Gerenciado por meio de um gateway leve, esse cluster distribuído se expande facilmente sob demanda, criptografa todas as comunicações e se integra perfeitamente aos serviços de identidade corporativa existentes, sem exigir nenhum hardware novo.

Resultados de computação PoC

O teste envolveu cargas de trabalho generativas de inferência de IA, rastreando meticulosamente as principais métricas, como taxa de transferência (tokens por segundo), latência, simultaneidade e eficiência energética.

As 2x GPUs duplas RTX 6000 Ada do swarm superaram notavelmente as 2xA100 do Runpod, alcançando uma taxa de transferência 37% maior no pico de carga e mantendo uma vantagem consistente de 16% na taxa de transferência em cargas de trabalho contínuas. Embora o A100 tenha uma pequena vantagem de latência (11% melhor tempo até o primeiro token em uma simultaneidade extremamente alta), o cluster de GPU executado na tecnologia Hivenet proporcionou um desempenho geral impressionante. O uso de energia foi inicialmente maior nas GPUs de consumo. Mas depois de considerar as despesas gerais típicas do data center (PUE), a lacuna de eficiência de energia diminuiu significativamente.

Economia e eficiência de custos

As empresas precisam de evidências financeiras concretas para embasar as decisões estratégicas, e os dados falam com clareza. O custo total de propriedade (TCO) mensal — abrangendo a amortização de hardware em três anos (com base nos ciclos de vida típicos do hardware corporativo), o preço da energia a 0,18 €/kWh (com base no preço médio em 2024) e as taxas associadas de licenciamento ou nuvem — foi calculado com suposições realistas de 75% de utilização da GPU.

Configuration	Monthly TCO	Effective tokens/month	Cost per 1M tokens
2x Dual RTX 6000 Ada swarm	$1,150	155M	$7.40
Runpod's 2XA100 80GB (us-central1)	$1,985	136M	$14.60
On-prem 2xA100 80GB	$1,750	136M	$12.90

Esse enxame de GPU reduz significativamente os custos, proporcionando uma economia de aproximadamente 49% em comparação às GPUs hospedadas na nuvem e cerca de 43% em relação às configurações tradicionais do A100 no local. GPUs de nível inferior, como a RTX 4500 ou O RTX 4090 pode reduzir ainda mais os custos para cargas de trabalho menos sensíveis à latência.

Por que todo CIO deveria se importar

Os resultados dessa PoC representam uma conquista técnica e sinalizam uma mudança transformadora na estratégia de computação corporativa. Ao converter hardware corporativo subutilizado em infraestrutura de IA de alto desempenho, as empresas podem liberar recursos orçamentários substanciais e redirecionar imediatamente essas economias para inovação, aquisição de talentos ou iniciativas críticas de crescimento dos negócios.

Confiar na infraestrutura própria traz previsibilidade e estabilidade na latência e na taxa de transferência, evitando problemas comuns com o congestionamento da região da nuvem ou flutuações inesperadas de preços. Empresas em setores regulamentados se beneficiam particularmente, pois a execução de cargas de trabalho de inferência no local simplifica significativamente a conformidade com a soberania de dados.

Além da economia de custos, os enxames de GPU distribuídos oferecem benefícios tangíveis de sustentabilidade. A reutilização do hardware existente reduz drasticamente o impacto ambiental das novas construções de data centers e diminui as demandas contínuas de energia, contribuindo diretamente para os compromissos corporativos de ESG.

Ao aproveitar seu hardware de forma mais estratégica, as empresas também podem fortalecer as posições de negociação com provedores de nuvem, garantindo melhores condições e evitando a dependência de fornecedores com um modelo de integração de baixo risco que complementa a infraestrutura existente (usando contêineres leves, endpoints de API e tunelamento VPN seguro para implantação), em que as cargas de trabalho são reatribuídas dinamicamente se algum nó ficar indisponível. Essa abordagem oferece resiliência operacional sem complexidade adicional.

“Vimos um alívio imediato em nosso orçamento de GPU”, disse um líder sênior de infraestrutura do banco participante após o teste. “A transição foi mais suave do que o esperado e o desempenho surpreendeu nossa equipe de engenharia.”

Os clusters de GPU distribuídos oferecem uma vantagem estratégica, transformando ativos corporativos ociosos em recursos produtivos e de alto valor. Isso economiza dinheiro e oferece às empresas mais controle, melhor sustentabilidade e um sistema de IA mais forte e flexível.

Conclusão estratégica

Em vez de alugar continuamente caras GPUs em nuvem, as empresas agora têm uma alternativa viável e imediatamente acionável. A tecnologia de enxame de GPU distribuída da Hivenet demonstra conclusivamente que o uso de desktops existentes é viável e é o caminho mais prático e econômico para uma infraestrutura de IA eficiente, sustentável e segura.

Rent a GPU in seconds. Train smarter.

Spin up powerful RTX 4090s starting at $0.49/hr. No queues, no long-term contracts—just pure compute, on your terms.

Start for free

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.