
Las GPU se crearon para juegos. Ahora impulsan la inteligencia artificial, el renderizado y la computación en nube, y ese nombre ya no encaja
El término tarjeta gráfica se siente anticuado. Las GPU no se han centrado realmente en los gráficos durante años. Los mismos chips que antes renderizaban sombras y reflejos ahora entrenan modelos de lenguaje de gran tamaño y ejecutan tareas de inferencia de inteligencia artificial. El nombre se mantuvo, pero el propósito no.
La ironía es que algunas de las GPU más potentes de la actualidad ni siquiera pueden mostrar gráficos. La H200 NVL de Nvidia, por ejemplo, no tiene salida de pantalla; está diseñada exclusivamente para la computación. Pruebas como las de Laboratorios LTT hacen que esto sea obvio: cuando compararon la H200 con la RTX 5090, la tarjeta de juego sobresalió en cuanto a velocidad bruta, pero se quedó sin memoria en los modelos más grandes. La H200 siguió funcionando gracias a su enorme ancho de banda de memoria. No es una tarjeta «gráfica». Es un acelerador.
El trabajo de GPU moderno se divide en dos categorías. Las tareas relacionadas con la computación dependen del rendimiento del núcleo y de la velocidad del reloj. Las tareas vinculadas a la memoria dependen de la capacidad y el ancho de banda de la VRAM. La inferencia y el entrenamiento suelen situarse en un punto intermedio entre ambos. Es por eso que un 5090 puede procesar rápidamente, pero un modelo que supere los 32 GB de VRAM se bloqueará o se ralentizará a pasos agigantados. El H200, con 141 GB de memoria HBM3e, sigue funcionando con la misma carga.
Este cambio redefine el rendimiento. La velocidad sigue siendo importante, pero también lo es la capacidad. La industria de las GPU ahora se divide entre las tarjetas diseñadas para la visualización y las diseñadas para datos. Se trata de una crisis de identidad silenciosa que se está produciendo en el hardware.
Para los desarrolladores que buscan el rendimiento de las inferencias, Inferencia de LLM en producción: una guía práctica ofrece información práctica sobre el rendimiento, la latencia y el procesamiento por lotes.