
31 de mayo de 2026
3 min lectura
Un nuevo sistema permite ejecutar modelos de IA con cientos de miles de millones de parámetros en GPUs de consumo, sin depender de la nube.
Un equipo de investigadores ha logrado ejecutar un modelo Mixture-of-Experts (MoE) de 47 mil millones de parámetros en una GPU de 8 GB VRAM, algo que antes requería al menos 80 GB. El truco: un sistema de rotación de expertos entre RAM y VRAM que minimiza la latencia.
Hasta ahora, ejecutar modelos MoE grandes localmente era inviable para la mayoría. Las GPUs de consumo (8-12 GB) solo podían cargar modelos pequeños o versiones cuantizadas. Esto forzaba a depender de APIs en la nube, con costos recurrentes y problemas de privacidad.
Rotary GPU cambia eso: permite que cualquier persona con una GPU de gama media ejecute modelos de última generación en su propio hardware. El coste de inferencia se reduce a cero marginal, y los datos nunca salen del dispositivo.
“Rotary GPU ejecuta modelos MoE de 47B parámetros en GPUs de 8 GB VRAM, reduciendo la necesidad de hardware especializado o conexión a la nube.