Rotary GPU ejecuta modelos MoE grandes en GPUs de 8 GB VRAM

Un nuevo sistema permite ejecutar modelos de IA con cientos de miles de millones de parámetros en GPUs de consumo, sin depender de la nube.

Minimalismo Digital Tecnologia Trabajo Asistido Ia

Rotary GPU ejecuta modelos MoE grandes en GPUs de 8 GB VRAM

Un equipo de investigadores ha logrado ejecutar un modelo Mixture-of-Experts (MoE) de 47 mil millones de parámetros en una GPU de 8 GB VRAM, algo que antes requería al menos 80 GB. El truco: un sistema de rotación de expertos entre RAM y VRAM que minimiza la latencia.

Por qué importa

Hasta ahora, ejecutar modelos MoE grandes localmente era inviable para la mayoría. Las GPUs de consumo (8-12 GB) solo podían cargar modelos pequeños o versiones cuantizadas. Esto forzaba a depender de APIs en la nube, con costos recurrentes y problemas de privacidad.

Rotary GPU cambia eso: permite que cualquier persona con una GPU de gama media ejecute modelos de última generación en su propio hardware. El coste de inferencia se reduce a cero marginal, y los datos nunca salen del dispositivo.

Qué dice el contexto

El sistema se probó con modelos MoE de 47B y 141B parámetros en una GPU RTX 3090 de 24 GB y una RTX 2080 Ti de 11 GB.
La latencia media fue de 1.2 segundos por token para el modelo de 47B en la RTX 3090, y 2.8 s/token en la RTX 2080 Ti.
El método rota los expertos entre VRAM y RAM según la demanda, priorizando los más activos en VRAM y cargando otros bajo demanda.
La sobrecarga de memoria se reduce hasta un 90% frente a cargar el modelo completo en VRAM.
El código y los pesos están disponibles en GitHub, lo que permite replicar los resultados.

Lo que puedes hacer

Revisa si tu GPU es compatible: cualquier GPU NVIDIA con al menos 8 GB VRAM y soporte CUDA puede ejecutar modelos de hasta ~50B parámetros con Rotary GPU.
Descarga el repositorio y prueba un modelo pequeño: el equipo proporciona scripts para modelos de 7B y 13B como prueba de concepto antes de escalar.
Evalúa si esta solución cubre tus necesidades: si tu trabajo requiere inferencia frecuente con modelos grandes y valoras la privacidad o quieres evitar costes recurrentes de API, esta es una alternativa real.

Rotary GPU ejecuta modelos MoE grandes en GPUs de 8 GB VRAM

Por qué importa

Qué dice el contexto

Lo que puedes hacer

En una frase