Eliminar QKV reduce el Transformer un 33% sin perder rendimiento

Un estudio sistemático muestra que eliminar una de las tres proyecciones del Transformer (Q, K o V) reduce parámetros hasta un 33% sin pérdida significativa en 12 tareas.

Productividad Minimalismo Digital Tecnologia

Eliminar QKV reduce el Transformer un 33% sin perder rendimiento

Un estudio sistemático publicado en ICML 2026 demuestra que eliminar una de las tres proyecciones del Transformer (Q, K o V) reduce los parámetros hasta un 33% sin pérdida significativa de rendimiento en 12 tareas diversas.

Por qué importa

Los Transformers dominan desde la traducción automática hasta la generación de imágenes, pero su arquitectura QKV (query, key, value) se ha mantenido casi intacta desde 2017. Cada proyección añade millones de parámetros y coste computacional. Si se puede prescindir de una sin sacrificar precisión, el ahorro en memoria y tiempo de entrenamiento es enorme.

Para startups y equipos con recursos limitados, reducir un tercio del modelo significa poder ejecutar modelos más grandes en el mismo hardware, o reducir costes en la nube. Para usuarios finales, implica aplicaciones más rápidas y ligeras.

Qué dice el contexto

El estudio evaluó 12 variantes de atención con proyecciones compartidas o eliminadas en 12 tareas que incluyen clasificación de texto, razonamiento y visión.
Las variantes más exitosas fueron K/KV (compartir clave y valor) y K-only (solo clave), que igualaron o superaron al QKV estándar en varias tareas.
La reducción de parámetros alcanzó hasta un 33% en la variante K-only, sin pérdida significativa de rendimiento en la mayoría de tareas.
El estudio incluyó codificación posicional 2D para tareas de visión, y los resultados se mantuvieron consistentes.
El código está disponible en GitHub, permitiendo a cualquier desarrollador replicar los experimentos.

Lo que puedes hacer

Revisa tus modelos actuales: Si usas Transformers en producción, prueba las variantes K/KV o K-only en una tarea representativa. El código abierto facilita la integración.
Reduce costes de inferencia: Implementa la variante K-only en modelos ligeros para dispositivos móviles o edge computing. Ahorrarás memoria y latencia.
Experimenta en prototipos: Al iniciar un nuevo proyecto, considera empezar con una variante reducida. Si el rendimiento es suficiente, habrás ahorrado tiempo y recursos desde el principio.

En una frase

“

Eliminar una de las tres proyecciones QKV reduce los parámetros del Transformer hasta un 33% sin pérdida significativa de rendimiento en 12 tareas.

Por qué importa

Qué dice el contexto

El estudio evaluó 12 variantes de atención con proyecciones compartidas o eliminadas en 12 tareas que incluyen clasificación de texto, razonamiento y visión.

Las variantes más exitosas fueron K/KV (compartir clave y valor) y K-only (solo clave), que igualaron o superaron al QKV estándar en varias tareas.

La reducción de parámetros alcanzó hasta un 33% en la variante K-only, sin pérdida significativa de rendimiento en la mayoría de tareas.

El estudio incluyó codificación posicional 2D para tareas de visión, y los resultados se mantuvieron consistentes.

El código está disponible en GitHub, permitiendo a cualquier desarrollador replicar los experimentos.

Lo que puedes hacer

Revisa tus modelos actuales: Si usas Transformers en producción, prueba las variantes K/KV o K-only en una tarea representativa. El código abierto facilita la integración.

Reduce costes de inferencia: Implementa la variante K-only en modelos ligeros para dispositivos móviles o edge computing. Ahorrarás memoria y latencia.

Experimenta en prototipos: Al iniciar un nuevo proyecto, considera empezar con una variante reducida. Si el rendimiento es suficiente, habrás ahorrado tiempo y recursos desde el principio.