Los contextos largos de IA fallan: 1.2M tokens de prueba

Un análisis sistemático revela que los modelos de IA con ventanas de contexto de 1.2M tokens olvidan información clave. Cómo proteger tu trabajo.

Productividad Minimalismo Digital Tecnologia Trabajo Asistido Ia

Los contextos largos de IA fallan: 1.2M tokens de prueba

Un análisis sistemático sobre 1.2 millones de tokens de contexto revela que los modelos de IA pierden hasta un 40% de precisión en tareas de recuperación de información cuando el contexto supera los 100 mil tokens. La consecuencia inmediata: confiar ciegamente en ventanas largas puede sabotear decisiones críticas.

Por qué importa

Cada vez más equipos integran asistentes de IA en flujos de trabajo que procesan documentos extensos —contratos legales, informes financieros, historiales médicos— asumiendo que el modelo recordará cada detalle. Los benchmarks demuestran que esa suposición es falsa: la precisión cae abruptamente después de cierto umbral.

Para el profesional que delega análisis en IA, el riesgo no es teórico. Un error de omisión en una cláusula contractual o un dato financiero omitido puede costar miles de euros. La ventana grande es una trampa de productividad aparente.

Qué dice el contexto

El estudio prueba 5 modelos con ventanas de 128K a 1.2M tokens, midiendo precisión en recuperación de hechos específicos.
A 100K tokens, la precisión media es del 92%; a 500K cae al 74%; a 1.2M apenas alcanza el 61%.
Los modelos más grandes (70B+ parámetros) se degradan más lentamente, pero ninguno supera el 80% de precisión en contextos de 1M.
El error más común es el "olvido posicional": el modelo recuerda mejor el inicio y el final, pero pierde información del medio.
Un experimento con documentos apilados (10 documentos de 100K cada uno) muestra que el modelo mezcla hechos entre documentos diferentes.

Lo que puedes hacer

Segmenta antes de enviar: divide documentos largos en fragmentos de máximo 50K tokens y procesa cada uno por separado. Cruza resultados para detectar inconsistencias.
Exige verificación explícita: pide al modelo que cite la fuente exacta (número de página, línea) de cada hecho que recupere. Si no puede, desconfía.
Prueba tu caso real: ejecuta un pequeño benchmark con 10 preguntas sobre un documento de 200K tokens. Si la precisión es menor al 90%, rediseña el flujo.

En una frase

“

El 39% de los hechos en un contexto de 1.2M tokens se pierden: no confíes tu trabajo a una ventana que no puedes verificar.

Los contextos largos de IA fallan: 1.2M tokens de prueba

Por qué importa

Qué dice el contexto

El estudio prueba 5 modelos con ventanas de 128K a 1.2M tokens, midiendo precisión en recuperación de hechos específicos.

A 100K tokens, la precisión media es del 92%; a 500K cae al 74%; a 1.2M apenas alcanza el 61%.

Los modelos más grandes (70B+ parámetros) se degradan más lentamente, pero ninguno supera el 80% de precisión en contextos de 1M.

El error más común es el "olvido posicional": el modelo recuerda mejor el inicio y el final, pero pierde información del medio.

Un experimento con documentos apilados (10 documentos de 100K cada uno) muestra que el modelo mezcla hechos entre documentos diferentes.

Lo que puedes hacer

Segmenta antes de enviar: divide documentos largos en fragmentos de máximo 50K tokens y procesa cada uno por separado. Cruza resultados para detectar inconsistencias.

Exige verificación explícita: pide al modelo que cite la fuente exacta (número de página, línea) de cada hecho que recupere. Si no puede, desconfía.

Prueba tu caso real: ejecuta un pequeño benchmark con 10 preguntas sobre un documento de 200K tokens. Si la precisión es menor al 90%, rediseña el flujo.