10 de junio de 2026
3 min lectura
Al preguntar a ChatGPT qué es España, Cataluña aparece como lo más representativo. La razón: solo el 0,1% del contenido en internet está en catalán.
Al pedirle a ChatGPT que describa España, el modelo destaca Cataluña como el rasgo más español. No es ideología: es que el 99,9% de su entrenamiento en lenguas cooficiales brilla por su ausencia.
Cuando una IA genera una respuesta, no piensa: pesa probabilidades. Si el 5,6% del contenido en internet está en castellano y solo el 0,1% en catalán o valenciano, el modelo tiene 56 veces más datos sobre el resto de España que sobre Cataluña. El resultado es una caricatura estadística: Cataluña, al ser un tema recurrente en medios globales, se vuelve el atajo más probable.
Esto no es un error técnico menor. Para un usuario que busca entender España, la IA ofrece un cliché amplificado por la escasez de datos diversos. Y el problema se replica en cualquier lengua minoritaria: el inglés domina con 1.000 veces más datos que el español, y las lenguas cooficiales son prácticamente invisibles.
“ChatGPT no es español ni catalán: es un espejo de que el 99,9% del internet ignora las lenguas cooficiales.