19 de mayo de 2026
3 min lectura
Los pesos de Qwen 3.5 esconden listas negras políticas
Un análisis revela listas de palabras prohibidas incrustadas en los pesos del modelo Qwen 3.5, demostrando censura política a nivel de arquitectura.
Los pesos de Qwen 3.5 esconden listas negras políticas
Un análisis de los pesos del modelo Qwen 3.5 revela listas de palabras prohibidas incrustadas directamente en sus parámetros, demostrando que la censura política no es solo un filtro superficial, sino parte de la arquitectura del modelo.
Por qué importa
Cuando la censura está en los pesos, no hay jailbreak que la elimine por completo. Cualquier usuario o empresa que implemente Qwen 3.5 hereda estas restricciones sin posibilidad de desactivarlas sin reentrenar. Esto afecta a desarrolladores que buscan transparencia y a usuarios en contextos donde la libertad de expresión es crítica.
Qué dice el contexto
- El investigador extrajo listas de tokens prohibidos directamente de los pesos del modelo, no de un filtro externo.
- Las listas incluyen nombres de figuras políticas, términos de movimientos sociales y palabras relacionadas con eventos históricos sensibles.
- El modelo fue entrenado para rechazar preguntas que contengan estos tokens, incluso si se reformulan.
- La censura es específica del contexto político chino, pero también afecta a temas globales como derechos humanos.
- Otros modelos de la misma familia (Qwen 2.5) muestran patrones similares, lo que sugiere una práctica sistemática.
Lo que puedes hacer
- Si usas Qwen 3.5, prueba con prompts que incluyan términos políticamente sensibles para identificar sesgos ocultos.
- Considera alternativas de código abierto con políticas de censura documentadas o sin censura, como Llama 3 o Mistral.
- Exige a los proveedores de modelos que revelen si hay listas negras en los pesos y cómo afectan a las respuestas.
En una frase
“Los pesos de Qwen 3.5 contienen listas negras políticas incrustadas: la censura no es un filtro, es parte del modelo.