LLMs y control estatal de medios

LLMs y control estatal de medios#

¿De qué idiomas aprenden los modelos grandes de lenguaje? Bing et al. (2026, Nature) auditan 45 idiomas en 36 países y encuentran un patrón inquietante: los LLMs comerciales tienden a sonar más pro-gobierno en idiomas de países con menos libertad de prensa. Este Lab replica el mapa observacional que abre el estudio — sin pretender resolver la pregunta causal, que el paper sostiene con un experimento de fine-tuning aparte.

El hallazgo: El chino representa el 5.30% de Common Crawl (base de entrenamiento más usada por los LLMs). El noruego, el 0.33%. China y Noruega están en extremos opuestos del puntaje de libertad de prensa de RSF (23 vs 92 sobre 100). Pero la correlación cruda en el dataset (Spearman ρ=0.215, p=0.156) NO es significativa — y, si quitamos el chino, el patrón se invierte: más libertad de prensa se asocia con MÁS peso en Common Crawl.

Gráfica clave#

Distribución de los 45 idiomas auditados

Reproducir#

Abrir en Colab

O localmente:

pip install pandas matplotlib numpy scipy
jupyter execute notebook.ipynb

Datos#

  • datos/idiomas_pais_rsf.csv — 45 idiomas (ISO 639-3) × 11 columnas: país asignado, score RSF de libertad de prensa, categoría de situación, porcentaje en Common Crawl, población hablante.

  • datos/prompts_auditoria.csv — 261 prompts bilingües (inglés + chino) usados en la auditoría de modelos comerciales: 8 países foco × 3 tipos (líderes, instituciones, países).