Homer y la estadística pública

El 6 de enero de 1994 tuvo lugar un hecho que cambió el mundo de la estadística para siempre: se emitió el episodio 11 de la temporada 5 de Los Simpson, titulado "Homer The Vigilante". En este capítulo, Homer Simpson intenta montar una especie de patrulla ciudadana con lo mejor de cada casa, al más puro estilo Torrente. Después de demostrarse que dicha patrulla se dedicaba más a delinquir que a perseguir delincuentes, Homer es entrevistado en el programa del todoterreno Kent Brockman quien, en un momento dado, le pide explicaciones sobre el hecho de que las cifras de pequeños crímenes en Springfield descendieran un 80% mientras que las de palizas indiscriminadas aumentaran un 900%. La respuesta de Homer todavía resuena en todos los rincones a los que llega la estadística (de hecho, no es raro encontrársela en la caja de comentarios de las publicaciones de quien escribe estas líneas):

"La gente se inventa estadísticas con tal de mostrar algo, y esto lo sabe el 14% de la gente"

Ojo, esto es lo que dice en la versión en español de España. Si viste este capítulo desde Latinoamérica escucharías un 40%, y si lo has visto en versión original notarás que Homer dice algo como "forfty percent", como si quisiera hacerse el interesante sobre algo de lo que no tiene ni idea.
‍

Este simpático y manido gag (junto con una horrorosa imagen creada con IA) fue el elegido para abrir un artículo de El Español del 14 de septiembre en el que se lanzan todo tipo de críticas sobre la actividad de varios institutos y sistemas estadísticos de España, fundamentalmente el Instituto Nacional de Estadística (INE), el Centro de Investigaciones Sociológicas (CIS) y, en la práctica, el Portal Estadístico de Criminalidad del Ministerio del Interior. Lo cierto es que el artículo sintetiza bastante bien las críticas realizadas a dichos organismos en los últimos años, por lo que supone la ocasión perfecta para analizar en este espacio todo el ruido mediático, análisis que considero bastante necesario. Hay que decirlo más: la estadística pública está en el punto de mira y nos afecta más de lo que pensamos.
‍

El INE es un organismo adscrito en última instancia al Ministerio de Economía que se encarga de elaborar las estadísticas nacionales más importantes, desde el porcentaje de hogares bajo el umbral de la pobreza hasta la contabilidad de todos los bienes y servicios producidos en el país, pasando por el Índice de Precios de Consumo (IPC) con el que se mide la inflación y que utilizan, por ejemplo, los caseros como referencia para subirte el alquiler cada año… en el mejor de los casos, claro. El artículo carga las tintas contra el INE en base al (bastante desagradable) episodio que terminó con la dimisión en 2022 de su director, Juan Manuel Rodríguez Poo, debido a las dudas que se estaban sembrando sobre la medición del Producto Interior Bruto (PIB) y el propio IPC, hasta el punto de que la Asociación de Estadísticos Superiores del Estado emitió un comunicado advirtiendo de que se estaba atentando contra la imagen del INE y su independencia. Sin embargo, el artículo va más allá e insinúa que "el gobierno metió mano en el IPC", que la nueva directora Elena Manzanera cambió las ponderaciones de los productos de la cesta de la compra (es decir, cuánto influye cada uno al calcular la subida de precios), dando a entender que lo hizo a su gusto, y metiendo en el saco la corrección que se hizo de las cifras del PIB el año pasado. Esta corrección, por cierto, también propició titulares rimbombantes como "El error estadístico más caro de la historia”. Así contado puede parecer que en el INE se dieron cuenta del “error” por casualidad mientras miraban un Excel, pero en realidad se trataba de una revisión rutinaria que se realiza cada cinco años por todos los institutos de estadística europeos precisamente para asegurar la fiabilidad de las cifras y mejorar la calidad de los datos, y normalmente esta revisión no conlleva grandes modificaciones.
‍

Tal es la cantidad de imprecisiones del artículo que el INE se vio obligado a emitir una nota de dos páginas como respuesta. No hace falta añadir mucho más, salvo incidir en que el INE es un organismo independiente que elabora muchas de sus estadísticas de forma armonizada con el resto de la Unión Europea siguiendo las normas de la oficina europea de estadística: el Eurostat. La metodología de los indicadores que produce depende de las normas propuestas por dicha oficina, y no de lo que diga el director del instituto ni mucho menos un cargo político. Todo esto publicando la metodología de todas sus operaciones y los microdatos. Cualquiera puede ir a la web del INE y comprobar lo que se hace, cómo se hace y en base a qué datos.
‍

Respecto al CIS, el artículo tampoco añade nada que no sepamos: la deriva, ya no sólo en la estimación de voto sino en algunas decisiones relativas a preguntas que se incluyen o temática de alguna que otra encuesta realizada, es indefendible. Pero sí que cabe hacer algunos matices. Para empezar: la famosa “cocina” a la que el artículo alude una y otra vez en todas las secciones de forma claramente peyorativa, si se hace bien (esto es lo importante), es buena, necesaria, y de hecho se hace en todas las encuestas. El motivo es sencillo: es prácticamente imposible tener una encuesta libre de errores ajenos al muestreo, dado que la gente puede elegir no participar, o que la lista de teléfonos de la que hemos tirado para contactar con las personas seleccionadas podría dejarse fuera a una parte de la población. Estos errores se corrigen en la parte de la estimación dando más peso a los perfiles menos representados y menos peso a los más sobrerrepresentados, así como prediciendo qué habría respondido la persona encuestada en las preguntas que se haya dejado en blanco, entre otros muchos procedimientos¹. El problema es que actualmente la cocina del CIS no parece estar corrigiendo los sesgos adecuadamente; de hecho, es bastante común que, cuando se publica un barómetro, aparezcan a los pocos días estimaciones alternativas tanto en prensa como en redes basadas en los propios datos del CIS pero aplicando métodos diferentes, las cuales se acercan más a las cifras del resto de empresas encuestadoras.
‍

Por otra parte, se menciona que el CIS también ajusta el “método de muestreo”. Es difícil determinar si se refieren al diseño muestral (el muestreo estratificado es la norma desde hace años, con o sin Tezanos al mando) o al modo de administración de los cuestionarios. Este último punto es relevante: desde la pandemia, el CIS pasó de realizar las entrevistas cara a cara a realizarlas por teléfono, lo cual puede suponer que personas con mayor nivel educativo y mayor clase social queden sobrerrepresentadas. Este problema no lo tiene sólo el CIS, ya que es común a la mayoría de las encuestas telefónicas (junto con la acuciante falta de respuesta: muy poca gente les coge el teléfono a números desconocidos), pero sí que es verdad que podría estar afectando al sesgo de las estimaciones y se ha hablado muchísimo menos de este tema en comparación al culebrón de la estimación de voto. El efecto de este cambio de modo de administración, por cierto, se podría corregir con una buena “cocina”.
‍

Además, el artículo asegura que “tras 40 años de estabilidad, el CIS cambió el sistema”. Está claro que han cambiado el sistema, pero no tengo claro que se pueda asegurar que ha habido 40 años de estabilidad en el método de estimación, entre otras cosas porque dicho método siempre fue desconocido. El CIS no daba ninguna pista sobre la metodología usada para sacar las estimaciones de voto. Sólo contábamos con la ingeniería inversa. Desde luego, tampoco es que ahora sea completamente cristalina (en este aspecto creo que el catalán Centre d’Estudis de Opinió subiendo todos sus datos y análisis a GitHub marca el camino a seguir), pero al menos tenemos una ligera idea de qué hace y, sobre todo, qué no hace el método de estimación. Antes, ni eso.
‍

Finalmente, es de justicia comentar que el CIS, a pesar de todos los problemas que ha sufrido (y sufrirá), sigue siendo uno de los institutos de referencia en lo que se refiere a opinión pública en España. Los microdatos y cuestionarios de todos sus estudios también se hacen públicos, y en ellos precisamente reside el valor de la actividad que realizan, ya que es algo que muy pocas encuestadoras hacen. Por esto mismo hay que seguir exigiendo que mantenga el rigor y la calidad de sus datos, pero sin perder de vista que las encuestas que producen siguen siendo útiles.
‍

En cuanto a las estadísticas de criminalidad, el artículo hace una descripción sobrecogedora de la realidad, con los delitos de todo tipo subiendo desde 2018 y denunciando que el Ministerio del Interior “cocina” las estadísticas sin dar muchos más detalles más allá de que un delito grave cuenta igual que uno leve (?) y que ahora la ciberdelincuencia está en un epígrafe separado de la convencional pese a que ambas siguen siendo igual de públicas, cualquiera puede inspeccionarlas igual que antes, y los balances de criminalidad siguen incluyendo la cifra total de todas las infracciones penales tal y como se ha hecho desde 2017. Sobre esta parte, cabe destacar dos cosas:

El artículo habla del crecimiento de varios tipos de delitos entre 2017 y 2024, pero con un pequeño truco: en lugar de mostrar la evolución de los delitos en todos los años desde 2017 a 2024 (que sería lo lógico), tan sólo muestra el dato de 2017, el dato de 2024, y la evolución entre ambos puntos se interpola en una línea recta, ignorando los datos comprendidos entre ambos años. Cuando hablamos de datos de criminalidad que se dan con baja frecuencia (p. ej. homicidios o secuestros), la imagen real puede ser muy diferente a la de esa evolución perfectamente lineal. Por ejemplo, la evolución de los homicidios consumados va dando tumbos respecto a la diferencia interanual: de 2016 a 2017 aumentan un 4%, luego disminuyen un 6%, luego aumentan un 14%, luego disminuyen un 10%... y siguen dando tumbos hasta 2024². Con los secuestros, tres cuartos de lo mismo. De hecho, si en lugar de coger 2017 cogemos 2016 (donde se denunciaron 94 secuestros), el aumento en lugar de ser del 52% en 8 años sería del 12% en 9 años. En series con tanta variabilidad, comparar dos años concretos elegidos de forma más o menos arbitraria nos dice bastante poco sobre la evolución real del riesgo por este tipo de delito. Esta variabilidad que presentan los fenómenos con frecuencias bajas queda muy bien ilustrada en el problema de los dos hospitales de Kahneman y Tversky.
Las estadísticas de criminalidad no miden los delitos que realmente se han producido, tal y como menciona el propio artículo cuando habla de la “cifra negra”. Miden los hechos que se han conocido (es decir, denunciados) o, si nos vamos a las estadísticas del INE, el número de condenados. Por el camino lógicamente actúan tanto los sesgos que pueda tener el sistema judicial como las cuestiones actitudinales. Esto último es particularmente relevante en tipologías en las que el artículo hace mucho hincapié como son las relacionadas con la violencia sexual: el aumento de la conciencia sobre este tipo de delitos en los últimos años ha podido provocar que lo que antes no se percibía (y por tanto no se denunciaba) como agresión sexual ahora sí se haga y por tanto provoque un aumento en las estadísticas de tal manera que no se corresponda con la incidencia real. Por cierto, sobre la violencia de género sí que disponemos de encuestas de victimización; concretamente, la Macroencuesta de Violencia contra la Mujer realizada por la Delegación del Gobierno contra la Violencia de Género en los años 2015 y 2019. Entre ambas ediciones, el porcentaje de mujeres que han sufrido violencia sexual en los doce meses anteriores a la encuesta es prácticamente el mismo (1,9 y 1,8% respectivamente), mientras que el de violencia física baja del 3% de 2015 al 1,9% de 2019³, diferencia que muy probablemente entra dentro de los márgenes de error. Entre esos dos años el número de hechos conocidos de delitos contra la libertad sexual notificado por Interior fue aumentando con tasas interanuales de entre el 7 y el 17%.

Todo lo que se ha expuesto aquí no significa que se estén “cocinando” los datos de forma maquiavélica para mostrar una realidad que no es. Simplemente, los datos e indicadores tienen limitaciones que con el tiempo se intentan paliar o corregir. Esta idea es difícil de tragar, pero supone el día a día de quienes trabajamos con la estadística: no existe el indicador perfecto ni existe la estadística perfecta. Da igual que salga de una encuesta con sus errores de muestreo y ajenos a él, da igual que salga de un censo con sus duplicidades y sus errores de cobertura, da igual que salga de un gran volumen de datos (AKA Big Data) seleccionados según lo convenientes que sean. Las utopías estadísticas no existen, y la mayoría de las veces no tiene que ver con que haya una mente malvada intentando manipular a la población. Ya saben: nunca atribuyas a la maldad lo que se explica adecuadamente por la estupidez (o, en este caso, por las limitaciones metodológicas).
‍

Esta ofensiva sobre las estadísticas oficiales no es nueva. Hace años ya pudimos presenciar la absurda polémica de la estadística experimental del INE utilizando datos de antenas móviles, de lo que se dedujo que iban a tener acceso a nuestros datos personales e incluso se explicaba desde programas de máxima audiencia cómo evitar que el INE accediese a nuestro móvil (sic), cuando en realidad sólo iban a disponer de matrices origen-destino con el número de dispositivos yendo de un código postal a otro (sólo si son más de diez). Por cierto, esa estadística lleva ya 5 años en marcha y todavía nadie se ha reconocido a sí mismo viajando a algún lado a través de los mapas. Si alguien tiene dudas, cabe recordar que el INE se rige bajo una legislación para preservar el secreto estadístico y que todos sus datos son anonimizados. También tuvimos nuestra ración doble durante el COVID, especialmente durante ese confinamiento en el que cada mañana nos levantábamos con un artículo en prensa quejándose de lo mal que estaban los datos que nos daba el Ministerio de Sanidad, pero esto prefiero dejarlo para otra ocasión.
‍

Siempre debemos mirar a los datos con sentido crítico e identificar los posibles errores de muestreo o (sobre todo) ajenos al muestreo de las estadísticas que vemos y utilizamos en nuestro día a día. Eso por descontado. Y se tiene que hacer desde el conocimiento y la evidencia, y no siguiendo estrategias que nos recuerdan a otras un poco más siniestras que se están llevando a cabo actualmente en otros países. Sin estadística pública de calidad no hay democracia, y necesitamos redoblar esfuerzos en estudiar y trabajar más la estadística y su divulgación para que este mensaje prevalezca sobre el ruido.

‍

---

¹Para más información sobre lo que se hace en una “cocina” de este tipo, recomiendo el libro “La cocina electoral en España: la estimación de voto en tiempos de incertidumbre” (Los Libros de la Catarata, 2019) donde se explica de forma muy divulgativa.

²Los datos de los balances de criminalidad utilizados para este cálculo se pueden localizar aquí.

³Fuentes: 1) Macroencuesta de Violencia contra la Mujer 2015, página 304. 2) Resumen ejecutivo de la Macroencuesta de Violencia contra la Mujer 2019, página 2.

"La gente se inventa estadísticas con tal de mostrar algo, y esto lo sabe el 14% de la gente"

El artículo habla del crecimiento de varios tipos de delitos entre 2017 y 2024, pero con un pequeño truco: en lugar de mostrar la evolución de los delitos en todos los años desde 2017 a 2024 (que sería lo lógico), tan sólo muestra el dato de 2017, el dato de 2024, y la evolución entre ambos puntos se interpola en una línea recta, ignorando los datos comprendidos entre ambos años. Cuando hablamos de datos de criminalidad que se dan con baja frecuencia (p. ej. homicidios o secuestros), la imagen real puede ser muy diferente a la de esa evolución perfectamente lineal. Por ejemplo, la evolución de los homicidios consumados va dando tumbos respecto a la diferencia interanual: de 2016 a 2017 aumentan un 4%, luego disminuyen un 6%, luego aumentan un 14%, luego disminuyen un 10%... y siguen dando tumbos hasta 2024². Con los secuestros, tres cuartos de lo mismo. De hecho, si en lugar de coger 2017 cogemos 2016 (donde se denunciaron 94 secuestros), el aumento en lugar de ser del 52% en 8 años sería del 12% en 9 años. En series con tanta variabilidad, comparar dos años concretos elegidos de forma más o menos arbitraria nos dice bastante poco sobre la evolución real del riesgo por este tipo de delito. Esta variabilidad que presentan los fenómenos con frecuencias bajas queda muy bien ilustrada en el problema de los dos hospitales de Kahneman y Tversky.
Las estadísticas de criminalidad no miden los delitos que realmente se han producido, tal y como menciona el propio artículo cuando habla de la “cifra negra”. Miden los hechos que se han conocido (es decir, denunciados) o, si nos vamos a las estadísticas del INE, el número de condenados. Por el camino lógicamente actúan tanto los sesgos que pueda tener el sistema judicial como las cuestiones actitudinales. Esto último es particularmente relevante en tipologías en las que el artículo hace mucho hincapié como son las relacionadas con la violencia sexual: el aumento de la conciencia sobre este tipo de delitos en los últimos años ha podido provocar que lo que antes no se percibía (y por tanto no se denunciaba) como agresión sexual ahora sí se haga y por tanto provoque un aumento en las estadísticas de tal manera que no se corresponda con la incidencia real. Por cierto, sobre la violencia de género sí que disponemos de encuestas de victimización; concretamente, la Macroencuesta de Violencia contra la Mujer realizada por la Delegación del Gobierno contra la Violencia de Género en los años 2015 y 2019. Entre ambas ediciones, el porcentaje de mujeres que han sufrido violencia sexual en los doce meses anteriores a la encuesta es prácticamente el mismo (1,9 y 1,8% respectivamente), mientras que el de violencia física baja del 3% de 2015 al 1,9% de 2019³, diferencia que muy probablemente entra dentro de los márgenes de error. Entre esos dos años el número de hechos conocidos de delitos contra la libertad sexual notificado por Interior fue aumentando con tasas interanuales de entre el 7 y el 17%.

‍

---

²Los datos de los balances de criminalidad utilizados para este cálculo se pueden localizar aquí.

³Fuentes: 1) Macroencuesta de Violencia contra la Mujer 2015, página 304. 2) Resumen ejecutivo de la Macroencuesta de Violencia contra la Mujer 2019, página 2.

Hay que decirlo más: la estadística pública está en el punto de mira y nos afecta más de lo que pensamos.

Más de Picanúmeros

Los jóvenes, ese saco de boxeo

A finales de junio de 2025 fuimos obsequiados con un titular que, de un tiempo a esta parte, se ha convertido en cíclico: los jóvenes son cada vez más machistas. Esta conclusión procede del último Informe Juventud en España (IJE)

Así muere la estadística

Es domingo por la noche y entro a Instagram. La primera publicación que veo es un reel advirtiendo de que las estadísticas sobre las apps de citas son mentira. Al oír (y leer) la palabra “estadística” se me activa el radar.

Más en Datos

A finales de junio de 2025 fuimos obsequiados con un titular que, de un tiempo a esta parte, se ha convertido en cíclico: los jóvenes son cada vez más machistas. Esta conclusión procede del último Informe Juventud en España (IJE)

Es domingo por la noche y entro a Instagram. La primera publicación que veo es un reel advirtiendo de que las estadísticas sobre las apps de citas son mentira. Al oír (y leer) la palabra “estadística” se me activa el radar.