Contar e interpretar – El microscopio social

Es bien conocido que a los seres humanos se nos dan mal las matemáticas. Incluso a los que se le dan bien las matemáticas, cometen errores extraordinarios. El libro de Matt Parker recopila algunos ejemplos.

Los errores de cálculo al menos son más fáciles de identificar y corregir. Más en un mundo interconectado.

Sin embargo, en epistemología, hay un tipo de error que se considera más grave: el de interpretación. Imagina que sabes sumar dos más dos granos de arroz (4, si no me equivoco) e interpretas que es suficiente para nutrirte.

Si el error de cálculo es común, los de interpretación son omnipresentes.

En el caso concreto de la estadística, los errores clave de este tipo tienen que ver con la inferencia estadística (resumiendo: los relacionados con la utilidad de la muestra que tengo para hablar de lo que le ocurre a la población que estudio).

Uno de los sesgos más importantes que afectan a la inferencia estadística es el sesgo de selección (o el de participación). Este sesgo es fácil de entender con un par de ejemplos:

¿Qué ocurre si para hacer un estudio sobre la extensión del tabaquismo realizo las encuestas en la puerta de los estancos? (prácticamente solo encontraré fumadores).
¿Puedo estudiar la brecha digital circulando un cuestionario en línea?

Como se puede observar, este tipo de error no es calculable (o, mejor dicho, para conocerlo necesitarías comparar con un estudio con un diseño adecuado y, sin él, no es calculable).

Por cierto, no se corrige con una mayor muestra. Si tienes una muestra de 1 000 000 de clientes de los estancos, tendrás una muestra igual de sesgada que si solo has entrevistado a 100. Este sesgo es muy frecuente en los cuestionarios en línea: son fáciles, rápidos y baratos de producir, pero no controlas los sesgos.

A veces, el error de interpretación se debe a falta de información de referencia. Por ejemplo, sin denominadores claros, es difícil interpretar una proporción. Imaginad que solo se hace test a personas hospitalizadas y a los profesionales sanitarios. Si un 12% de los contagios se observan en personal sanitario… ¿qué nos dice ese dato? Pues poco, al menos que sepamos cuántos son los hospitalizados y cuántos los sanitarios y a qué proporción de cada grupo se le ha hecho la prueba.

Otro error, se puede deber al marco interpretativo de referencia. En la fase de control, hubo un sesgo muy importante que afectó y luego desbordó a varios países (España, incluido, pero no exclusivamente, Italia, Francia, Alemania, USA, Reino Unido, etc.) de analizar los “casos importados”, de manera que las personas con síntomas similares, pero sin historial de viajes o contactos con viajeros no fueron analizadas, despreciando la hipótesis de que la importación se hubiera podido producir semanas antes.

Más importante es que para conocer la salida de una epidemia como esta, la epidemia de las curvas y los modelos, sería clave conocer qué porcentaje de la población ha sido infectada y, de ella, cuál ha desarrollado inmunidad. Sin embargo, no lo sabemos, pues para conocerlo, todas las personas infectadas deberían haber sido diagnosticadas. Esto no está ocurriendo en ningún país hasta la fecha, ya que:

Existe una capacidad limitada de hacer pruebas o tests (incluso en los países que hacen muchos tests, no se hacen a toda la población). Aquí la revista The Lancet explica una parte del cuello de botella.
Como la capacidad es limitada, se aplican prioritariamente a las personas con síntomas y, si se tiene capacidad, a sus contactos.
La COVID-19 apenas presenta síntomas en la población más joven e incluso no presenta síntomas de ninguna clase en una parte de la población.
Para conseguir un caso confirmado tienen que pasar varias cosas: primero, que la persona perciba los síntomas, segundo, que los identifique como síntomas de COVID-19, tercero, que busque el contacto con el sistema de salud para que le realicen la prueba, cuarto, que el sistema sea accesible (es decir que el teléfono o vía de contacto funcione, que los costes sean asumibles, etc.), quinto, que el sistema de salud tenga capacidad de hacerle la prueba, sexto, que la prueba no de un falso negativo, séptimo, que todos los casos se comuniquen igual al registro estadístico (fechas, definiciones, etc.). Creo que se observan los posibles problemas de esto. Se pueden acumular errores según el nivel educativo de la población, la calidad de la información, las motivaciones individuales, la organización del sistema de salud, sus recursos, etc.

Pongamos que en un determinado grupo de edad el 10% de 1000 personas ha sido infectado, esto es, 100 personas. Pongamos que, de ellos, un 75% presenta síntomas (75 personas). Pongamos que solo se analiza a los que presentan síntomas graves y estos son un 75% de los que tienen síntomas (56 personas). Tendríamos que por cada 56 personas diagnosticadas en ese grupo de edad, hay 46 sin diagnóstico que ya ha pasado la enfermedad.

Pero, ¿son esas las proporciones? No, en muchos grupos de edad son probablemente mucho más suaves (el famoso 80-15-5 del informe de OMS sobre Wuham, 80% con síntomas, 15% con síntomas graves y 5% con necesidad cuidados intensivos). En países como España es probable que la casi totalidad de los menores que han desarrollado inmunidad no haya sido detectado, pues al no presentar síntomas y no tener un pronóstico grave, no hay esfuerzo de diagnóstico. Y esto pasa, aunque en menor proporción, en los jóvenes y en grupos de más edad, aumentando con la edad el porcentaje de casos que sí que se detecta. Por otro lado, muchas personas en casa, con síntomas, no reciben la prueba.

Hay dos estudios, uno publicado en nota oficial de su gobierno, y otro en la revista BMJ que apuntan que hasta un 50% y un 70% de la población afectada podría haber pasado la enfermedad sin síntomas. El gobierno es el de Islandia, que tiene tradición de transparencia, donde un 50% de los casos era asintomático, si bien el estudio tiene sesgos de participación ya que la mayor parte de las pruebas se han realizado a personas con síntomas o a las personas que voluntariamente la han solicitado (se puede entender que si percibes algún síntoma estás más motivado para solicitarla). El otro caso es en Vo’ Italia, donde se aplicó la prueba a toda su (pequeña) población, encontrando que al menos un 50% de los casos era asintomático en una localidad donde la epidemia se había extendido ampliamente.

A partir de esto, he hecho algunas simulaciones (esto es, con datos inventados y, por tanto, muy poco válidos, usando la estructura de edad de la población de España) y sería factible que 7 o más de cada 10 casos no haya sido detectado en España, pues a los casos asintomáticos, habría que sumar los que han tenido síntomas leves y no han recibido test, pero ojo, también sería posible que sean muchos menos. Es decir, no sé. Por eso hace falta lo que apunto como conclusión:

¿Cómo lo podemos saber?

Los estadísticos y estudiosos de las poblaciones (sociólogos, epidemiólogos, demógrafos, economistas…), hace siglos, inventaron un sistema sencillo para resolver el problema de las muestras sesgadas. Se trata de aplicar las leyes de la probabilidad a la hora de escoger los casos a estudiar, esto es, realizar muestras aleatorias o probabilísticas y conseguir que los casos finalmente estudiados sean exactamente los seleccionados (esto es clave). ¿Se puede hacer? Sí, llevamos décadas haciendo estudios con muestras probabilísticas. Quizá haya menos experiencia en la realización de muestras probabilísticas representativas de toda la población que combinen información serológica, pero vamos, nada que no se pueda hacer. Es lo que nos toca ahora y me alegró mucho escuchar ayer que es lo que se está pensando. Si lo conseguimos, los fotogramas de esta película pueden cambiar mucho con respecto a los modelos y curvas que estamos siguiendo cada día.

2 replies on “Contar e interpretar”

Deja un comentario Cancelar respuesta