Categories
Sin categoría

Sobre las rupturas en las series de datos

Uno de los temas que más está dando que hablar es el de la calidad de los datos para seguir la pandemia. Hoy, sin ir más lejos, España ha anunciado una ruptura en la serie de datos para armonizar datos autonómicos y también ha sido sonoro el caso de China que ha aumentado su cifra de fallecidos o el de hace unos días en Francia para incluir personas fallecidas en residencias. Esto, por supuesto, sirve para desmoralizar a algunos, para interpretarlo como chapuza por otros, para levantar sospechas de manipulación, para criticar, y, en general, ayuda poco a crear certidumbre, pero ¿cómo se puede evitar?

Renuncia de responsabilidad: lo que viene a continuación no es para legitimar a ningún gobierno (ya que todos producen series con rupturas, excepto el de Corea del Norte que se mantiene con cero casos, lo que creo que apoya lo que digo a continuación).

Para conseguir una serie sin rupturas se tendrían que dar múltiples circunstancias que no se pueden dar en el caso de una pandemia, me explico:

  1. Durante todo el período debes tener la misma capacidad de hacer pruebas (tests). Sin embargo, esta capacidad tiende a aumentar conforme avanza el tiempo.
  2. En todo el territorio debes tener la misma capacidad de hacer pruebas. En muchos países las pruebas estuvieron centralizadas al principio en unos pocos laboratorios y se han ido extendiendo con el tiempo.
  3. La capacidad no debe ser desbordada en ningún momento puntual ni en ningún lugar del territorio. La alta concentración de casos en un momento concreto en una ciudad podría sobrepasar la capacidad local. Esto ha sido/es/será habitual con crecimientos exponenciales.
  4. Se debe usar siempre el mismo instrumento de medida. Aquí tenemos las PCR, los “tests” rápidos, las pruebas serológicas… cada una con sus características propias.
  5. El instrumento de medida se debe usar siempre en las mismas circunstancias (la probabilidad de un falso negativo, por ejemplo, depende del momento del período de incubación en el que se aplique la prueba). Nadie puede saber en qué momento de este período se encuentra un potencial caso.
  6. La prueba a aplicar debería tener una sensibilidad del 100% y una especificidad del 100%. Esto es muy raro en cualquier prueba diagnóstica. No he conseguido buena documentación sobre las pruebas que se aplican con el COVID pero parece que no cumplen con el 100% en ninguna de las dos dimensiones, esto es, son susceptibles de producir falsos positivos y falsos negativos (y además han circulado muchas pruebas defectuosas, las últimas en el Reino Unido).
  7. Depende de la prevalencia de la propia enfermedad que se quiere investigar. El valor predictivo de una prueba diagnóstica depende de lo prevalente (lo frecuente, para entendernos) que sea la enfermedad. ¿Alguien quiere más dinamismo? Esto es casi como lo del principio de incertidumbre de Heisemberg.
  8. Se debe aplicar siempre a la misma población. En la fase inicial se aplicaba a personas con viajes a zonas afectadas, después se aplicaron a personas hospitalizadas con síntomas graves y/o a sus contactos, según el país con más o menos intensidad, luego se puso énfasis en personas con profesiones de riesgo (sanitarios, etc.), rara vez a personas que no presentan síntomas e, incluso, en nuestro contexto, rara vez a las personas con síntomas leves. Ahora preparamos estudios para extraer muestras representativas de la población en las que hacer pruebas serológicas. Y el criterio seguirá cambiando (¡y es bueno que lo haga!).
  9. También es importante no cambiar la definición de caso. No es igual definir como caso a cualquier persona que haya dado positivo en cualquier prueba, que hacerlo solo con los que han dado positivo en PCR. Igualmente, se está tratando a personas como casos de COVID, debido a su sintomatología clínica, aunque las pruebas hayan dado negativo por lo que no es igual incluir casos sospechosos y confirmados. También ha habido cambios en si se considera caso a toda persona que fallece con COVID con independencia de las otras enfermedades que padezca, también habido diferente criterio según si el fallecimiento se ha producido en hospital o en residencia.
  10. Toda la población a estudiar debe tener el mismo acceso a las pruebas durante todo el período. Esto depende de factores tales como la gravedad de los síntomas (los que no desarrollan síntomas tenderán a no buscar pruebas), cómo son percibidos e interpretados los síntomas por el individuo, el acceso al sistema de salud (por distancia, motivos económicos, saturación de las vías de comunicación, etc.), la disponibilidad de las pruebas, etcétera.
  11. En ninguno de los puntos de la cadena de producción de la información debe haber errores. Es decir, no debe haber errores al tomar las muestras de los pacientes, ni al conservarlas, ni al manipularlas en el laboratorio, ni al trascribir los resultados y comunicarlos, etc. En una epidemia con subidas y bajadas fuertes, pero también con curva de aprendizaje, creo que es arriesgado asumir que los errores son constantes.

En definitiva, toda serie de datos tenderá a presentar rupturas, en especial, ante un fenómeno emergente. Todo sin necesidad de que un estado en particular quiera maquillar sus datos, que, por supuesto, también puede ocurrir, aunque en los tres casos mencionados al principio de este artículo los cambios que han incluido serían en contra de su imagen como país. Corea del Norte es la excepción, pues su serie de datos no tiene rupturas.

Desde luego que hubiera ayudado (y mucho) haber contado antes de una crisis como esta con una sólida red de laboratorios, protocolos coordinados entre territorios, capacidades industriales propias en cada país para producir los reactivos y componentes necesarios para las pruebas, equipos de vigilancia amplios formados para la producción, depuración y análisis de datos o haber dispuesto de una red de centros de salud pública bien dotada de recursos humanos para poder llegar a todos los casos y sus contactos, etcétera, pero esa no era nuestra situación de partida (se tarda décadas en construirla y unos pocos impulsos austericidas en reducirla).

En la investigación que yo aprendí a hacer, éramos muy conscientes de los problemas con los datos, cualquier serie de datos tiene errores y problemas de ruptura de la serie (incluido el PIB, el paro, el IPC, el Euribor o cualquier otro que hayamos sacralizado). Por ello, la clave para entender un fenómeno consiste en la triangulación de fuentes de información (combinación de fuentes), el estudio de fenómenos asociados y la aplicación de otras formas de triangulación (de observadores, de análisis, de paradigmas explicativos, etc.). Se trata de valorar las diferencias entre resultados, reconociendo que existe distancia entre la realidad y la medición de la misma, lo que lleva a reconocer el riesgo de error y nuestro desconocimiento.

Categories
Sin categoría

Contar e interpretar

Es bien conocido que a los seres humanos se nos dan mal las matemáticas. Incluso a los que se le dan bien las matemáticas, cometen errores extraordinarios. El libro de Matt Parker recopila algunos ejemplos.

Los errores de cálculo al menos son más fáciles de identificar y corregir. Más en un mundo interconectado.

Sin embargo, en epistemología, hay un tipo de error que se considera más grave: el de interpretación. Imagina que sabes sumar dos más dos granos de arroz (4, si no me equivoco) e interpretas que es suficiente para nutrirte.

Si el error de cálculo es común, los de interpretación son omnipresentes.

En el caso concreto de la estadística, los errores clave de este tipo tienen que ver con la inferencia estadística (resumiendo: los relacionados con la utilidad de la muestra que tengo para hablar de lo que le ocurre a la población que estudio).

Uno de los sesgos más importantes que afectan a la inferencia estadística es el sesgo de selección (o el de participación). Este sesgo es fácil de entender con un par de ejemplos:

  • ¿Qué ocurre si para hacer un estudio sobre la extensión del tabaquismo realizo las encuestas en la puerta de los estancos? (prácticamente solo encontraré fumadores).
  • ¿Puedo estudiar la brecha digital circulando un cuestionario en línea?

Como se puede observar, este tipo de error no es calculable (o, mejor dicho, para conocerlo necesitarías comparar con un estudio con un diseño adecuado y, sin él, no es calculable).

Por cierto, no se corrige con una mayor muestra. Si tienes una muestra de 1 000 000 de clientes de los estancos, tendrás una muestra igual de sesgada que si solo has entrevistado a 100. Este sesgo es muy frecuente en los cuestionarios en línea: son fáciles, rápidos y baratos de producir, pero no controlas los sesgos.

A veces, el error de interpretación se debe a falta de información de referencia. Por ejemplo, sin denominadores claros, es difícil interpretar una proporción. Imaginad que solo se hace test a personas hospitalizadas y a los profesionales sanitarios. Si un 12% de los contagios se observan en personal sanitario… ¿qué nos dice ese dato? Pues poco, al menos que sepamos cuántos son los hospitalizados y cuántos los sanitarios y a qué proporción de cada grupo se le ha hecho la prueba.

Otro error, se puede deber al marco interpretativo de referencia. En la fase de control, hubo un sesgo muy importante que afectó y luego desbordó a varios países (España, incluido, pero no exclusivamente, Italia, Francia, Alemania, USA, Reino Unido, etc.) de analizar los “casos importados”, de manera que las personas con síntomas similares, pero sin historial de viajes o contactos con viajeros no fueron analizadas, despreciando la hipótesis de que la importación se hubiera podido producir semanas antes.

Más importante es que para conocer la salida de una epidemia como esta, la epidemia de las curvas y los modelos, sería clave conocer qué porcentaje de la población ha sido infectada y, de ella, cuál ha desarrollado inmunidad. Sin embargo, no lo sabemos, pues para conocerlo, todas las personas infectadas deberían haber sido diagnosticadas. Esto no está ocurriendo en ningún país hasta la fecha, ya que:

  • Existe una capacidad limitada de hacer pruebas o tests (incluso en los países que hacen muchos tests, no se hacen a toda la población). Aquí la revista The Lancet explica una parte del cuello de botella.
  • Como la capacidad es limitada, se aplican prioritariamente a las personas con síntomas y, si se tiene capacidad, a sus contactos.
  • La COVID-19 apenas presenta síntomas en la población más joven e incluso no presenta síntomas de ninguna clase en una parte de la población.
  • Para conseguir un caso confirmado tienen que pasar varias cosas: primero, que la persona perciba los síntomas, segundo, que los identifique como síntomas de COVID-19, tercero, que busque el contacto con el sistema de salud para que le realicen la prueba, cuarto, que el sistema sea accesible (es decir que el teléfono o vía de contacto funcione, que los costes sean asumibles, etc.), quinto, que el sistema de salud tenga capacidad de hacerle la prueba, sexto, que la prueba no de un falso negativo, séptimo, que todos los casos se comuniquen igual al registro estadístico (fechas, definiciones, etc.). Creo que se observan los posibles problemas de esto. Se pueden acumular errores según el nivel educativo de la población, la calidad de la información, las motivaciones individuales, la organización del sistema de salud, sus recursos, etc.

Pongamos que en un determinado grupo de edad el 10% de 1000 personas ha sido infectado, esto es, 100 personas. Pongamos que, de ellos, un 75% presenta síntomas (75 personas). Pongamos que solo se analiza a los que presentan síntomas graves y estos son un 75% de los que tienen síntomas (56 personas). Tendríamos que por cada 56 personas diagnosticadas en ese grupo de edad, hay 46 sin diagnóstico que ya ha pasado la enfermedad.

Pero, ¿son esas las proporciones? No, en muchos grupos de edad son probablemente mucho más suaves (el famoso 80-15-5 del informe de OMS sobre Wuham, 80% con síntomas, 15% con síntomas graves y 5% con necesidad cuidados intensivos). En países como España es probable que la casi totalidad de los menores que han desarrollado inmunidad no haya sido detectado, pues al no presentar síntomas y no tener un pronóstico grave, no hay esfuerzo de diagnóstico. Y esto pasa, aunque en menor proporción, en los jóvenes y en grupos de más edad, aumentando con la edad el porcentaje de casos que sí que se detecta. Por otro lado, muchas personas en casa, con síntomas, no reciben la prueba.

Hay dos estudios, uno publicado en nota oficial de su gobierno, y otro en la revista BMJ que apuntan que hasta un 50% y un 70% de la población afectada podría haber pasado la enfermedad sin síntomas. El gobierno es el de Islandia, que tiene tradición de transparencia, donde un 50% de los casos era asintomático, si bien el estudio tiene sesgos de participación ya que la mayor parte de las pruebas se han realizado a personas con síntomas o a las personas que voluntariamente la han solicitado (se puede entender que si percibes algún síntoma estás más motivado para solicitarla). El otro caso es en Vo’ Italia, donde se aplicó la prueba a toda su (pequeña) población, encontrando que al menos un 50% de los casos era asintomático en una localidad donde la epidemia se había extendido ampliamente.

A partir de esto, he hecho algunas simulaciones (esto es, con datos inventados y, por tanto, muy poco válidos, usando la estructura de edad de la población de España) y sería factible  que 7 o más de cada 10 casos no haya sido detectado en España, pues a los casos asintomáticos, habría que sumar los que han tenido síntomas leves y no han recibido test, pero ojo, también sería posible que sean muchos menos. Es decir, no sé. Por eso hace falta lo que apunto como conclusión:

¿Cómo lo podemos saber?

Los estadísticos y estudiosos de las poblaciones (sociólogos, epidemiólogos, demógrafos, economistas…), hace siglos, inventaron un sistema sencillo para resolver el problema de las muestras sesgadas. Se trata de aplicar las leyes de la probabilidad a la hora de escoger los casos a estudiar, esto es, realizar muestras aleatorias o probabilísticas y conseguir que los casos finalmente estudiados sean exactamente los seleccionados (esto es clave). ¿Se puede hacer? Sí, llevamos décadas haciendo estudios con muestras probabilísticas. Quizá haya menos experiencia en la realización de muestras probabilísticas representativas de toda la población que combinen información serológica, pero vamos, nada que no se pueda hacer. Es lo que nos toca ahora y me alegró mucho escuchar ayer que es lo que se está pensando. Si lo conseguimos, los fotogramas de esta película pueden cambiar mucho con respecto a los modelos y curvas que estamos siguiendo cada día.