Sobre las rupturas en las series de datos

Uno de los temas que más está dando que hablar es el de la calidad de los datos para seguir la pandemia. Hoy, sin ir más lejos, España ha anunciado una ruptura en la serie de datos para armonizar datos autonómicos y también ha sido sonoro el caso de China que ha aumentado su cifra de fallecidos o el de hace unos días en Francia para incluir personas fallecidas en residencias. Esto, por supuesto, sirve para desmoralizar a algunos, para interpretarlo como chapuza por otros, para levantar sospechas de manipulación, para criticar, y, en general, ayuda poco a crear certidumbre, pero ¿cómo se puede evitar?

Renuncia de responsabilidad: lo que viene a continuación no es para legitimar a ningún gobierno (ya que todos producen series con rupturas, excepto el de Corea del Norte que se mantiene con cero casos, lo que creo que apoya lo que digo a continuación).

Para conseguir una serie sin rupturas se tendrían que dar múltiples circunstancias que no se pueden dar en el caso de una pandemia, me explico:

Durante todo el período debes tener la misma capacidad de hacer pruebas (tests). Sin embargo, esta capacidad tiende a aumentar conforme avanza el tiempo.
En todo el territorio debes tener la misma capacidad de hacer pruebas. En muchos países las pruebas estuvieron centralizadas al principio en unos pocos laboratorios y se han ido extendiendo con el tiempo.
La capacidad no debe ser desbordada en ningún momento puntual ni en ningún lugar del territorio. La alta concentración de casos en un momento concreto en una ciudad podría sobrepasar la capacidad local. Esto ha sido/es/será habitual con crecimientos exponenciales.
Se debe usar siempre el mismo instrumento de medida. Aquí tenemos las PCR, los “tests” rápidos, las pruebas serológicas… cada una con sus características propias.
El instrumento de medida se debe usar siempre en las mismas circunstancias (la probabilidad de un falso negativo, por ejemplo, depende del momento del período de incubación en el que se aplique la prueba). Nadie puede saber en qué momento de este período se encuentra un potencial caso.
La prueba a aplicar debería tener una sensibilidad del 100% y una especificidad del 100%. Esto es muy raro en cualquier prueba diagnóstica. No he conseguido buena documentación sobre las pruebas que se aplican con el COVID pero parece que no cumplen con el 100% en ninguna de las dos dimensiones, esto es, son susceptibles de producir falsos positivos y falsos negativos (y además han circulado muchas pruebas defectuosas, las últimas en el Reino Unido).
Depende de la prevalencia de la propia enfermedad que se quiere investigar. El valor predictivo de una prueba diagnóstica depende de lo prevalente (lo frecuente, para entendernos) que sea la enfermedad. ¿Alguien quiere más dinamismo? Esto es casi como lo del principio de incertidumbre de Heisemberg.
Se debe aplicar siempre a la misma población. En la fase inicial se aplicaba a personas con viajes a zonas afectadas, después se aplicaron a personas hospitalizadas con síntomas graves y/o a sus contactos, según el país con más o menos intensidad, luego se puso énfasis en personas con profesiones de riesgo (sanitarios, etc.), rara vez a personas que no presentan síntomas e, incluso, en nuestro contexto, rara vez a las personas con síntomas leves. Ahora preparamos estudios para extraer muestras representativas de la población en las que hacer pruebas serológicas. Y el criterio seguirá cambiando (¡y es bueno que lo haga!).
También es importante no cambiar la definición de caso. No es igual definir como caso a cualquier persona que haya dado positivo en cualquier prueba, que hacerlo solo con los que han dado positivo en PCR. Igualmente, se está tratando a personas como casos de COVID, debido a su sintomatología clínica, aunque las pruebas hayan dado negativo por lo que no es igual incluir casos sospechosos y confirmados. También ha habido cambios en si se considera caso a toda persona que fallece con COVID con independencia de las otras enfermedades que padezca, también habido diferente criterio según si el fallecimiento se ha producido en hospital o en residencia.
Toda la población a estudiar debe tener el mismo acceso a las pruebas durante todo el período. Esto depende de factores tales como la gravedad de los síntomas (los que no desarrollan síntomas tenderán a no buscar pruebas), cómo son percibidos e interpretados los síntomas por el individuo, el acceso al sistema de salud (por distancia, motivos económicos, saturación de las vías de comunicación, etc.), la disponibilidad de las pruebas, etcétera.
En ninguno de los puntos de la cadena de producción de la información debe haber errores. Es decir, no debe haber errores al tomar las muestras de los pacientes, ni al conservarlas, ni al manipularlas en el laboratorio, ni al trascribir los resultados y comunicarlos, etc. En una epidemia con subidas y bajadas fuertes, pero también con curva de aprendizaje, creo que es arriesgado asumir que los errores son constantes.

En definitiva, toda serie de datos tenderá a presentar rupturas, en especial, ante un fenómeno emergente. Todo sin necesidad de que un estado en particular quiera maquillar sus datos, que, por supuesto, también puede ocurrir, aunque en los tres casos mencionados al principio de este artículo los cambios que han incluido serían en contra de su imagen como país. Corea del Norte es la excepción, pues su serie de datos no tiene rupturas.

Desde luego que hubiera ayudado (y mucho) haber contado antes de una crisis como esta con una sólida red de laboratorios, protocolos coordinados entre territorios, capacidades industriales propias en cada país para producir los reactivos y componentes necesarios para las pruebas, equipos de vigilancia amplios formados para la producción, depuración y análisis de datos o haber dispuesto de una red de centros de salud pública bien dotada de recursos humanos para poder llegar a todos los casos y sus contactos, etcétera, pero esa no era nuestra situación de partida (se tarda décadas en construirla y unos pocos impulsos austericidas en reducirla).

En la investigación que yo aprendí a hacer, éramos muy conscientes de los problemas con los datos, cualquier serie de datos tiene errores y problemas de ruptura de la serie (incluido el PIB, el paro, el IPC, el Euribor o cualquier otro que hayamos sacralizado). Por ello, la clave para entender un fenómeno consiste en la triangulación de fuentes de información (combinación de fuentes), el estudio de fenómenos asociados y la aplicación de otras formas de triangulación (de observadores, de análisis, de paradigmas explicativos, etc.). Se trata de valorar las diferencias entre resultados, reconociendo que existe distancia entre la realidad y la medición de la misma, lo que lleva a reconocer el riesgo de error y nuestro desconocimiento.

Hola, Fernando y Carmen,
Agradezco mucho vuestros comentarios. Como habéis hecho notar el enfoque de este artículo es pensar en aspectos que debemos tener en cuenta para entender qué ocurre con la pandemia, es decir, orientar nuestro pensamiento a la resolución del problema de salud pública que nos afecta. Como indicáis, sin embargo, mucho de lo que se dice sobre este tema va orientado a resolver otro tipo de problemas [desde luchas de poder hasta, me imagino, formas de matar el aburrimiento] y por ello no les importa nada la naturaleza de los datos o cómo intepretarlos. Es más, creo que hay incluso quien busca más que resolver problemas, crearlos. Con lo de crearlos me refiero a la estrategia de crear conflicto al estilo de lo descrito en el libro ¿Qué pasa con Kansas? de Thomas Frank. Así que ahora tenemos dos problemas. Resolver la pandemia y el conflicto que aprovecha la pandemia, esperemos que la pandemia no nos la devuelva y se alimente de ese conflicto. Abrazos, Daniel

3 replies on “Sobre las rupturas en las series de datos”

Sin discusión; precisamente por eso es un campo perfectamente abonado para la manipulación .

Estoy totalmente de acuerdo con tu articulo y me molesta muchisimo que haya tanto ignorante pontificando sobre el tema, arrojando sospechas (si tienen alguna certeza que la ecpliquen) para que la poblacion general vivamos en un estado, no de incertidumbre, que es lo logico en estas circunstancias, sino de enfurecimiento y aversion hacia aquellos que cada dia nos dicen que nos engañan.
Viene al caso que diga que tengo alguna formacion sobre el tema: Matematica, con doctorado en Estadistica, directora de masteres, incluyendo Epidemiología, Catedratica en la especialidad y ex presidenta de la Sociedad de Biometria y de la Region Española de la International Biometric Society.

3 replies on “Sobre las rupturas en las series de datos”

Deja un comentario Cancelar respuesta