Estos últimos días he leído estas dos afirmaciones en distintos medios de comunicación y blogs atribuidas al ministro de Educación Wert. No he podido contrastar qué dijo exactamente ya que no he encontrado el vídeo con las palabras exactas pero todo parece apuntar que fue la segunda. Lo que sí he constatado es que el ministro suele basarse mucho en datos estadísticos para justificar reformas, comisiones de expertos y recortes. Pero hay que tener cuidado a la hora de transmitir datos estadísticos ya que si el análisis previo no es exhaustivo la información que nos llega puede llenar titulares y darnos a entender a la sociedad cosas (en este caso ha sido sobre el sistema universitario) que realmente no son las que concluyen los datos estadísticos.
Las afirmaciones leídas son:
(1) Hay un 21% de desempleo entre los universitarios de 25 a 29 años.
(2) Entre los parados de 25 a 29 años, el 21% son universitarios.
Muchas personas tienden a pensar que se está diciendo lo mismo en ambos casos pero ni mucho menos. Veámoslo:
(1) Si se indica que hay un 21% de desempleo entre los universitarios de 25 a 29 años nos están diciendo que el porcentaje de parados en el conjunto de los universitarios entre 25 y 29 años es del 21%.
Vamos a plantearlo en forma de probabilidades condicionadas tal y como vimos en las clases de estadística:
P(estar parado| ser universitario entre 25 y 29 años)=0.21.
Si esto fuera cierto, es un dato muy alarmante pero en un análisis estadístico serio que permitiera analizar realmente la situación se deberían haber incluido datos adicionales tales como el porcentaje de parados en el conjunto de personas no universitarias de 25 a 29 años o el porcentaje de parados en el conjunto de jóvenes en general de 25 a 29 años.
Estos porcentajes tratados como probabilidades (tanto por uno) corresponderían con calcular las siguientes probabilidades condicionadas, respectivamente:
P(estar parado| no ser universitario y tener entre 25 y 29 años)
P(estar parado| tener entre 25 y 29 años)
Estas probabilidades no se pueden obtener del dato inicial (21%) ya que los conjuntos de referencia para los que se calcula la cantidad de parados son diferentes en cada uno de los tres casos.
Ya puestos, si se quiere hacer un estudio estadístico serio, se podrían realizar contrastes de hipótesis sobre proporciones y análisis ji-cuadrado para obtener unas primeras aproximaciones para el total de la población que permitiera analizar el panorama actual de forma más fiable. No olvidemos que la mayoría de estas estimaciones estadísticas se obtienen a partir de muestras aleatorias, es decir con subconjuntos aleatorios de la población y no con toda la población. La inferencia estadística es la que permite extraer conclusiones para la población a partir de los datos muestrales.
(2) En el segundo caso se dice: entre los parados de 25 a 29 años, el 21% son universitarios. La comprensión de esta afirmación es sencilla: concretamente nos están diciendo que la población parada entre 25 y 29 años está distribuida de la siguiente forma: un 21% son universitarios y por tanto un 79% son no universitarios. Si lo tratamos en términos de probabilidades diríamos:
P(ser universitario| ser parado con edad entre 25 y 29 años)=0.21.
Y como la probabilidad de un suceso es igual a uno menos la de su complementario obtenemos:
P(no ser universitario| ser parado con edad entre 25 y 29 años)=1-P( ser universitario| ser parado con edad entre 25 y 29 años)=1-0.21=0.79
Aunque a priori parezca dar mucha información, no es así, y no son las probabilidades condicionadas más útiles para estudiar el problema del paro que nos ocupa. Para intentar analizar estadísticamente dicha afirmación deberíamos además saber al menos qué porcentaje de universitarios y no universitarios hay en el conjunto de todos los jóvenes de 25 a 29 años y qué porcentaje de universitarios y no universitarios hay en el conjunto de todos los jóvenes de 25 a 29 años no parados.
En Facebook he compartido también un enlace a un artículo de José Antonio Pérez y Juan Hernández en el que los autores muestran cómo el planteamiento que hace Wert para justificar la reforma universitaria tiene datos estadísticos tratados erróneamente.
No lo olvidéis, para hablar de estadística se ha de hacer con rigurosidad, no sirve con utilizar sólo aquellos datos estadísticos que van a ser favorables o convenientes a unos propósitos obviando otros que realmente permitirían radiografiar de forma más completa y real el sistema universitario español.