Comprueba tus resultados (solución final de algunos ejercicios del tema 7)

Os adjunto aquí la solución final de algunos ejercicios de la práctica del  tema 7 (con algunos resultados intermedios, que os pueden variar algo atendiendo a  errores de redondeo) para que podáis comprobar vuestros resultados.

Ejercicio 7.1: Zo=-3.3333, P-valor=0.000429. Se rechaza Ho, lo que implica que las sospechas del control de calidad son ciertas y la duración de este modelo de batería ha bajado. Véase el dragón de la guarida.

Ejercicio 7.2: to=-4.832846, P-valor=0.000004. Rechazamos Ho, lo que implica que el promedio de horas de televisión por hogar al día en esa zona no es igual al de todo el territorio.

Ejercicio 7.3: to=-4.035, P-valor=0.0018. Rechazamos la hipótesis nula por lo que podemos afirmar que el nuevo método tiene menor tasa media de error.

Ejercicio 7.4: Zo=-111.803399. P-valor=0. Rechazamos Ho, lo que implica que  los datos obtenidos con el uso de la Wii mejoran los datos estimados previamente.

Ejercicio 7.5: Zo=2.357023. P-valor=0.009211. Rechazamos Ho y por  tanto los datos obtenidos con el sistema experto necesita un reajuste ya que la cifra de ingresos hospitalarios que propone está  por encima de lo indicado por el servicio médico. Véase hundir la flota.

Ejercicio 7.6: to=-2.335. P-valor=0.0224. Rechazamos Ho y por tanto el nuevo algoritmo B es mejor ya que tiene mayor tasa media de acierto, por lo que se debería utilizar el algoritmo B para la detección de obstáculos en la aplicación para la automatización de vehículos.

Ejercicio 7.7: to=-3.100578. P-valor=0.001028. Rechazamos Ho y por tanto es más lenta la nueva red de tipo Wireless como indicó el técnico.

Ejercicio 7.8: Zo=-9.361468. P-valor=0. Rechazamos Ho y por lo tanto se puede dar por cierta la afirmación del periódico.

Ejercicio 7.9: Zo=2.947145. Realizando un contraste bilateral obtenemos P-valor=0.003207. Rechazamos Ho y por tanto la proporción de tarjetas defectuosos de los modelos A y B son distintas. Para saber en  cuál  de los modelos se obtiene más proporción de defectuosos realizaríamos los correspondientes contrastes unilaterales y obtendremos que debería quedarse con las tarjetas de red del modelo B.

Ejercicio 7.10: Zo=-19.814848. P-valor=0. Rechazamos Ho y por tanto se puede dar por cierta la afirmación de que la tasa de rebote del sitio web ha disminuido después de dicho asesoramiento técnico.

Análisis inferencial de datos categóricos (guiones de teoría y práctica)

El tema de Análisis inferencial de datos categóricos se imparte tanto en las clases de teoría como en las de prácticas.  El alumnado dispone en el Campus Virtual de  un guión de teoría, unas diapositivas para la parte práctica del laboratorio  y el correspondiente tema on-line de la asignatura para su consulta a la hora de hacer la práctica propuesta. Aquí os dejo el guión que se utiliza en clase de teoría  para explicar el tema 8.

Recordad que un guión  no son unos apuntes.

Si quieres consultar  las diapositivas  prácticas, puedes acceder aquí para ver el vídeo. Y si deseas ver más entradas del blog sobre este tema puedes hacerlo desde aquí.

 

Contrastes de hipótesis (guiones de teoría y práctica)

El tema de Contrastes de hipótesis para parámetros poblacionales se imparte tanto en las clases de teoría como en las de prácticas.  El alumnado dispone en el Campus Virtual de  un guión de teoría, unas diapositivas para la parte práctica del laboratorio  y el correspondiente tema on-line de la asignatura para su consulta a la hora de hacer la práctica propuesta. Aquí os dejo el guión que se utiliza en clase de teoría  para explicar el tema 7.

Recordad que un guión  no son unos apuntes.

Si quieres consultar  las diapositivas  prácticas, puedes acceder aquí para ver el vídeo. Y si deseas ver más entradas del blog sobre este tema puedes hacerlo desde aquí.

 

La importancia de transmitir y analizar bien los datos estadísticos, un ejemplo sobre política

Estos últimos días he leído estas dos afirmaciones  en distintos medios de comunicación y blogs atribuidas al ministro de Educación Wert. No he podido contrastar qué dijo exactamente ya que no he encontrado el vídeo con las palabras exactas pero todo parece apuntar  que fue la segunda. Lo que sí he constatado es que el ministro suele basarse mucho en datos estadísticos para justificar reformas, comisiones de expertos y recortes. Pero hay que tener cuidado a la hora de transmitir datos estadísticos  ya que si el análisis previo  no es exhaustivo  la información que nos llega puede llenar titulares y darnos a entender a la sociedad cosas (en este caso ha sido sobre el sistema universitario) que realmente no son las que concluyen los datos estadísticos.

Las afirmaciones leídas  son:

(1)        Hay un 21% de desempleo entre los universitarios de 25 a 29 años.

(2)        Entre los parados de 25 a 29 años, el 21% son universitarios.

Muchas personas tienden a pensar que se está diciendo lo mismo en ambos casos pero ni mucho menos. Veámoslo:

(1)        Si se indica que hay un 21% de desempleo entre los universitarios de 25 a 29 años nos están diciendo que el porcentaje de parados en el conjunto de los universitarios entre 25 y 29 años es del 21%.

Vamos a plantearlo en forma de probabilidades condicionadas tal y como vimos en las clases de estadística:

P(estar parado| ser universitario entre 25 y 29 años)=0.21.

Si esto fuera cierto, es un dato muy  alarmante pero en un análisis estadístico serio que permitiera analizar realmente la situación se deberían haber incluido datos adicionales tales como el porcentaje de parados en  el conjunto de personas  no universitarias de 25 a 29 años o el porcentaje de parados en el conjunto de jóvenes en general de 25 a 29 años.

Estos porcentajes tratados como probabilidades (tanto por uno) corresponderían   con calcular las siguientes probabilidades condicionadas, respectivamente:

P(estar parado| no ser universitario y tener entre 25 y 29 años)

P(estar parado| tener entre 25 y 29 años)

Estas probabilidades no se pueden obtener del dato inicial (21%) ya que los conjuntos de referencia para los que se calcula la cantidad de parados son diferentes en cada uno de los tres casos.

Ya puestos, si se quiere hacer un estudio estadístico serio, se podrían realizar contrastes de hipótesis sobre proporciones y análisis ji-cuadrado para obtener unas primeras aproximaciones para el  total de la población que permitiera analizar el panorama actual de forma más fiable. No olvidemos que la mayoría de estas estimaciones estadísticas se obtienen a partir de muestras aleatorias, es decir con subconjuntos aleatorios de la población y no con toda la población. La inferencia estadística es la que permite extraer conclusiones para la población a partir de los datos muestrales.

(2)        En el segundo caso se dice: entre los parados de 25 a 29 años, el 21%  son universitarios.  La comprensión de esta afirmación es sencilla: concretamente nos están diciendo  que la población parada entre 25 y 29 años está distribuida de la siguiente forma: un 21% son universitarios y por tanto un 79% son no universitarios.  Si lo tratamos en términos de probabilidades diríamos:

P(ser universitario| ser parado con edad entre 25 y 29 años)=0.21.

Y como la probabilidad de un suceso es igual a uno menos la de su complementario obtenemos:

P(no ser universitario| ser parado con edad entre 25 y 29 años)=1-P( ser universitario| ser parado con edad entre 25 y 29 años)=1-0.21=0.79

Aunque a priori parezca dar mucha información, no es así,  y no son las probabilidades condicionadas más útiles para estudiar el problema del paro que nos ocupa. Para intentar analizar estadísticamente dicha afirmación deberíamos además  saber al menos qué porcentaje de universitarios y no universitarios hay en el conjunto de todos los jóvenes de 25 a 29 años y qué porcentaje de universitarios y no universitarios hay en el conjunto de todos los jóvenes de  25 a 29 años no parados.

En Facebook he compartido también un enlace a un artículo de José Antonio Pérez y Juan Hernández en el que los autores  muestran cómo el planteamiento que hace  Wert para justificar la reforma universitaria tiene datos estadísticos tratados  erróneamente.

No lo olvidéis, para hablar de estadística se ha de hacer con rigurosidad, no sirve con utilizar sólo aquellos datos estadísticos que van a ser favorables o convenientes  a unos propósitos  obviando otros que realmente permitirían radiografiar de forma más completa y real el sistema universitario español.