Estadística + Ingeniería Multimedia

Blog sobre la asignatura Estadística de Ingeniería Multimedia

Estadística + Ingeniería Multimedia - Blog sobre la asignatura  Estadística de Ingeniería Multimedia

Una aplicación para el cálculo de probabilidades para distribuciones discretas y continuas.

Ahora no tienes excusa. Con la siguientes applets de estadística es bastante fácil entender el cálculo de probabilidades en distribuciones discretas: Poisson, Binomial, …, y distribuciones continuas: Normal, Chi-cuadrado, F, t de Student, … Estas applets han sido realizadas por Matt Bognar, profesor de la Universidad de Iowa. Se puede acceder a ellas desde la web, a través de su página personal. Pero además incluye la aplicación para IOS (iOS 7.1 o superior) y la aplicación  para Android para que podáis trabajar con más comodidad desde el móvil o tableta. Aquí os muestro un ejemplo para el caso de la Binomial:

binombognar

Teorema de Bayes y probabilidad total con Geogebra

El siguiente Geogebra está pensado para intentar que el alumnado de Estadística de Ingeniería Multimedia, entienda los teoremas de Bayes y probabilidad total a la hora de explicarlos en clase, utilizando el caso particular de una partición del espacio muestral en dos sucesos. Pincha en la imagen para acceder a él.

 

Una vez que hayas visto cómo funciona el geogebra, te propongo que lo utilices para resolver los siguientes ejercicios. Pero no olvides hacerlos antes a mano, definiendo los distintos sucesos e indicando las distintas probabilidades  que se nos dan en el problema y las que nos piden que calculemos.

Ejercicio 1: En dos plantas, A1 y A2 se fabrican el total de los componentes electrónicos de una empresa. Concretamente en la planta A2 se fabrica el triple de componentes  que en la planta A1.  Los porcentajes de producción defectuosa de estas plantas son, respectivamente, el 5 % y el 2 %.

(1) Si se selecciona un componente al azar cuál es la probabilidad de que sea defectuoso.

(2) Si se selecciona un componente al azar y resulta ser defectuoso, calcula  la probabilidad de que se haya producido en la planta A1.

(3) Si se selecciona un componente al azar y resulta ser correcto, calcula  la probabilidad de que se haya producido en la planta A1.

Ejercicio 2: Una empresa dispone de un software para analizar el buen funcionamiento de los videojuegos que vende. Se sabe que la  probabilidad  de que dicho software indique que el videojuego está defectuoso cuando efectivamente lo está, es 0.97 y la probabilidad de que el programa indique que el videojuego funciona correctamente cuando efectivamente su funcionamiento es correcto es 0.90. Sabiendo que el 2% de los videojuegos que vende no funcionan correctamente y son devueltos, calcula la probabilidad de que un videojuego  funcione correctamente habiendo el programa indicado que estaba defectuoso.

Intervalos de confianza para una proporción (comprueba tus resultados)

Aquí os incluyo una sencilla calculadora realizada con Excel Web App que os permitirá comprobar vuestros  resultados en los ejercicios sobre intervalos de confianza para una proporción. Es una versión simplificada de mi hoja de cálculo ya que Excel Web App no tiene ciertas funcionalidades como la validación de datos y la protección de algunas celdas … Si trabajas con ella y quieres volver a tener la hoja como al principio sólo tienes que recargar la página. Por defecto aparece la solución de los intervalos de confianza  correspondientes a los ejercicios 6.8 y 6.6 (en ese orden) propuestos en la práctica del curso 2012-2013 sobre el  tema 6. Accede a ella pinchando en la imagen o en el siguiente enlace:

Intervalos de confianza para una proporción

Os dejo aquí también los enunciados de dichos ejercicios y la solución final:

Ejercicio 6.6 Un centro de investigación ha diseñado un programa de fisioterapia con la Wii, para que los pacientes de rehabilitación puedan hacer los ejercicios en casa.  El centro desea saber si con el uso de dicho programa el tiempo de recuperación es menor. Para ello utilizaron el programa sobre 2350 pacientes y se obtuvo que 650 pacientes necesitaron más de dos semanas de rehabilitación. Los datos estimados hasta el momento sobre este tipo de rehabilitaciones indicaban que en el 40 por ciento de los casos la rehabilitación era superior a dos semanas. Calculando un intervalo de confianza al 95 por ciento explica si  los datos obtenidos con el uso de la Wii mejoran  los datos estimados previamente.

Solución: Sea p=proporción de gente que necesita más de dos semanas de rehabilitación con la Wii.

Aplicando la fórmula para muestras grandes se obtiene:

Ip95%=[0.2585, 0.2947]

Con una confianza del 95% podemos decir que los datos obtenidos con la Wii mejoran los datos estimados previamente ya que los datos estimados previamente indicaban que el 40% necesitaban más de 2 semanas de rehabilitación mientras que con la Wii el porcentaje de gente que necesitaría más  de dos semanas para la rehabilitación estaría entre el 25.85% y el 29.47%, mucho inferior al 40%.

Ejercicio 6.8 Una empresa de desarrollo de videojuegos desea conocer  la aceptación que está teniendo un videojuego que acaba de lanzar al mercado. Se ofrece a un grupo de 20 personas elegidas aleatoriamente que jueguen con él durante un mes y se les pide que indiquen si les ha gustado. A 15 de dichas personas les ha gustado y al resto no. Obtén un intervalo de confianza al 96.8 por ciento para el porcentaje de gente que le ha gustado el videojuego. A la vista de los resultados qué conclusiones se pueden sacar. ¿Le harías alguna recomendación a la empresa sobre la forma de hacer este estudio?

Solución: Sea p=proporción de gente que le gusta el videojuego y P=porcentaje de gente que le gusta el videojuego.

Entonces aplicando la fórmula para muestras pequeñas se obtiene Ip96.8%=[0.125,1] y por tanto IP96.8%=[12,5%,100%].

Recomendación para la empresa: Este intervalo es muy pobre (con una confianza del 96.8% sabemos que el porcentaje de gente a la que le gusta el videojuego está  entre 12.5% y 100%) y no da información relevante a la empresa, así que habría que utilizar una muestra grande y aplicar la fórmula correspondiente.

Una aplicación on-line sobre probabilidad total

Con el fin de ayudar a entender cómo aplicar el teorema de la probabilidad total, os dejo una de las aplicaciones on-line  realizadas  en la asignatura de Ingeniería Multimedia. Forma parte del  trabajo realizado el curso pasado en la asignatura por Fernando Meneses (estudiante de  Ingeniería Multimedia). Pincha en la imagen de la entrada o en el siguiente  enlace  si quieres acceder a ella:

Aplicación sobre el teorema de la probabilidad total

 

Una aplicación on-line sobre muestreo sistemático

Con el fin de ayudar a entender los pasos de los problemas propuestos sobre muestreos sistemáticos, os dejo una aplicación on-line para que se pueda simular dicho muestreo paso por paso tal y como lo planteamos al hacer los problemas a mano.  Si quieres ver todas las aplicaciones on-line publicadas hasta el momento puedes hacerlo desde aquí.

El diseño de la página ha sido realizado por Fernando Meneses, estudiante de Ingeniería Multimedia que ha participado también en la realización de alguna  de dichas aplicaciones y que amablemente me ha permitido usar dicho diseño para publicarlas. Pincha en la imagen de la entrada o en el siguiente  enlace  si quieres acceder a ella:

Aplicación sobre muestreo sistemático

Diagramas de Venn para el cálculo de probabilidades con Geogebra

Con ayuda de los diagramas de Venn podemos dar los primeros pasos para la comprensión del cálculo de probabilidades de distintos  sucesos de un espacio muestral. El siguiente geogebra se ha realizado con dicho propósito. En él trabajaremos en términos de porcentajes y en caso de querer calcular probabilidades sólo habrá que dividir entre cien los resultados obtenidos. Para trabajar estos conceptos se puede proponer un ejercicio similar al siguiente.

En una ciudad se publican 3 revistas sobre tecnología y videojuegos A, B y C. Mediante una encuesta se estima que el 30% lee la revista A el 20% la revista  B, el 15% lee la C, el 10% lee A y B, el 6% lee A y C, el 5% lee B y C, y el 3% lee las tres revistas.

  • ¿Qué porcentaje lee al menos dos revistas?
  • ¿Qué porcentaje lee solo una revista?
  •  ¿Qué porcentaje no lee ninguna revista?
  • ¿Qué porcentaje lee A pero no B?

En primer lugar introduciremos los datos que nos dan en el ejercicio tal y como aparece en el Geogebra al que puedes acceder pinchando en la imagen y obtendremos interactivamente los distintos valores del diagrama de Venn:

 Una vez se tienen los datos en el diagrama de Venn y se entiende su significado será muy fácil contestar las preguntas propuestas:

a) ¿Qué porcentaje lee al menos dos revistas? 7+3+3+2=15%

b) ¿Qué porcentaje lee solo una revista? 17+8+7=32%

c) ¿Qué porcentaje no lee ninguna revista? 53%

d) ¿Qué porcentaje lee A pero no B? 17+3=20%

Con ayuda de dicho geogebra puedes  realizar ejercicios similares al anterior. Os  propongo aquí uno para practicar, recuerda que cuando hablamos de probabilidades habrá que pasar los resultados  obtenidos con el Geogebra a tanto por uno dividiendo entre 100.

Mediante una encuesta realizada a jovenes para analizar sus preferencias en juegos  on-line se ha estimado  que el 80% juega al League of Legends (LOL), el 55% juega al World of Warcraft  (WoW) y  el 35% juega a Minecraft (Min), el 45 % juega  al LOL y al WoW, el 30 % juega al LOL y al Min, el 18% juega  al WoW y al Min, y el 15% juega a los tres.

Extrapolando los resultados a la población, si se elige  un joven al azar calcula:

  • ¿Cuál es la probabilidad de que juegue  al menos a dos de estos  juegos on-line?
  • ¿Cuál es la probabilidad de que juegue al menos a uno de estos  juegos on-line?
  • ¿Cuál es la probabilidad de que no juegue a ninguno de estos juegos on-line?

¿Qué porcentaje de jóvenes juega al  LOL pero no al  Minecraft?

¿Qué porcentaje de jóvenes juega al  Minecraft  pero no a al  LOL?

Si quieres ver los geogebras que se van publicando en el blog pincha aquí.

 

¿Qué es Stat Trek?

Stat Trek es un  sitio web que proporciona herramientas on-line para ayudar a resolver problemas de  estadística.  Está bastante bien y ayuda a entender los conceptos. En esta asignatura lo utilizaremos especialmente en el tema de probabilidad y análisis combinatorio, pero puede servir para el cálculo de probabilidades en  el tema de modelos de distribuciones discretos y continuos o incluso para simular muestreos aleatorios.

 

Rich Chart Live: una herramienta para generar gráficos estadísticos

Rich Chart Live es una  herramienta  desarrollada  en flash, que  permite generar gráficas estadísticas dinámicas a partir de datos que bien se pueden introducir directamente o importarlos de algunas aplicaciones. También puede ser útil para hacer presentaciones o incrustar gráficos en tu blog. Existe una versión on-line  gratis y también se puede descargar la versión profesional de evaluación durante 30 días.

Aquí muestro un ejemplo de lo que se puede hacer en el que se ha utilizado la copia de evaluación. Los datos corresponden a una de las preguntas de la encuesta que el alumnado  de Ingeniería Multimedia  elabora y cumplimenta  todos los cuatrimestres para que el profesorado de la titulación conozcamos un poco cuál es su opinión respecto al funcionamiento del curso y su satisfacción respecto a las distintas asignaturas. Puedes también acceder a este gráfico en tamaño ampliado  desde aquí.

Distribución Normal con Geogebra

En los siguientes enlaces se puede acceder a varios geogebras realizados por Manuel Sada que nos permiten entender mejor en qué consiste la distribución Normal y el cálculo de probabilidades en la misma. Como ya sabéis, GeoGebra es un software libre de matemáticas, escrito en Java,  para educación en todos sus niveles disponible en múltiples plataformas. Reúne dinámicamente, aritmética, geometría, álgebra y cálculo en un único conjunto tan sencillo a nivel operativo como potente. Ofrece representaciones diversas de los objetos desde cada una de sus posibles perspectivas: vistas gráficas, algebraicas, estadísticas y de organización en organización en tablas y planillas y hojas de datos dinámicamente vinculadas.

Distribución Normal

Cálculo de probabilidades en una N(0,1) del tipo  P(Z<k)=P(Z≤k)

Cálculo de probabilidades en una N(μ,σ) del tipo  P(X<k)=P(X≤k)

Cálculo de probabilidades en una N(0,1) del tipo P(a<Z<b)

Uno de los aspectos que serán de especial relevancia  para la comprensión del resto de temas de la asignatura es saber calcular percentiles en distintas distribuciones y entender su significado. El siguiente geogebra realizado por José Álvarez nos lo muestra gráficamente para el caso de la N(0,1).

Valores críticos de una N(0,1)

Modelos de distribución discretos y continuos con R y SPSS

El siguiente vídeo resume  algunas de las opciones del SPSS y de R que se van a utilizar en el  tema de Modelos de distribuciones discretos y continuos para  realizar la correspondiente práctica en el laboratorio.

A la hora de entender el cálculo de probabilidades en variables aleatorias continuas, es útil conocer la forma que tiene la función de densidad.  Tal y como  se desprende del vídeo,  con R podemos ver la forma de dicha función para variables aleatorias continuas tales como la Normal, t de Student, F de Snedecor, Ji-cuadrado, etc.  Para otras funciones de densidad relativas a los ejercicios  iniciales sobre variables aleatorias continuas podemos usar, por ejemplo, fooplot, una herramienta  on-line que permite  representar gráficamente funciones.

R y R-Commander

Aunque generalmente utilizaremos el SPSS, también se irán introduciendo algunos procedimientos estadísticos con el software R.

R es un lenguaje de programación y un entorno para análisis estadístico y la realización de gráficos. Debido a su naturaleza es fácilmente adaptable a una gran variedad de tareas. Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en Nueva Zelanda. R actualmente es el resultado de un esfuerzo de colaboración de personas del todo el mundo. Desde mediados de 1997 se formó lo que se conoce como núcleo de desarrollo de R, que actualmente es el que tiene la posibilidad de modificación directa del código fuente.  R abarca una amplia gama de técnicas estadísticas que van desde los modelos lineales a las más modernas técnicas de clasificación pasando por los test clásicos. El código de R está disponible como software libre bajo las condiciones de la licencia GNU-GPL. Además está disponible precompilado para una multitud de plataformas. La página principal del proyecto es http://www.r-project.org.

El  software  libre  R  con  el  entorno  gráfico  R-Commander  (Rcmdr)   se  puede  obtener  en  la  siguiente  dirección  (para  windows): http://cran.es.r-project.org/bin/windows/base/release.htm

Luego  se  procede  con  la  ejecución,  siguiendo  las  instrucciones.  Para  la  instalación  de  Rcmdr,  se  arranca  R  desde  Inicio → Todos  los  programas → R.  A  continuación,  Paquetes → Instalar  Paquete(s)  y  elegido  el  mirror  desde  el  cual  se  quiere  instalar  el  paquete,  por  ejemplo  Spain  (Madrid),  se  selecciona  Rcmdr.

Harán  falta  más  paquetes  para  la  instalación  completa  de  Rcmdr,  pero  se  instalarán  automáticamente  la  primera  vez  que  se  ejecute.

Si  se  cierra  Rcmdr  (sin  cerrar  R),  para  volver  a  cargarlo  se  debe  ejecutar  la  instrucción  Commander().

Instrucciones más detalladas y actualizadas pueden encontrarse en http://knuth.uca.es/R en la sección R Wiki. Además, existen multitud de documentos que ilustran sobre el manejo de R. En particular, el siguiente libro, accesible on-line explica como utilizar R y R-Commander en Estadística básica y la forma de instalarlo tanto sobre Windows como sobre GNU/LINUX: http://knuth.uca.es/moodle/course/view.php?id=37

PSPP una alternativa libre al SPSS

PSPP es un una aplicación de software libre para el análisis de datos. Se presenta en modo gráfico y está escrita en el lenguaje de programación C.  Su apariencia es similar al software propietario SPSS, de hecho pretende ser su sustitución en versión libre, aunque por el momento dispone de menos funcionalidades que el SPSS. Con PSPP se pueden tratar ficheros de datos creados con SPSS sin ningún problema.

En el siguiente enlace podéis acceder a la web del producto: http://www.gnu.org/software/pspp/ y descargarlo.

Introducción al SPSS

Entre el software estadístico que utilizaremos para la parte práctica de la asignatura se encuentra el SPSS (Statistical Package for the Social Sciences). Este software estadístico es uno de los más utilizado a nivel mundial.  Aunque es un software propietario, la Universidad de Alicante dispone de licencias para poder trabajar con él tanto desde los laboratorios de prácticas como desde el Aula Informática Virtual accesible desde el  Campus Virtual. Por lo que lo podréis utilizar, desde cualquier ubicación con acceso a Internet. En este último caso,  las aplicaciones no se instalan en el ordenador del usuario, sino que se ejecutan en el servidor.

En el siguiente vídeo de la asignatura se  muestran unos ejemplos de introducción de datos y algunas opciones adicionales que se tratarán en las primeras clases de prácticas.

Si quieres ver más vídeos sobre SPSS puedes hacerlo desde aquí.