Estadística + Ingeniería Multimedia

Blog sobre la asignatura Estadística de Ingeniería Multimedia

Estadística + Ingeniería Multimedia - Blog sobre la asignatura  Estadística de Ingeniería Multimedia

¿Qué es el INE?

El Instituto Nacional de Estadística (http://www.ine.es/) tiene como misión la elaboración y perfeccionamiento de las estadísticas demográficas, económicas y sociales ya existentes, la creación de otras nuevas y la coordinación con los servicios estadísticos de las áreas provinciales y municipales.

INEbase es el sistema que utiliza el INE para el almacenamiento de la información estadística en Internet. Contiene toda la información que el INE produce en formatos electrónicos.

A las operaciones estadísticas se puede acceder directamente a través de la lista completa de operaciones de INEbase o a través de los menús temáticos. Estos menús permiten conocer toda la información disponible de cada tema: operaciones para las que se presentan resultados, junto con una pequeña descripción de las variables publicadas, la periodicidad y disponibilidad de los datos y el ámbito geográfico; publicaciones y estudios relacionados; enlaces a otras webs donde ampliar la información de fuentes externas; y un enlace al Inventario de Operaciones Estadísticas de la Administración General del Estado (IOE) para conocer todas las operaciones del Sistema Estadístico Español relacionadas con el tema.

Para cada operación estadística en INEbase existe una página que da acceso a toda la información relativa a la misma: los resultados detallados completos, la última nota de prensa publicada, el calendario de disponibilidad de datos y toda la información metodológica o descriptiva que ayuda a la mejor comprensión e interpretación de los datos (metodologías, cuestionarios, clasificaciones, notas explicativas,…).

Los resultados detallados incluyen los últimos resultados publicados y además la historia reciente de la estadística. Los ficheros de datos se pueden visualizar directamente desde INEbase o descargar  en diversos formatos (excel, csv) incluido el formato  Pc-Axis para un tratamiento posterior utilizando el programa Pc-Axis cuya descarga se puede hacer de forma gratuita.

[kml_flashembed movie="http://www.youtube.com/v/rMYpJFzAEtc" width="425" height="350" wmode="transparent" /]

Distribución Normal: un ejemplo de cálculo de probabilidades

En el siguiente vídeo se muestra un ejemplo de cálculo de probabilidades usando la distribución normal en el que se utiliza, para hacer los cálculos,  la tabla de la función de distribución de la N(0,1). La forma de calcular  probabilidades en una variable X que se distribuye N(μ, σ) a partir de dicha tabla se basa en que la variable Z=(X-μ)/σ se  distribuye N(0,1). Dicha tabla la tenéis en la sesión 5 del Campus Virtual (tablanormalFD.pdf)  y la forma de utilizarla se explica en  dicha sesión.

[kml_flashembed movie="http://www.youtube.com/v/0LgkYn0ISFw" width="425" height="350" wmode="transparent" /]

Como se ha comentado en clase, para el cálculo de estas probabilidades podemos usar dicha tabla, pero para la realización de la práctica del tema 5 usaremos  el SPSS.

A la hora de resolver problemas de este estilo en la práctica utilizando el SPSS deberemos plantearlo de la siguiente forma:

Sea X=peso de los  individuos de la población.

Según los datos del problema del vídeo sabemos que X~N(65,8).

Y nos piden que calculemos: P(X>68) y P(X<60).

Entonces tendremos que calcular:

P(X>68)=1-P(X≤68)=1-CDF.NORMAL(68,65,8)

P(X<60)=CDF.NORMAL(60,65,8)

Ahora sólo quedaría acceder al SPSS y hacer los cálculos oportunos. Puedes comprobar con el SPSS que te dan  aproximadamente los mismos resultados  que en el vídeo (coinciden los dos primeros decimales). Recordad que a la hora de corregir la práctica se le dará mucha importancia al planteamiento que se debe realizar de forma razonada e incluyendo todos  los pasos como se ha hecho aquí.

Supongamos ahora que nos piden que calculemos la probabilidad de que el peso de un individuo de dicha población esté entre 60 y 64 kg. En este caso tendríamos que calcular la siguiente probabilidad, cuyo resultado obtenido con el SPSS también se adjunta:

P(60≤X≤64)=P(X≤64)-P(X<60)=

=CDF.NORMAL(64,65,8)-CDF.NORMAL(60,65,8)=0.184276.

Aprovechamos para recordar que en el caso continuo P(X=a)=0 por lo que P(X<a)=P(X≤a) y P(X>a)=P(X≥a). En el caso discreto esto no es cierto (véase  la entrada de este blog: Distribución binomial: un ejemplo de cálculo de probabilidades).

Distribución binomial: un ejemplo de cálculo de probabilidades

En el siguiente vídeo se muestra un ejemplo de cálculo de probabilidades usando la distribución binomial en el que se utiliza, para hacer los cálculos,  directamente la fórmula de la función de cuantía. Recordamos que  la binomial de parámetros n=1 y p (es decir B(1,p))  se llama distribución bernoulli y se denota también  por b(p).

[kml_flashembed movie="http://www.youtube.com/v/uauhB_1QyUE" width="425" height="350" wmode="transparent" /]

Como se ha comentado en clase, para el cálculo de estas probabilidades podemos usar la fórmula de la función de cuantía, las tablas de la binomial o software estadístico como el SPSS.

A la hora de resolver problemas de este estilo en la práctica utilizando el SPSS deberemos plantearlo de la siguiente forma:

Sea X=número de preguntas contestadas correctamente en el test  de un total de 10 preguntas.

n=10

p=p(éxito)=p(pregunta contestada correctamente)=0.5, por tanto p permanece constante.

Asumiendo independencia entre las contestaciones de las preguntas, obtenemos que  X~B(10,0.5).

Entonces:

P(X=5)=PDF.BINOM(5,10,0.5).

P(X≥1)=1-P(X<1)=1-P(X=0)=1-PDF.BINOM(0,10,0.5).

P(X≥5)=1-P(X<5)=1-P(X≤4)=1-CDF.BINOM(4,10,0.5).

Ahora sólo quedaría acceder al SPSS y hacer los cálculos oportunos. Puedes comprobar con el SPSS que te dan los mismos resultados (salvo errores de redondeo) que en el vídeo. Recordad que a la hora de corregir la práctica se le dará mucha importancia al planteamiento que se debe realizar de forma razonada e incluyendo todos  los pasos como se ha hecho aquí.

Supongamos ahora que nos piden que calculemos la probabilidad de  contestar correctamente  entre 3 y 6 preguntas en dicho test. En este caso tendríamos que calcular la siguiente probabilidad, cuyo resultado obtenido con el SPSS también se adjunta:

P(3≤X≤6)=P(X≤6)-P(X<3)=P(X≤6)-P(X≤2)=

=CDF.BINOM(6,10,0.5)-CDF.BINOM(2,10,0.5)=0.773437.

Estadística y sondeos electorales

En breve habrá elecciones municipales en España y ya han empezado a realizarse los primeros sondeos.  Los sondeos electorales son una de las aplicaciones de la estadística que más interés despierta. Una de las características de estos sondeos  es que una vez realizadas las elecciones se sabe si las estimaciones obtenidas con las encuestas se han acercado realmente a los resultados definitivos obtenidos en las elecciones. Por lo que todos podemos opinar y como la realidad es que algunas veces fallan, esto produce críticas e incredulidad dando la impresión de que la estadística no es una ciencia seria. Pero no siempre es así, muchos han sido los casos de éxito a lo largo de la historia electoral.

En el siguiente vídeo se explica cómo funciona el sistema electoral en nuestro país (elecciones 1996). Se  emitió en el programa de Televisión Educativa de TVE-2 “La Aventura del Saber”.

[kml_flashembed movie="http://www.youtube.com/v/NvmGqh3AaKc" width="425" height="350" wmode="transparent" /]

Quizá deberíamos hacernos la siguiente pregunta: ¿Se aplican bien los principios de la  estadística matemática?

  • Para que los resultados obtenidos se puedan extrapolar a la población es imprescindible que la muestra sea realmente representativa de la población y se haya obtenido de forma aleatoria.
  • Los sondeos electorales se basan en encuestas realizadas con anterioridad a las elecciones y todos sabemos que la intención de voto va cambiando. Dichos cambios no se pueden predecir  estadísticamente. Un ejemplo claro de este aspecto lo tenemos en lo que ocurrió en las elecciones españolas de 2004, cuando tres días antes de las elecciones se produjo el atentado del 11 de marzo. En este caso los sondeos electorales fracasaron estrepitosamente.
  • No se puede saber a quién votarán los indecisos. El grupo de indecisos suele representar entre el 20% y 50% y en  estos sondeos, atendiendo  a las respuestas a una serie de preguntas adicionales (como   a qué partido votó en las últimas elecciones o con qué partido simpatiza)  se toma la decisión de asignar cada uno de esos votos indecisos  a uno u otro partido. Esto no tiene nada que ver realmente con la estadística sino más bien con la sociología, psicología y el análisis político.
  • Nadie nos asegura que los encuestados hayan sido sinceros en su respuesta.
  • En unas elecciones lo relevante no es el porcentaje de votos que va a tener cada partido sino el número de escaños. Como se ha visto en el vídeo, en España se usa la ley d’Hondt. Toda encuesta estadística tiene un error, en este caso del 3.01% con una confianza del 95% (este concepto, aunque queda bastante claro en el vídeo, se tratará en el tema 6). Ese error puede decantar un escaño a un partido u otro pero no se tiene información suficiente para tomar la decisión a priori.

Modelos de distribución discretos y continuos con R y SPSS

El siguiente vídeo resume  algunas de las opciones del SPSS y de R que se van a utilizar en el  tema de Modelos de distribuciones discretos y continuos para  realizar la correspondiente práctica en el laboratorio.

A la hora de entender el cálculo de probabilidades en variables aleatorias continuas, es útil conocer la forma que tiene la función de densidad.  Tal y como  se desprende del vídeo,  con R podemos ver la forma de dicha función para variables aleatorias continuas tales como la Normal, t de Student, F de Snedecor, Ji-cuadrado, etc.  Para otras funciones de densidad relativas a los ejercicios  iniciales sobre variables aleatorias continuas podemos usar, por ejemplo, fooplot, una herramienta  on-line que permite  representar gráficamente funciones.

R y R-Commander

Aunque generalmente utilizaremos el SPSS, también se irán introduciendo algunos procedimientos estadísticos con el software R.

R es un lenguaje de programación y un entorno para análisis estadístico y la realización de gráficos. Debido a su naturaleza es fácilmente adaptable a una gran variedad de tareas. Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en Nueva Zelanda. R actualmente es el resultado de un esfuerzo de colaboración de personas del todo el mundo. Desde mediados de 1997 se formó lo que se conoce como núcleo de desarrollo de R, que actualmente es el que tiene la posibilidad de modificación directa del código fuente.  R abarca una amplia gama de técnicas estadísticas que van desde los modelos lineales a las más modernas técnicas de clasificación pasando por los test clásicos. El código de R está disponible como software libre bajo las condiciones de la licencia GNU-GPL. Además está disponible precompilado para una multitud de plataformas. La página principal del proyecto es http://www.r-project.org.

El  software  libre  R  con  el  entorno  gráfico  R-Commander  (Rcmdr)   se  puede  obtener  en  la  siguiente  dirección  (para  windows): http://cran.es.r-project.org/bin/windows/base/release.htm

Luego  se  procede  con  la  ejecución,  siguiendo  las  instrucciones.  Para  la  instalación  de  Rcmdr,  se  arranca  R  desde  Inicio → Todos  los  programas → R.  A  continuación,  Paquetes → Instalar  Paquete(s)  y  elegido  el  mirror  desde  el  cual  se  quiere  instalar  el  paquete,  por  ejemplo  Spain  (Madrid),  se  selecciona  Rcmdr.

Harán  falta  más  paquetes  para  la  instalación  completa  de  Rcmdr,  pero  se  instalarán  automáticamente  la  primera  vez  que  se  ejecute.

Si  se  cierra  Rcmdr  (sin  cerrar  R),  para  volver  a  cargarlo  se  debe  ejecutar  la  instrucción  Commander().

Instrucciones más detalladas y actualizadas pueden encontrarse en http://knuth.uca.es/R en la sección R Wiki. Además, existen multitud de documentos que ilustran sobre el manejo de R. En particular, el siguiente libro, accesible on-line explica como utilizar R y R-Commander en Estadística básica y la forma de instalarlo tanto sobre Windows como sobre GNU/LINUX: http://knuth.uca.es/moodle/course/view.php?id=37

PSPP una alternativa libre al SPSS

PSPP es un una aplicación de software libre para el análisis de datos. Se presenta en modo gráfico y está escrita en el lenguaje de programación C.  Su apariencia es similar al software propietario SPSS, de hecho pretende ser su sustitución en versión libre, aunque por el momento dispone de menos funcionalidades que el SPSS. Con PSPP se pueden tratar ficheros de datos creados con SPSS sin ningún problema.

En el siguiente enlace podéis acceder a la web del producto: http://www.gnu.org/software/pspp/ y descargarlo.

¿Qué es un audímetro? ¿Has visto alguna vez uno?

Si quieres saber algo más sobre los sistemas de medición de audiencias en televisión y esos aparatitos que se llaman audímetros que explicamos en clase puedes ver el siguiente  reportaje: como verás alrededor de 4.500 familias (4.625 hogares, a día de hoy, según la información disponible en la página web de Kantar Media) en España deciden lo que vemos todos por la tele. Y nadie sabe quiénes son.

[kml_flashembed movie="http://www.youtube.com/v/6R9Sopo9wfg" width="425" height="350" wmode="transparent" /]

La llegada de la tecnología digital supuso un serio problema para los audímetros tradicionales. Se ponía en cuestión su principal capacidad: el reconocimiento preciso de la cadena sintonizada. Tal reconocimiento se hacía a través de la detección de la frecuencia de sintonía o del canal radioeléctrico. La correspondencia entre canal radioléctrico y cadena era biunívoca para un dispositivo determinado, con lo que la base para la determinación de la cadena estaba establecida. El problema es que en un entorno digital, dentro de un mismo canal radioeléctrico se concentran las señales de un número diverso de cadenas diferentes. Una de las soluciones para este problema ha sido utilizar un enfoque basado en el  reconocimiento de la señal de vídeo. Es la línea que sigue, entre otros, el Picture Matching System que actualmente utiliza Sofres AM (actualmente Kantar Media) para la identificación de las cadenas emitidas por las plataformas digitales en España.

El audímetro Picture Matching basa su funcionamiento en el contenido de la emisión en sí, más concretamente en la señal de vídeo, es decir, en la imagen que se está viendo en el televisor sondado. La filosofía general consiste en el almacenamiento de muestras de la señal de vídeo en los televisores de los hogares que, tras su comparación (matching) con las muestras tomadas para cada una de las cadenas, permitirá determinar cual es la cadena vista en un televisor en cada momento.

Lo que realmente recoge el audímetro no son muestras de la imagen, sino el resultado de múltiples comparaciones de luminosidad entre pares de parcelas o celdas de la pantalla. Para el Picture Matching, la imagen se reduce a la luminosidad media de 32 pequeñas celdas que se encuentran fijadas de forma pseudo-aleatoria en la pantalla.

Estas 32 celdas están organizadas en 16 parejas, de cada una de las cuales se pueden obtener dos posibles resultados dependiendo de cual de las dos parcelas que forman dicha pareja sea más oscura. Tendremos por tanto 16 bits de información posible por cada imagen en la pantalla, (un bit por pareja, si la celda de la izquierda es más oscura que la de la derecha, le asignará el valor “1”, en caso contrario le asignara el valor “0”). La superficie de la imagen con la que el audímetro opera supone aproximadamente un 5 % de la superficie total de la pantalla.

El sistema sigue un algoritmo de eliminación, es decir, determina la cadena correspondiente por eliminación de aquellas que no lo son. Al comenzar el proceso, se contemplan todas las cadenas controladas y se van comparando las muestras (bits) recogidas en el hogar con las obtenidas en la Central para cada una de las cadenas. A medida que se producen discordancias entre la información de una cadena y la obtenida en el hogar, esta cadena es eliminada, y se continúa la comparación con las cadenas restantes. Cuando, durante el proceso, solo quede una cadena para la cual los datos de la Central y del hogar sean coincidentes, ésta será la cadena vista en dicho televisor. Cuando estos datos dejan de coincidir es señal de que se ha producido un cambio de cadena, incluyéndose de nuevo todas las cadenas para realizar una vez más el proceso de eliminación.

Medición de audiencias en Internet: Google Analytics.

En el siguiente vídeo se muestran algunos de los parámetros que interesan estudiar a la hora de medir las audiencias de un sitio web para la toma de decisiones. Concretamente, Google Analytics es un ejemplo de metodología site-centric (orientada al sitio) basada en análisis de tags que se explicó en clase. Si queréis profundizar podéis ver el siguiente vídeo.

[kml_flashembed movie="http://www.youtube.com/v/EzXkovki4sE" width="425" height="350" wmode="transparent" /]

Soluciones de las actividades propuestas en el libro on line sobre probabilidad y análisis combinatorio

Se adjuntan aquí las soluciones de las actividades propuestas en el tema 4 del libro on line disponible en las sesiones del Campus Virtual (véase sesión 4 del Campus Virtual).

Ejercicio 4.1. 81.000.000.000

Ejercicio 4.2. 2.432.902.008.176.640.000

Ejercicio 4.3. 5.755.750

Ejercicio 4.4. 8.618.400

Ejercicio 4.5. 56, 0,21875, 1/2

Ejercicio 4.6. 0,03125, 0,65

Ejercicio 4.7. 0,22131148, 0,005, 0,005694761

Ejercicio 4.8. 0,52795031

Ejercicio 4.9. 0,000976563

Ejercicio 4.10. 0,4