Distribución Normal con Geogebra

Posted on 01/04/2011 by Violeta Migallón

En los siguientes enlaces se puede acceder a varios geogebras realizados por Manuel Sada que nos permiten entender mejor en qué consiste la distribución Normal y el cálculo de probabilidades en la misma. Como ya sabéis, GeoGebra es un software libre de matemáticas, escrito en Java, para educación en todos sus niveles disponible en múltiples plataformas. Reúne dinámicamente, aritmética, geometría, álgebra y cálculo en un único conjunto tan sencillo a nivel operativo como potente. Ofrece representaciones diversas de los objetos desde cada una de sus posibles perspectivas: vistas gráficas, algebraicas, estadísticas y de organización en organización en tablas y planillas y hojas de datos dinámicamente vinculadas.

Distribución Normal

Cálculo de probabilidades en una N(0,1) del tipo P(Z<k)=P(Z≤k)

Cálculo de probabilidades en una N(μ,σ) del tipo P(X<k)=P(X≤k)

Cálculo de probabilidades en una N(0,1) del tipo P(a<Z<b)

Uno de los aspectos que serán de especial relevancia para la comprensión del resto de temas de la asignatura es saber calcular percentiles en distintas distribuciones y entender su significado. El siguiente geogebra realizado por José Álvarez nos lo muestra gráficamente para el caso de la N(0,1).

Valores críticos de una N(0,1)

¿Qué es el INE?

Posted on 30/03/2011 by Violeta Migallón

El Instituto Nacional de Estadística (http://www.ine.es/) tiene como misión la elaboración y perfeccionamiento de las estadísticas demográficas, económicas y sociales ya existentes, la creación de otras nuevas y la coordinación con los servicios estadísticos de las áreas provinciales y municipales.

INEbase es el sistema que utiliza el INE para el almacenamiento de la información estadística en Internet. Contiene toda la información que el INE produce en formatos electrónicos.

A las operaciones estadísticas se puede acceder directamente a través de la lista completa de operaciones de INEbase o a través de los menús temáticos. Estos menús permiten conocer toda la información disponible de cada tema: operaciones para las que se presentan resultados, junto con una pequeña descripción de las variables publicadas, la periodicidad y disponibilidad de los datos y el ámbito geográfico; publicaciones y estudios relacionados; enlaces a otras webs donde ampliar la información de fuentes externas; y un enlace al Inventario de Operaciones Estadísticas de la Administración General del Estado (IOE) para conocer todas las operaciones del Sistema Estadístico Español relacionadas con el tema.

Para cada operación estadística en INEbase existe una página que da acceso a toda la información relativa a la misma: los resultados detallados completos, la última nota de prensa publicada, el calendario de disponibilidad de datos y toda la información metodológica o descriptiva que ayuda a la mejor comprensión e interpretación de los datos (metodologías, cuestionarios, clasificaciones, notas explicativas,…).

Los resultados detallados incluyen los últimos resultados publicados y además la historia reciente de la estadística. Los ficheros de datos se pueden visualizar directamente desde INEbase o descargar en diversos formatos (excel, csv) incluido el formato Pc-Axis para un tratamiento posterior utilizando el programa Pc-Axis cuya descarga se puede hacer de forma gratuita.

Distribución binomial: un ejemplo de cálculo de probabilidades

Posted on 18/03/2011 by Violeta Migallón

En este curso, para resolver problemas relacionados con la distribución binomial se utiliza el SPSS. Por ejemplo, supongamos que un examen consta de 10 preguntas con 2 posibles respuestas cada una, de las cuales solamente una es correcta. Si se responde al azar a cada una de las preguntas, hay que calcular una serie de probabilidades.

a) Probabilidad de acertar 5 preguntas exactamente.

b) Probabilidad de acertar al menos 1.

c) Probabilidad de acertar al menos 5.

d) Probabilidad de contestar correctamente entre 3 y 6 preguntas en dicho test.

Solución:

Sea X=número de preguntas contestadas correctamente en un test de un total de 10 preguntas.

n=10

p=p(éxito)=p(pregunta contestada correctamente)=0.5, por tanto p permanece constante.

Asumiendo independencia entre las contestaciones de las preguntas, obtenemos que X~B(10,0.5).

Entonces:

a) P(X=5)=PDF.BINOM(5,10,0.5).

b) P(X≥1)=1-P(X<1)=1-P(X=0)=1-PDF.BINOM(0,10,0.5).

c) P(X≥5)=1-P(X<5)=1-P(X≤4)=1-CDF.BINOM(4,10,0.5).

d) P(3≤X≤6)=P(X≤6)-P(X<3)=P(X≤6)-P(X≤2)=

=CDF.BINOM(6,10,0.5)-CDF.BINOM(2,10,0.5)=0.773437.

Ahora solamente quedaría acceder al SPSS y hacer los cálculos oportunos. Recordad que a la hora de corregir los ejercicios se le dará mucha importancia al planteamiento, el cual se debe realizar de forma razonada e incluyendo todos los pasos como se ha hecho aquí.

Estadística y sondeos electorales

Posted on 18/03/2011 by Violeta Migallón

En breve habrá elecciones municipales en España y ya han empezado a realizarse los primeros sondeos. Los sondeos electorales son una de las aplicaciones de la estadística que más interés despierta. Una de las características de estos sondeos es que una vez realizadas las elecciones se sabe si las estimaciones obtenidas con las encuestas se han acercado realmente a los resultados definitivos obtenidos en las elecciones. Por lo que todos podemos opinar y como la realidad es que algunas veces fallan, esto produce críticas e incredulidad dando la impresión de que la estadística no es una ciencia seria. Pero no siempre es así, muchos han sido los casos de éxito a lo largo de la historia electoral.

Quizá deberíamos hacernos la siguiente pregunta: ¿Se aplican bien los principios de la estadística matemática?

Para que los resultados obtenidos se puedan extrapolar a la población es imprescindible que la muestra sea realmente representativa de la población y se haya obtenido de forma aleatoria.
Los sondeos electorales se basan en encuestas realizadas con anterioridad a las elecciones y todos sabemos que la intención de voto va cambiando. Dichos cambios no se pueden predecir estadísticamente. Un ejemplo claro de este aspecto lo tenemos en lo que ocurrió en las elecciones españolas de 2004, cuando tres días antes de las elecciones se produjo el atentado del 11 de marzo. En este caso, los sondeos electorales fracasaron estrepitosamente.
No se puede saber a quién votarán los indecisos. El grupo de indecisos suele representar entre el 20% y 50% y en estos sondeos, atendiendo a las respuestas a una serie de preguntas adicionales (como a qué partido votó en las últimas elecciones o con qué partido simpatiza) se toma la decisión de asignar cada uno de esos votos indecisos a uno u otro partido. Esto no tiene nada que ver realmente con la estadística, sino más bien con la sociología, psicología y el análisis político.
Nadie nos asegura que los encuestados hayan sido sinceros en su respuesta.
En unas elecciones lo relevante no es el porcentaje de votos que va a tener cada partido, sino el número de escaños. Como se ha visto en el vídeo, en España se usa la ley d’Hondt. Toda encuesta estadística tiene un error, en este caso del 3.01% con una confianza del 95% (este concepto, aunque queda bastante claro en el vídeo, se tratará en el tema 6). Ese error puede decantar un escaño a un partido u otro, pero no se tiene información suficiente para tomar la decisión a priori.

Modelos de distribución discretos y continuos con R y SPSS

Posted on 15/03/2011 by Violeta Migallón

El siguiente vídeo resume algunas de las opciones del SPSS y de R que se van a utilizar en el tema de Modelos de distribuciones discretos y continuos para realizar la correspondiente práctica en el laboratorio.

iframes no soportados en este navegador

A la hora de entender el cálculo de probabilidades en variables aleatorias continuas, es útil conocer la forma que tiene la función de densidad. Tal y como se desprende del vídeo, con R podemos ver la forma de dicha función para variables aleatorias continuas tales como la Normal, t de Student, F de Snedecor, Ji-cuadrado, etc. Para otras funciones de densidad relativas a los ejercicios iniciales sobre variables aleatorias continuas podemos usar, por ejemplo, fooplot, una herramienta on-line que permite representar gráficamente funciones.

R y R-Commander

Posted on 15/03/2011 by Violeta Migallón

Aunque generalmente utilizaremos el SPSS, también se irán introduciendo algunos procedimientos estadísticos con el software R.

R es un lenguaje de programación y un entorno para análisis estadístico y la realización de gráficos. Debido a su naturaleza es fácilmente adaptable a una gran variedad de tareas. Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en Nueva Zelanda. R actualmente es el resultado de un esfuerzo de colaboración de personas del todo el mundo. Desde mediados de 1997 se formó lo que se conoce como núcleo de desarrollo de R, que actualmente es el que tiene la posibilidad de modificación directa del código fuente. R abarca una amplia gama de técnicas estadísticas que van desde los modelos lineales a las más modernas técnicas de clasificación pasando por los test clásicos. El código de R está disponible como software libre bajo las condiciones de la licencia GNU-GPL. Además está disponible precompilado para una multitud de plataformas. La página principal del proyecto es http://www.r-project.org.

El software libre R con el entorno gráfico R-Commander (Rcmdr) se puede obtener en la siguiente dirección (para windows): http://cran.es.r-project.org/bin/windows/base/release.htm

Luego se procede con la ejecución, siguiendo las instrucciones. Para la instalación de Rcmdr, se arranca R desde Inicio → Todos los programas → R. A continuación, Paquetes → Instalar Paquete(s) y elegido el mirror desde el cual se quiere instalar el paquete, por ejemplo Spain (Madrid), se selecciona Rcmdr.

Harán falta más paquetes para la instalación completa de Rcmdr, pero se instalarán automáticamente la primera vez que se ejecute.

Si se cierra Rcmdr (sin cerrar R), para volver a cargarlo se debe ejecutar la instrucción Commander().

Instrucciones más detalladas y actualizadas pueden encontrarse en http://knuth.uca.es/R en la sección R Wiki. Además, existen multitud de documentos que ilustran sobre el manejo de R. En particular, el siguiente libro, accesible on-line explica como utilizar R y R-Commander en Estadística básica y la forma de instalarlo tanto sobre Windows como sobre GNU/LINUX: http://knuth.uca.es/moodle/course/view.php?id=37

PSPP una alternativa libre al SPSS

Posted on 13/03/2011 by Violeta Migallón

PSPP es un una aplicación de software libre para el análisis de datos. Se presenta en modo gráfico y está escrita en el lenguaje de programación C. Su apariencia es similar al software propietario SPSS, de hecho pretende ser su sustitución en versión libre, aunque por el momento dispone de menos funcionalidades que el SPSS. Con PSPP se pueden tratar ficheros de datos creados con SPSS sin ningún problema.

En el siguiente enlace podéis acceder a la web del producto: http://www.gnu.org/software/pspp/ y descargarlo.

¿Qué es un audímetro? ¿Has visto alguna vez uno?

Posted on 12/03/2011 by Violeta Migallón

Si quieres saber algo más sobre los sistemas de medición de audiencias en televisión y esos aparatitos que se llaman audímetros que explicamos en clase puedes ver el siguiente reportaje: como verás alrededor de 4.500 familias (4.625 hogares, a día de hoy, según la información disponible en la página web de Kantar Media) en España deciden lo que vemos todos por la tele. Y nadie sabe quiénes son.

La llegada de la tecnología digital supuso un serio problema para los audímetros tradicionales. Se ponía en cuestión su principal capacidad: el reconocimiento preciso de la cadena sintonizada. Tal reconocimiento se hacía a través de la detección de la frecuencia de sintonía o del canal radioeléctrico. La correspondencia entre canal radioléctrico y cadena era biunívoca para un dispositivo determinado, con lo que la base para la determinación de la cadena estaba establecida. El problema es que en un entorno digital, dentro de un mismo canal radioeléctrico se concentran las señales de un número diverso de cadenas diferentes. Una de las soluciones para este problema ha sido utilizar un enfoque basado en el reconocimiento de la señal de vídeo. Es la línea que sigue, entre otros, el Picture Matching System que actualmente utiliza Sofres AM (actualmente Kantar Media) para la identificación de las cadenas emitidas por las plataformas digitales en España.

El audímetro Picture Matching basa su funcionamiento en el contenido de la emisión en sí, más concretamente en la señal de vídeo, es decir, en la imagen que se está viendo en el televisor sondado. La filosofía general consiste en el almacenamiento de muestras de la señal de vídeo en los televisores de los hogares que, tras su comparación (matching) con las muestras tomadas para cada una de las cadenas, permitirá determinar cual es la cadena vista en un televisor en cada momento.

Lo que realmente recoge el audímetro no son muestras de la imagen, sino el resultado de múltiples comparaciones de luminosidad entre pares de parcelas o celdas de la pantalla. Para el Picture Matching, la imagen se reduce a la luminosidad media de 32 pequeñas celdas que se encuentran fijadas de forma pseudo-aleatoria en la pantalla.

Estas 32 celdas están organizadas en 16 parejas, de cada una de las cuales se pueden obtener dos posibles resultados dependiendo de cual de las dos parcelas que forman dicha pareja sea más oscura. Tendremos por tanto 16 bits de información posible por cada imagen en la pantalla, (un bit por pareja, si la celda de la izquierda es más oscura que la de la derecha, le asignará el valor “1”, en caso contrario le asignara el valor “0”). La superficie de la imagen con la que el audímetro opera supone aproximadamente un 5 % de la superficie total de la pantalla.

El sistema sigue un algoritmo de eliminación, es decir, determina la cadena correspondiente por eliminación de aquellas que no lo son. Al comenzar el proceso, se contemplan todas las cadenas controladas y se van comparando las muestras (bits) recogidas en el hogar con las obtenidas en la Central para cada una de las cadenas. A medida que se producen discordancias entre la información de una cadena y la obtenida en el hogar, esta cadena es eliminada, y se continúa la comparación con las cadenas restantes. Cuando, durante el proceso, solo quede una cadena para la cual los datos de la Central y del hogar sean coincidentes, ésta será la cadena vista en dicho televisor. Cuando estos datos dejan de coincidir es señal de que se ha producido un cambio de cadena, incluyéndose de nuevo todas las cadenas para realizar una vez más el proceso de eliminación.

Bienvenid@s al blog de Estadística de Ingeniería Multimedia

Posted on 27/01/2011 by Violeta Migallón

Bienvenid@s al blog de la asignatura Estadística del Grado en Ingeniería Multimedia. Un blog que construiremos poco a poco a lo largo del curso entre tod@s. Para participar en él debes ser estudiante de la asignatura y solicitar en clase de prácticas registrarte en el mismo.

No lo olvidéis el martes 8 de febrero a las 9:00 de 2011 empiezan las clases de Estadística en esta nueva titulación. Ese día explicaremos el funcionamiento de la asignatura. Pero si os pica la curiosidad, podéis ir al Campus Virtual y leer la sesión 1: Presentación y normas de Estadística de Ingeniería Multimedia.

Estadística + Ingeniería Multimedia

Blog sobre la asignatura Estadística de Ingeniería Multimedia