Introducción al muestreo y sistemas de medición de audiencias (guión para teoría)

Hoy he estado probando SlideShare con el fin de compartir en el blog parte del material de la asignatura que el alumnado tiene disponible en el Campus Virtual. Aquí os dejo el guión que se utiliza en clase para explicar el tema 2 de la asignatura. Este guión se complementa con la explicación en el aula de la profesora y la realización de ejercicios complementarios así como con el libro on-line de la asignatura. Recordad que un guión  no son unos apuntes.

 

El INE publica los resultados de la Encuesta de Estructura Salarial 2010

El INE ha  publicado los resultados de la  Encuesta de Estructura Salarial 2010 (EES-10). Esta es una investigación sobre la estructura y distribución de los salarios de periodicidad cuatrienal, que se realiza en todos los Estados miembros de la Unión Europea (UE). Resumimos algunos de los resultados:

  • El salario bruto medio anual en España fue de 22.790,20 euros por trabajador en el año 2010, ganando los trabajadores de nacionalidad española de media un 2,4% más ( casi  547 euros más al año).

  • El País Vasco, con 26.593,70 euros brutos anuales por trabajador, presentó el salario bruto medio anual más alto. Canarias, con 19.315,56 euros, tuvo el más bajo. En la  Comunidad Valenciana el salario bruto anual fue de 20.707,24 euros, situándose la quinta por la cola como puede apreciarse en la tabla. Tabla que también nos muestra una triste realidad, las mujeres siguen ganando de media bastante menos que los hombres en todas las Comunidades Autónomas.
  • Hay grandes diferencias salariales por actividad económica.  Las mejores pagadas: las actividades relacionadas con el suministro de energía eléctrica, gas, vapor y aire acondicionado y las actividades financieras y de seguros. Las peores pagadas, la hostelería y las actividades administrativas y de servicios auxiliares.
  • Las diferencias salariales son notables atendiendo al nivel de estudios. Los licenciados universitarios percibieron un salario anual superior en un 57,4% al salario medio. Por su parte, el salario de los trabajadores con sólo educación primaria fue un 25,1% inferior y el de los trabajadores sin estudios  un 32.1% inferior. Y algo preocupante, el salario medio de las mujeres estuvo más de un 20% por debajo del de los hombres en cada nivel de estudios. Las diferencias salariales entre hombres y mujeres son más acusadas en los grupos de mayor edad pero da igual la edad que se tenga, en media siempre ganan más los hombres. ¿Cambiará esto algún día?

Los principales resultados se pueden descargar aquí y si lo que quieres es investigar un poco y analizar más datos puedes acceder a los resultados detallados.

Web Equation y WolframAlpha

Con Web Equation podemos escribir una expresión matemática a mano (con el ratón si estamos en un ordenador o simplemente con el dedo en una tablet) y te la reconoce dando el código latex y MathML, además a través de “compute with WolframAlpha” podremos resolver esa integral, derivada, ecuación, etc. que habíamos escrito previamente a mano.

Os muestro aquí un ejemplo con una integral definida.

Y a continuación los cálculos que realiza WolframAlpha.

Media, mediana y moda. No dejes que te líen

Aquí os dejo un vídeo realizado en la asignatura sobre la media, mediana y moda en el que el Señor Angulo va a ver al director de la empresa en la que trabaja porque cree que le ha engañado a la hora de explicarle las condiciones económicas del puesto en el que ha sido contratado.  No te lo pierdas, te ayudará a entender la diferencia entre estos tres conceptos.

Si quieres ver otros vídeos publicados en el  blog pincha aquí.


¿Cuántos números de 6 cifras …?

¿Te atreves con el siguiente ejercicio?:

¿Cuántos números no negativos de seis cifras tienen al menos una cifra par?

Ayúdate de la siguiente actividad tipo test para ver si sabes plantear este tipo de problemas.

Hay preguntas de respuesta única y de respuesta múltiple:

[kml_flashembed movie=”http://www.educaplay.com/es/actividades/689469/actividad_v1_2.swf” width=”550″ height=”550″ wmode=”transparent” /]

 

¿Qué es Stat Trek?

Stat Trek es un  sitio web que proporciona herramientas on-line para ayudar a resolver problemas de  estadística.  Está bastante bien y ayuda a entender los conceptos. En esta asignatura lo utilizaremos especialmente en el tema de probabilidad y análisis combinatorio, pero puede servir para el cálculo de probabilidades en  el tema de modelos de distribuciones discretos y continuos o incluso para simular muestreos aleatorios.

 

¿Tienes la base necesaria para cursar Estadística de Ingeniería Multimedia? Compruébalo jugando

Comprueba qué base tienes para seguir la asignatura de Estadística de Ingeniería Multimedia. Es un juego con preguntas muy sencillas preparado  en la asignatura para que analicéis qué hay que repasar de vuestros estudios preuniversitarios … ¿Cuántos puntos has conseguido y porcentaje de acierto? Si no llegas al 50% tendrás que ponerte las pilas …

Pincha aquí si quieres jugar. Y si lo que quieres hacer es ver más juegos del blog pincha aquí.

 

Unos cuantos ejercicios para practicar el tema 2

INTRODUCCIÓN AL MUESTREO Y SISTEMAS DE MEDICIÓN DE AUDIENCIAS 

Ejercicio 2.1: Clasifica las siguientes variables.

  • Número de visitas a un sitio Web en un periodo de tiempo
  • Tiempo dedicado a jugar con la consola a la semana
  • Vida útil de una batería
  • Sistema operativo preferido
  • Sueldo de las personas mayores de 40 años
  • Comprensión lectora (baja, media o alta)
  • Marca de diferentes ordenadores
  • Número de conexiones a internet en un periodo de tiempo
  • Estado de conservación de diferentes ordenadores (malo, bueno, regular)
  • Velocidad en Hz. de un microprocesador
  • Nivel educativo (primario, secundario, superior)
  • Tiempo de respuesta de un tipo de pantalla LCD
  • La variable sexo codificada con 1 para chicos y 2 para chicas
  • Preferencias musicales
  • Número de dispositivos electrónicos defectuosos en la producción diaria de una empresa

Ejercicio 2.2: Una gran multinacional ha solicitado a su departamento de informática que realice una aplicación que permita gestionar on-line las ventas de sus comerciales. Para hacer las primeras comprobaciones deciden elegir 5 comerciales mediante un muestreo aleatorio. Para ello disponen de un fichero con 750 filas donde en la primera fila aparecen los campos que definen cada uno de los datos tomados a los comerciales (DNI, apellidos, nombre, etc.) seguido del resto de filas con los datos concretos de cada uno de los comerciales.

  • Obtén a través de un muestreo aleatorio simple, la muestra de comerciales requerida, indicando en qué filas aparecerán los datos de los comerciales que van a formar parte de la muestra. Explica los pasos seguidos y qué generador de números aleatorios has utilizado.
  • Obtén a través de un muestreo sistemático, la muestra de comerciales requerida en este caso, indicando en qué filas aparecerán los datos de los comerciales que van a formar parte de la muestra. Explica los pasos seguidos.

Ejercicio 2.3: En una de las líneas de producción de una empresa se producen piezas electrónicas que luego se empaquetan en bolsas que contienen cada una de ellas 500 piezas. Posteriormente las bolsas se introducen en contenedores con capacidad para 50 bolsas. El inspector del control de calidad de la empresa quiere analizar el funcionamiento de dicha línea de producción. Esto es importante para la empresa porque cualquier desviación en las medidas de las piezas producidas supondría grandes pérdidas para la empresa. Explica cuál es el muestreo aleatorio más apropiado para realizar este control de calidad una vez llenados los contenedores y explica qué pasos podría seguir para realizar dicho muestreo si se desea extraer una muestra de 1000 piezas.

Ejercicio 2.4: Una gran multinacional ha solicitado a su departamento de informática que realice una aplicación que permita gestionar on-line las ventas de sus comerciales. Para hacer las primeras comprobaciones deciden elegir una muestra aleatoria de 9 comerciales. Para ello disponen de un fichero con 965 filas en el que en las ocho primeras filas aparece una cabecera, en la novena los campos que definen cada uno de los datos tomados a los comerciales (Zona, DNI, apellidos, nombre, etc.) seguido del resto de filas con los datos concretos de cada uno de los comerciales. Estos datos se han ordenado por Zona (zona A, zona B) y las 340 últimas filas muestran los datos de los comerciales de la zona B. Si se realiza un muestreo estratificado, indica el número de comerciales que debe coger de cada zona. Posteriormente simula un muestreo sistemático en cada zona e índica en qué filas aparecerán los datos de los comerciales que van a formar parte de la muestra.

Ejercicio 2.5: Se sabe que en cierta ciudad hay 1761 hoteles distribuidos de la siguiente forma atendiendo a la categoría: 225 de 5 estrellas, 356 de 4 estrellas, 329 de 3 estrellas, 404 de 2 estrellas y 447 de una estrella. Se desea extraer una muestra aleatoria de tamaño 430 para analizar la política de los hoteles respecto al servicio de acceso a Internet. Explica qué tipo de muestreo es el más apropiado y explica todo el proceso a realizar dando los tamaños muestrales correspondientes.

Ejercicio 2.6: Un centro comercial acaba de recibir dos pedidos de sintonizadores TDT para ponerlos a la venta entre sus clientes, uno de la empresa A y otro de la empresa B. Los sintonizadores de la empresa A vienen numerados con códigos desde el 2324 al 4500 y los de la empresa B del 995 al 3416. El gerente de dicho centro está preocupado por la calidad de dichos sintonizadores y decide obtener una muestra de 7 aparatos y someterlos a varias pruebas. Simula, paso por paso y de forma razonada, un muestreo estratificado para obtener dicha muestra, utilizando en cada uno de los estratos un muestreo aleatorio sistemático. Indica para cada elemento obtenido en la muestra, qué código tiene y de qué empresa es.

Ejercicio 2.7: Se desea conocer la política de las tiendas de informática de una gran ciudad respecto al uso de software pirata. Para ello una cadena de televisión pretende hacer un estudio exhaustivo con cámara oculta en una muestra aleatoria de dichas tiendas. Se dispone de un fichero con todas las tiendas de la ciudad por localización geográfica. Propón de forma razonada un método de muestreo apropiado.

Ejercicio 2.8: Haz una pequeña investigación para ampliar los tipos de muestreo dados en clase y explica en qué consiste y de qué tipo es el muestreo bola de nieve. Explica algunos de los motivos por los que se usa este muestreo y si los resultados obtenidos a través del mismo son extrapolables a la población total. Incluye las referencias utilizadas en el desarrollo de este ejercicio.

Ejercicio 2.9: Haz una pequeña investigación para ampliar la información dada en clase y explica en qué consisten los sistemas de medición de audiencias en Internet mediante análisis de logs y mediante análisis de tags, indicando algunas de las ventajas e inconvenientes de los mismos. Incluye las referencias utilizadas en el desarrollo de este ejercicio.

Ejercicio 2.10: Realiza las siguientes cuestiones.

  • Explica los conceptos de muestreo aleatorio estratificado y muestreo por conglomerado. Indica cuándo debe utilizarse cada uno de ellos y pon ejemplos que ilustren tu explicación.
  • Explica, en el contexto de la estadística, qué es un grupo de interés y qué características debe tener. Pon algún ejemplo que ilustre tu explicación.

Ejercicio 2.11: En un municipio  de 397 personas se desea obtener una muestra de 17 personas mediante muestreo aleatorio sistemático. Describe el proceso y simula dicha muestra sistemática.

Ejercicio 2.12: Una gran empresa ha solicitado a su departamento de informática que realice una aplicación que permita gestionar on-line las ventas en todas sus tiendas. Para hacer las primeras comprobaciones deciden elegir 7 tiendas. Para ello disponen de un fichero con 1520 filas en el que en las 3 primeras filas aparece una cabecera y en la cuarta los campos que definen cada uno de los datos tomados de cada tienda (Dirección postal, Nombre del gerente, etc.). A continuación están el resto de filas con los datos concretos de cada una de las tiendas. Simula de forma razonada un muestreo sistemático e indica en qué filas aparecerán los datos de las tiendas que van a formar parte de la muestra.

Ejercicio 2.13: Explica los siguientes conceptos indicando además en qué contexto aparecen y poniendo un ejemplo ilustrativo en cada caso: Difusión, tirada, rating, share, metodología user centric.

Ejercicio 2.14: Una gran empresa ha solicitado a su departamento de informática que realice una aplicación que permita gestionar on-line las ventas en todas sus tiendas. Para hacer las primeras comprobaciones deciden elegir 4 tiendas. Para ello disponen de un fichero con 1230 filas en el que en las seis primeras filas aparece una cabecera y en la séptima los campos que definen cada uno de los datos tomados de cada tienda (Dirección postal, nombre del gerente, etc.). A continuación están el resto de filas con los datos concretos de cada una de las tiendas. Simula de forma razonada un muestreo aleatorio simple e indica en qué filas aparecerán los datos de las tiendas que van a formar parte de la muestra.

Ejercicio 2.15: Un centro comercial acaba de recibir un pedido de sintonizadores TDT para ponerlos a la venta entre sus clientes. Dichos sintonizadores vienen numerados con códigos desde el 3456 al 4795. El gerente de dicho centro está preocupado por la calidad de dichos sintonizadores y decide obtener una muestra sistemática de 6 aparatos y someterlos a varias pruebas. Ayúdale a obtener la muestra.

Ejercicio 2.16: Una compañía de alquiler de automóviles desea estimar el kilometraje promedio de su flota. Cuenta con 10000 automóviles. De estos, 2000 son automóviles grandes, 3500 medianos, 2000 pequeños y 2500 compactos. Después de analizar los errores potenciales involucrados en el muestreo, la compañía decidió que el tamaño de la muestra fuera de 1200. También decidió hacer una estratificación según los tamaños de los automóviles. Explica cuántos automóviles se deben muestrear en cada categoría.

Ejercicio 2.17: Una gran compañía ha hecho una compra de 31800 ordenadores portátiles, para sus trabajadores, a dos empresas (A y B). De la empresa A compró 12300 portátiles y de la empresa B compró el resto. El director de la compañía desea realizar un control de calidad sobre 300 de esos portátiles. Explica qué tipo de muestreo es el más apropiado y explica todo el proceso a realizar dando los tamaños muestrales correspondientes.

Ejercicio 2.18: Explica en qué consiste la recogida de datos por registros. Indica algún ejemplo que ilustre tu explicación.

Ejercicio 2.19: Explica en qué consiste la recogida de datos por observación. Indica varios ejemplos que ilustre tu explicación.

Ejercicio 2.20: Explica, según lo tratado en teoría, las posibles ventajas de estudiar una población a partir de muestras. Da además para cada una de dichas ventajas un ejemplo explicativo.

Ejercicio 2.21: Comprueba que tienes claros algunos conceptos básicos del tema con el siguiente juego y anota tu puntuación: https://blogs.ua.es/violeta/2011/11/02/sencillo-videojuego-estadisticaim-introduccion-al-muestreo/

Algunos recursos multimedia para generar contenidos educativos

A continuación se incluyen algunos recursos multimedia que pueden ser útiles a la hora de generar contenidos educativos. Algunos de ellos han sido utilizados en este blog.

Generación de encuestas

Formularios de google.doc

e-encuesta.com

Encuestafacil

99Polls

Creación de animaciones

ToonDoo

Pixton

Strip Generator

GoAnimate

Aniboom / Shapeshifter

Fuzzwich

xtranormal

Moviestorm

Actividades multimedia educativas

educaplay

Hot Potatoes

Creación de gráficos estadísticos

RGrap

FusionCharts

Astra Charts

Appfire FlashCharts Plugin

Open Flash Chart

Google Chart Tools

XML/SWF Charts

Rich Chart Live

Recursos PowerPoint

Uso didactico del Powerpoint y más

PowerPoint Games and Game Templates

Página con varias plantillas

PowerPoint Game Templates

Herramientas y plantillas para generación de juegos

What 2 Learn

Quiz Game Master

Contentgenerator.net

A4Flashgame

Super Teacher Tools

Adventure Maker

GameMaker

Enlaces a más recursos

Classroom Aids

Technology-based Learning Activities Master Hyperlink List & Examples

 

Necesitas ayuda con las distribuciones, pues hazle volar

Siéntete de nuevo en tu infancia y haz volar lo más lejos posible al profe (que no a la profe) y las veces que quieras con Fling the teacher, un minijuego infantil. Siempre que contestes bien a las preguntas correspondientes del juego,  claro. Son preguntas relacionadas con la práctica del tema 5 que también te pueden ayudar a realizarla o comprobar que vas por el buen camino.

Pincha aquí si prefieres jugar y si lo que quieres es ver más juegos del blog accede aquí.

La importancia de transmitir y analizar bien los datos estadísticos, un ejemplo sobre política

Estos últimos días he leído estas dos afirmaciones  en distintos medios de comunicación y blogs atribuidas al ministro de Educación Wert. No he podido contrastar qué dijo exactamente ya que no he encontrado el vídeo con las palabras exactas pero todo parece apuntar  que fue la segunda. Lo que sí he constatado es que el ministro suele basarse mucho en datos estadísticos para justificar reformas, comisiones de expertos y recortes. Pero hay que tener cuidado a la hora de transmitir datos estadísticos  ya que si el análisis previo  no es exhaustivo  la información que nos llega puede llenar titulares y darnos a entender a la sociedad cosas (en este caso ha sido sobre el sistema universitario) que realmente no son las que concluyen los datos estadísticos.

Las afirmaciones leídas  son:

(1)        Hay un 21% de desempleo entre los universitarios de 25 a 29 años.

(2)        Entre los parados de 25 a 29 años, el 21% son universitarios.

Muchas personas tienden a pensar que se está diciendo lo mismo en ambos casos pero ni mucho menos. Veámoslo:

(1)        Si se indica que hay un 21% de desempleo entre los universitarios de 25 a 29 años nos están diciendo que el porcentaje de parados en el conjunto de los universitarios entre 25 y 29 años es del 21%.

Vamos a plantearlo en forma de probabilidades condicionadas tal y como vimos en las clases de estadística:

P(estar parado| ser universitario entre 25 y 29 años)=0.21.

Si esto fuera cierto, es un dato muy  alarmante pero en un análisis estadístico serio que permitiera analizar realmente la situación se deberían haber incluido datos adicionales tales como el porcentaje de parados en  el conjunto de personas  no universitarias de 25 a 29 años o el porcentaje de parados en el conjunto de jóvenes en general de 25 a 29 años.

Estos porcentajes tratados como probabilidades (tanto por uno) corresponderían   con calcular las siguientes probabilidades condicionadas, respectivamente:

P(estar parado| no ser universitario y tener entre 25 y 29 años)

P(estar parado| tener entre 25 y 29 años)

Estas probabilidades no se pueden obtener del dato inicial (21%) ya que los conjuntos de referencia para los que se calcula la cantidad de parados son diferentes en cada uno de los tres casos.

Ya puestos, si se quiere hacer un estudio estadístico serio, se podrían realizar contrastes de hipótesis sobre proporciones y análisis ji-cuadrado para obtener unas primeras aproximaciones para el  total de la población que permitiera analizar el panorama actual de forma más fiable. No olvidemos que la mayoría de estas estimaciones estadísticas se obtienen a partir de muestras aleatorias, es decir con subconjuntos aleatorios de la población y no con toda la población. La inferencia estadística es la que permite extraer conclusiones para la población a partir de los datos muestrales.

(2)        En el segundo caso se dice: entre los parados de 25 a 29 años, el 21%  son universitarios.  La comprensión de esta afirmación es sencilla: concretamente nos están diciendo  que la población parada entre 25 y 29 años está distribuida de la siguiente forma: un 21% son universitarios y por tanto un 79% son no universitarios.  Si lo tratamos en términos de probabilidades diríamos:

P(ser universitario| ser parado con edad entre 25 y 29 años)=0.21.

Y como la probabilidad de un suceso es igual a uno menos la de su complementario obtenemos:

P(no ser universitario| ser parado con edad entre 25 y 29 años)=1-P( ser universitario| ser parado con edad entre 25 y 29 años)=1-0.21=0.79

Aunque a priori parezca dar mucha información, no es así,  y no son las probabilidades condicionadas más útiles para estudiar el problema del paro que nos ocupa. Para intentar analizar estadísticamente dicha afirmación deberíamos además  saber al menos qué porcentaje de universitarios y no universitarios hay en el conjunto de todos los jóvenes de 25 a 29 años y qué porcentaje de universitarios y no universitarios hay en el conjunto de todos los jóvenes de  25 a 29 años no parados.

En Facebook he compartido también un enlace a un artículo de José Antonio Pérez y Juan Hernández en el que los autores  muestran cómo el planteamiento que hace  Wert para justificar la reforma universitaria tiene datos estadísticos tratados  erróneamente.

No lo olvidéis, para hablar de estadística se ha de hacer con rigurosidad, no sirve con utilizar sólo aquellos datos estadísticos que van a ser favorables o convenientes  a unos propósitos  obviando otros que realmente permitirían radiografiar de forma más completa y real el sistema universitario español.

Dos ejercicios sobre distribuciones con Hot Potatoes

Los siguientes dos ejercicios te pueden ayudar a plantear y resolver problemas sobre distribuciones en los que se tengan que combinar varias distribuciones, discretas y/o continuas, para llegar al resultado (son ejercicios  del mismo tipo que   el  5.7 y 5.8 de la práctica del tema):

Si quieres ver más actividades del blog planteadas con  Hot Potatoes puedes acceder desde  aquí.

Enunciados de ejercicios relacionados con las distribuciones continuas

Ejercicio 1. Sea X una variable aleatoria continua tal que:

f(x)=1/x2, x>1

f(x)=0, en el resto

Comprueba que f cumple las propiedades para ser una función de densidad. Calcula la   función de distribución de X. Obtén k tal que F(k)=1/2.

Ejercicio 2. Sea X una variable aleatoria continua cuya función de densidad es

f(x)=x, 0≤x≤1

f(x)=2-x, 1<x≤2

f(x)=0, en el resto

Calcula su  función de distribución.

Ejercicio 3. Calcula el valor de k para que la siguiente función sea la función de densidad de una variable aleatoria continua X.

f(x)=k(1-x)2, 0<x<1

f(x)=0, en el resto

Una vez obtenido k, calcula la función de distribución de X.

Ejercicio 4. Sea X una variable aleatoria continua cuya función de densidad es

f(x)=1/3, 0<x<3

f(x)=0, en el resto

Calcula E(X) y Var(X).

Ejercicio 5. Calcula el valor de k para que la siguiente función sea la función de densidad de una variable aleatoria continua X.

f(x)=ke-x/2, x>0

f(x)=0, en el resto

Ejercicio 6. Sea X una variable aleatoria continua cuya función de densidad es

f(x)=1-|x|, |x|<1

f(x)=0, en el resto

Calcula su  función de distribución.

Ejercicio 7. Calcula el valor de k para que la siguiente función sea la función de densidad de una variable aleatoria continua X.

f(x)=kx2, -3<x<6

f(x)=0, en el resto

Una vez obtenido k, calcula P(X>2), sin calcular previamente la función de distribución.

Ejercicio 8. Calcula el valor de k para que la siguiente función sea la función de densidad de una variable aleatoria continua X.

f(x)=kx(1-x), 0<x<1

f(x)=0, en el resto

Una vez obtenido k, calcula P(X>0.5), sin calcular previamente la función de distribución.

Ejercicio 9. Sea X una variable aleatoria continua cuya función de densidad es

f(x)=2/3, 0<x<1

f(x)=1/3, 1≤x<2

f(x)=0, en el resto

Calcula E(X) y Var(X).

Ejercicio 10. Calcula el valor de k para que la siguiente función sea la función de densidad de una variable aleatoria continua X.

f(x)=k(1-x), 0≤x≤1

f(x)=0, en el resto

Una vez obtenido k, obtén la función de distribución. Calcula P(X<1/2), P(X>0.8) y  P(X>1/4| X<1/2). Calcula E(X) y Var(X).