1 00:00:12,210 --> 00:00:17,489 Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 2 00:00:17,489 --> 00:00:22,010 Arquitecto Pedro Gumiel de Alcalá de Henares y os doy la bienvenida a esta serie de videoclases 3 00:00:22,010 --> 00:00:26,730 de la unidad PR5 dedicada a la teoría de muestras y las distribuciones en el muestreo. 4 00:00:31,039 --> 00:00:35,020 En la videoclase de hoy estudiaremos elementos de la teoría de muestras. 5 00:00:35,899 --> 00:00:51,829 En esta primera videoclase de la unidad vamos a introducir conceptos elementales que vamos 6 00:00:51,829 --> 00:00:59,789 a utilizar a lo largo de ella. Comenzando por la diferencia entre población y muestra. Como podéis 7 00:00:59,789 --> 00:01:04,549 leer aquí vamos a llamar población al conjunto de individuos que es objeto de un cierto estudio 8 00:01:04,549 --> 00:01:09,489 estadístico. Por ejemplo si queremos estudiar cierta característica de la población española 9 00:01:09,489 --> 00:01:14,329 pues todos los habitantes de España. Si queremos estudiar cierta característica de los estudiantes 10 00:01:14,329 --> 00:01:19,670 del IES Arquitecto Pedro Gumel en un cierto curso académico serán todos los estudiantes matriculados 11 00:01:19,670 --> 00:01:22,269 en ese curso académico en el IES Arquitecto Pedro Gumiel. 12 00:01:22,849 --> 00:01:28,069 Si en un momento dado no podemos o no queremos estudiar al conjunto completo de individuos, 13 00:01:28,109 --> 00:01:32,069 a la población completa, lo que haremos será de ella tomar una muestra. 14 00:01:32,310 --> 00:01:35,650 Se llama muestra a cualquier subconjunto de la población. 15 00:01:36,629 --> 00:01:41,069 El interés de tomar una muestra se debe a distintas posibilidades. 16 00:01:41,609 --> 00:01:45,250 Hay ciertos estudios que son por su propia naturaleza destructivos. 17 00:01:46,030 --> 00:01:52,329 Por ejemplo, si queremos comprobar cuál es el punto de ruptura de una certa viga que sale fabricada en una certa máquina, 18 00:01:52,329 --> 00:01:58,489 lo que se hace es tomar la viga, aplicarle presión hasta que rompe o hasta que se dobla, se deforma. 19 00:01:59,170 --> 00:02:03,629 Cada vez que hacemos esto con una viga se destruye y no podemos hacerlo con todas, 20 00:02:03,769 --> 00:02:06,609 puesto que entonces toda la producción se destruiría y no tiene sentido. 21 00:02:07,069 --> 00:02:10,629 Haremos esto con una parte, no con todas. Haremos esto con una muestra. 22 00:02:11,229 --> 00:02:18,250 En el caso en el que queremos estudiar a toda la población española, en un momento dado puede ser que eso quede fuera de nuestro alcance. 23 00:02:18,789 --> 00:02:23,969 No tenemos recursos, ya sea materiales o bien económicos, como para hacer un estudio a toda la población. 24 00:02:24,530 --> 00:02:26,750 Mucho menos, imaginaos, si fuera toda la población mundial. 25 00:02:27,289 --> 00:02:31,629 En ese caso, tomamos una muestra, tomamos un subconjunto de la población que la represente. 26 00:02:31,629 --> 00:02:38,770 presente. La clave para a la hora de seleccionar una muestra, veremos más adelante, es que esta 27 00:02:38,770 --> 00:02:44,150 muestra debe ser representativa. Dado que no estamos estudiando a toda la población sin 28 00:02:44,150 --> 00:02:49,189 únicamente un subconjunto, buscamos que ese subconjunto pueda representar a la población 29 00:02:49,189 --> 00:02:55,629 completa. De tal forma que las conclusiones que extraigamos estudiando la muestra sean no las 30 00:02:55,629 --> 00:03:00,949 mismas pero lo más parecidas posible a las que obtendríamos si estudiáramos a la población. 31 00:03:00,949 --> 00:03:04,969 Acerca de la representatividad de la muestra hablaremos un poco más adelante. 32 00:03:06,150 --> 00:03:13,789 Si hemos decidido no estudiar la población completa sino una muestra, tenemos que ver cómo seleccionamos esta muestra. 33 00:03:14,030 --> 00:03:21,270 A la acción de muestrear la población se le llama muestreo y existen distintos tipos que describo a continuación. 34 00:03:21,270 --> 00:03:31,069 Se llama muestreo aleatorio simple, aquel en el cual se selecciona los elementos de la muestra uno tras otro utilizando un determinado experimento aleatorio. 35 00:03:31,569 --> 00:03:44,490 Por ejemplo, tengo 100 individuos en la muestra, de los cuales quiero estudiar únicamente el de porciento, solamente a 10, sorteo uno de los 100, sorteo uno de los 99 restantes y así sucesivamente hasta que he seleccionado a los 10. 36 00:03:44,909 --> 00:03:48,009 Si hago esto así, lo que hago es un muestreo aleatorio simple. 37 00:03:48,969 --> 00:03:57,550 Un muestro sistemático tiene únicamente un experimento aleatorio para seleccionar al primer elemento y a partir de ahí utilizo algo sistemático. 38 00:03:58,069 --> 00:04:04,409 Por ejemplo, si de 100 elementos estoy seleccionando a 10 y los tengo ordenados del 1 al 100, lo que puedo hacer es sortear el primero 39 00:04:04,409 --> 00:04:15,469 y a partir de ahí, contando descarto 9 el décimo en la lista a continuación, lo selecciono, descarto 9 el décimo, lo selecciono y así sucesivamente. 40 00:04:15,469 --> 00:04:22,370 El primero lo he seleccionado aleatoriamente y a partir de ahí utilizo una regla sistemática. Cada 10 tomo 1. 41 00:04:23,430 --> 00:04:33,689 Un muestreo estratificado, como veis aquí, lo que hago es seleccionar un cierto número de individuos en cada estrato, es el término técnico, o bien en cada grupo en que se divide la población. 42 00:04:34,490 --> 00:04:42,509 Si, por ejemplo, quiero hacer un estudio en los estudiantes del IES Arquitecto Pedro Gumel, puedo tener interés en considerar los distintos niveles. 43 00:04:42,509 --> 00:04:47,670 primero, segundo, tercero, cuarto de la ESO, primero, segundo de bacheato, como distintos grupos, 44 00:04:48,009 --> 00:04:52,290 llamaríamos estratos, y lo que voy a hacer es dentro de cada estrato, dentro de cada grupo, 45 00:04:52,389 --> 00:04:57,629 hacer una selección, un muestreo, por ejemplo. Así pues, lo que tengo es una población dividida 46 00:04:57,629 --> 00:05:02,129 en estratos, en este caso serían los niveles, y dentro de cada estrato voy a hacer una selección, 47 00:05:02,129 --> 00:05:06,410 voy a tomar una muestra. Puedo hacerlo de esta manera o puedo considerar, por ejemplo, 48 00:05:06,910 --> 00:05:12,149 la población española y considerar que cada una de las comunidades autónomas y las ciudades 49 00:05:12,149 --> 00:05:16,110 autónomas, represé a un estrato y quiero hacer una selección dentro de cada 50 00:05:16,110 --> 00:05:20,569 estrato. También tenemos lo que se llama un muestreo por conglomerados. 51 00:05:21,589 --> 00:05:23,850 En este caso lo que voy a hacer es 52 00:05:23,850 --> 00:05:28,170 lo siguiente. Divido la población y en un muestreo monotápico 53 00:05:28,170 --> 00:05:31,810 lo que voy a hacer es seleccionar algunos conglomerados para que 54 00:05:31,810 --> 00:05:35,589 representen la población. En este caso sería equivalente a 55 00:05:35,589 --> 00:05:39,910 si quiero estudiar la población de Elías Arquitecto Pedro Gomiel, puedo 56 00:05:39,910 --> 00:05:44,970 dividir por conglomerados pensando en que cada uno de los grupos, cada uno de los niveles, perdón, es un 57 00:05:44,970 --> 00:05:50,949 conglomerado y en un muestreo monotápico selecciono, por ejemplo, los conglomerados pares, segundo y 58 00:05:50,949 --> 00:05:55,350 cuarto de la ESO, segundo de bachillerato, por ejemplo, y estudio todos ellos como representantes 59 00:05:55,350 --> 00:06:02,110 de la población completa. O bien, por ejemplo, divido la población española por comunidades 60 00:06:02,110 --> 00:06:07,089 autónomas, ahí tengo los conglomerados, y selecciono algunas de ellas y voy a hacer el estudio, por 61 00:06:07,089 --> 00:06:14,250 ejemplo en, lo selecciono de la manera que quiera que sea, Andalucía, Extremadura y Navarra. En un 62 00:06:14,250 --> 00:06:19,470 muestreo bietápico lo que voy a hacer es una combinación de un muestreo monotápico y un 63 00:06:19,470 --> 00:06:25,250 muestreo aleatorio. Voy a seleccionar ciertos conglomerados y de cada uno de ellos tomo una 64 00:06:25,250 --> 00:06:28,730 muestra, que puedo hacer por ejemplo con un muestreo aleatorio simple o sistemático o 65 00:06:28,730 --> 00:06:34,189 estratificado, como lo quiera considerar. Y así, por ejemplo, pues volviendo al ejemplo de la 66 00:06:34,189 --> 00:06:39,829 población española seleccionó algunos conglomerados para estudiar y que 67 00:06:39,829 --> 00:06:43,689 representen la población española y había pensado en andalucía extremadura 68 00:06:43,689 --> 00:06:48,589 y navarra y ahora aún así eso es menos que la población española completa pero 69 00:06:48,589 --> 00:06:51,769 la población de cada una de esas comunidades autónomas es muy grande me 70 00:06:51,769 --> 00:06:55,730 hacen una muestra y por ejemplo puedo seleccionar aleatoriamente mediante un 71 00:06:55,730 --> 00:06:59,430 muestreo aleatorio simple pues mil habitantes de cada una de esas 72 00:06:59,430 --> 00:07:06,759 comunidades, por ejemplo. El hecho de observar una muestra en lugar de la población completa 73 00:07:06,759 --> 00:07:14,560 introduce errores. Las conclusiones que obtengamos potencialmente van a ser diferentes y es inevitable 74 00:07:14,560 --> 00:07:21,500 puesto que no estamos estudiando toda la población sino únicamente un subconjunto de esta. Las 75 00:07:21,500 --> 00:07:28,620 conclusiones que extraigamos no tienen por qué coincidir. Buscaremos hacer el muestreo de tal 76 00:07:28,620 --> 00:07:34,000 forma que las conclusiones sean lo más parecidas posibles a las de la población e intentaremos 77 00:07:34,000 --> 00:07:39,040 utilizar técnicas matemáticas, a eso va a estar destinada esta unidad y la siguiente, de tal forma 78 00:07:39,040 --> 00:07:46,019 que nos garantice que las diferencias que obtengamos sean lo menores posibles. No obstante, va a haber 79 00:07:46,019 --> 00:07:51,639 una serie de errores que van a ser inevitables. El primero, que es consustancial al proceso de 80 00:07:51,639 --> 00:07:55,759 muestreo, el mero hecho de tomar una muestra introduce errores, es lo que se llama error 81 00:07:55,759 --> 00:08:01,439 muestral. Por el hecho de estar considerando una muestra como representante de la población 82 00:08:01,439 --> 00:08:07,100 completa, estamos cometiendo un error. También tenemos el que se llama error sistemático 83 00:08:07,100 --> 00:08:13,779 o sesgo, y este está asociado no al mero hecho de que tenemos una muestra, sino a cómo 84 00:08:13,779 --> 00:08:21,660 se ha seleccionado, si esta muestra es suficientemente representativa de la población o no. Esto 85 00:08:21,660 --> 00:08:30,420 se debe fundamentalmente a no tomar una muestra, un muestreo suficientemente aleatorio. El muestreo 86 00:08:30,420 --> 00:08:36,200 ideal es el muestreo aleatorio simple, en el cual si yo quiero de la población completa de estudiantes 87 00:08:36,200 --> 00:08:43,320 del IES Arquitecto Pedro Gumiel, pongamos 780 alumnos, seleccionar 20, lo que hago es de el 88 00:08:43,320 --> 00:08:49,820 conjunto de los 780 sorteo uno, de los restantes sorteo otro y así sucesivamente hasta que completo 89 00:08:49,820 --> 00:08:58,740 la muestra. Podría haber hecho el muestreo de una forma distinta. Podría haber pensado en un muestreo 90 00:08:58,740 --> 00:09:03,960 por conglomerados bietápico y lo que voy a hacer es considerar como conglomerados los distintos 91 00:09:03,960 --> 00:09:10,340 niveles y selecciono únicamente primero de la ESO y dentro de estos voy a seleccionar una muestra y 92 00:09:10,340 --> 00:09:16,360 voy a hacer un muestreo aleatorio simple de 20 estudiantes de primero de la ESO, puesto que este 93 00:09:16,360 --> 00:09:23,779 es el conglomerado que he decidido utilizar. Esto no es necesariamente representativo de la 94 00:09:23,779 --> 00:09:28,700 población completa, depende de la variable estadística que esté utilizando. Pero imaginad, 95 00:09:28,799 --> 00:09:34,279 por ejemplo, que estoy estudiando la estatura de los estudiantes y a todos nos entra en la cabeza 96 00:09:34,279 --> 00:09:40,019 que los estudiantes de primero de la ESO son significativamente más bajitos en promedio que 97 00:09:40,019 --> 00:09:45,200 los estudiantes de primero o segundo de bachillerato y es inevitable, es una cuestión de edad. Si estoy 98 00:09:45,200 --> 00:09:51,779 haciéndole ese estudio estoy cometiendo en primer lugar un error muestral porque estoy tomando una 99 00:09:51,779 --> 00:09:58,720 muestra y estoy cometiendo un sesgo puesto que estoy sistemáticamente tomando estudiantes que 100 00:09:58,720 --> 00:10:07,159 se sabe que son más bajitos que el conjunto de todos los estudiantes. Aquí hacerlo de esta manera 101 00:10:07,159 --> 00:10:12,620 me introduce además del error muestral un error sistemático que depende de cuál sea la variable 102 00:10:12,620 --> 00:10:18,559 estadística, si lo que estoy estudiando es la distancia a la cual viven los estudiantes del 103 00:10:18,559 --> 00:10:23,559 instituto, medida en metros o en kilómetros, o bien el tiempo que tardan en llegar, medio minutos o en 104 00:10:23,559 --> 00:10:29,299 horas, no necesariamente el considerar sólo estudiantes de primero de la ESO me va a introducir 105 00:10:29,299 --> 00:10:35,220 un error sistemático, puesto que en este caso la variable que estoy estudiando no parece que 106 00:10:35,220 --> 00:10:42,500 dependa de cuál sea la edad, no depende del nivel. Así pues, el error muestral se comete siempre, 107 00:10:42,620 --> 00:10:51,019 Es inevitable. Un error sistemático o bien sesgo se comete dependiendo de cuál sea la variable estadística. 108 00:10:51,019 --> 00:11:00,399 No siempre elegir un estrato de la forma en la que he comentado en el ejemplo anterior es tan arriesgado. 109 00:11:00,600 --> 00:11:03,639 No es una locura coger solamente estudiantes de primero de la ESO. 110 00:11:03,799 --> 00:11:08,720 Puede hacer que el estudio sea más simple. El muestreo y el estudio puede ser muy sencillo. 111 00:11:08,720 --> 00:11:14,960 y no necesariamente estoy introduciendo un sesgo, un error por sesgo, un error sistemático en las conclusiones. 112 00:11:15,659 --> 00:11:21,279 Acerca de esto hablaremos mucho más en clase con los ejemplos y con los ejercicios que resolvamos a continuación. 113 00:11:24,029 --> 00:11:28,649 Hace un momento hablaba de una variable estadística, una hipotética variable estadística que queríamos estudiar. 114 00:11:29,429 --> 00:11:31,929 En esta sección vamos a hablar de parámetros estadísticos. 115 00:11:32,110 --> 00:11:36,710 Como podéis ver, son cualquier valor numérico que describa esa variable estadística, 116 00:11:36,710 --> 00:11:41,710 esa característica de la población o muestra, dependiendo de qué sea lo que estemos estudiando. 117 00:11:42,490 --> 00:11:48,129 Nosotros vamos a utilizar como parámetros el tamaño, la proporción, la media y la 118 00:11:48,129 --> 00:11:53,529 varianza. Utilizaremos símbolos distintos en función de si estamos hablando o describiendo 119 00:11:53,529 --> 00:12:00,070 los parámetros de la población o bien de una muestra. El tamaño poblacional se representará 120 00:12:00,070 --> 00:12:05,289 siempre por la letra N mayúscula. El tamaño de una muestra determinada se representará 121 00:12:05,289 --> 00:12:12,049 con la letra n minúscula. La proporción poblacional se representará con la letra pi minúscula mientras 122 00:12:12,049 --> 00:12:17,429 que la proporción de una determinada muestra se representará con la letra p minúscula. La media, 123 00:12:17,509 --> 00:12:23,909 la media aritmética de una determinada variable estadística, desde luego cuantitativa, en una 124 00:12:23,909 --> 00:12:29,309 población se representará por la letra mu minúscula mientras que la media aritmética en 125 00:12:29,309 --> 00:12:36,549 una muestra se determinará x o se denotará x minúscula con una barra encima. Para la varianza 126 00:12:36,549 --> 00:12:43,409 poblacional utilizaremos sigma al cuadrado, para la varianza en una muestra concreta utilizaremos 127 00:12:43,409 --> 00:12:50,090 s al cuadrado. Nosotros en general no podremos estudiar, no querremos estudiar poblaciones 128 00:12:50,090 --> 00:12:56,590 completas, pero sí queremos caracterizar las poblaciones y lo que vamos a hacer es utilizar 129 00:12:56,590 --> 00:13:03,330 los parámetros muestrales que sí podremos determinar en la idea de intentar caracterizar 130 00:13:03,330 --> 00:13:09,850 de la forma más fiel posible el correspondiente parámetro poblacional. De una determinada variable 131 00:13:09,850 --> 00:13:15,269 cuantitativa tal vez no podremos calcular la media poblacional porque la población sea muy 132 00:13:15,269 --> 00:13:20,870 grande, porque el estudio sea destructivo, como ya he mencionado anteriormente. Tomaremos una muestra. 133 00:13:20,870 --> 00:13:36,970 De la muestra sí podremos calcular la media. ¿De qué forma podemos sacar conclusiones de la media poblacional con únicamente la media muestral? La media y posiblemente la varianza. A eso vamos a dedicar las siguientes clases. 134 00:13:38,700 --> 00:13:54,779 Vamos a finalizar esta videoclase hablando del teorema del límite central, que tiene una enorme importancia, puesto que os recuerdo que hace un momento dije que utilizaríamos los parámetros muestrales para intentar caracterizar los parámetros poblacionales que son aquellos en los que tenemos interés. 135 00:13:55,179 --> 00:14:00,059 Cuando más adelante hablemos de la distribución en el muestreo, de la proporción y de la media aritmética, 136 00:14:00,200 --> 00:14:04,340 que son los dos parámetros fundamentales que vamos a estudiar en esta unidad y en la siguiente, 137 00:14:05,039 --> 00:14:14,519 veréis que hablo que la proporción muestral, la media muestral, están distribuidas normalmente, siguiendo una distribución normal. 138 00:14:15,120 --> 00:14:19,299 ¿Por qué una distribución normal? Pues bien, la razón es esta, el teorema del límite central. 139 00:14:19,940 --> 00:14:25,899 Nos dice que si tenemos un conjunto de variables aleatorias independientes idénticamente distribuidas, 140 00:14:26,379 --> 00:14:32,120 y no me dice el tipo de distribución, pueden ser todas ellas normales, todas ellas binomiales, la que quiera que sea, 141 00:14:32,799 --> 00:14:37,659 con tal de que todas ellas tengan la misma media y la misma desviación típica, o bien la misma varianza, por supuesto, 142 00:14:38,720 --> 00:14:45,399 entonces el teorema dice que la suma de todas ellas se va a distribuir normalmente, 143 00:14:45,399 --> 00:14:51,000 esto es, siguiendo una distribución normal, con media n por la media de todas ellas 144 00:14:51,000 --> 00:14:57,019 y con desviación típica, que va a ser la raíz cuadrada de n por la desviación típica de todas ellas. 145 00:14:57,799 --> 00:15:02,940 En el límite, cuando n tiende a infinito, aquí, subyacente, tenemos una ley de los grandes números. 146 00:15:03,539 --> 00:15:07,820 Siempre que tengamos algo se distribuye de una cierta manera, cuando n tiende a infinito, 147 00:15:07,899 --> 00:15:10,519 hemos de pensar en que tenemos una ley de los grandes números. 148 00:15:11,519 --> 00:15:18,659 Como corolario, si no tenemos la suma de las variables, sino que tenemos la suma dividida entre n, esto es la media aritmética, 149 00:15:19,399 --> 00:15:25,840 lo que tendremos es que esa media aritmética se va a distribuir según una distribución normal, se va a distribuir normalmente, 150 00:15:26,159 --> 00:15:34,559 con media la misma que la de las variables aleatorias subyacentes y con desviación típica que va a ser la de las variables aleatorias subyacentes 151 00:15:34,559 --> 00:15:36,519 dividido entre la raíz de n. 152 00:15:37,340 --> 00:15:43,279 Este resultado va a ser importante y va a ser uno de los que utilicemos en esta sección, en la 3, más adelante. 153 00:15:46,539 --> 00:15:52,120 En el aula virtual de la asignatura tenéis disponibles otros recursos y cuestionarios. 154 00:15:52,860 --> 00:15:56,960 Asimismo, tenéis más información en las fuentes bibliográficas y en la web. 155 00:15:57,779 --> 00:16:02,519 No dudéis en traer vuestras dudas e inquietudes a clase o al foro de dudas en el aula virtual. 156 00:16:03,080 --> 00:16:04,480 Un saludo y hasta pronto.