1 00:00:00,820 --> 00:00:12,800 Vamos a entrar ya en la inferencia estadística. ¿Qué es la inferencia estadística? Bueno, pues la inferencia estadística trata de averiguar características de una población a partir del estudio de una muestra de esta. 2 00:00:13,099 --> 00:00:28,519 ¿De acuerdo? Si yo quiero conocer tendencias, datos, parámetros, lo que sea de una población, como por ejemplo de un país, yo muchas veces no puedo encuestar a todo el país. Lo que hago es estudiar una muestra, un conjunto de individuos de esa gran población. Yo solo estudio una muestra. 3 00:00:28,519 --> 00:00:49,960 Por ejemplo, imaginad que queremos conocer cuál es la estatura media en España, ¿vale? ¿Qué es lo que tendría que hacer para obtener esta media de estatura en España? Pues lo justo, lo realmente justo sería coger a todos los españoles, a partir de una determinada edad, que ya sepa que van a medir eso, que no van a crecer más, y medirles. Medir a todos los españoles y calcular la media de eso. 4 00:00:49,960 --> 00:01:04,620 Pero como comprenderéis, es prácticamente una tarea imposible conseguir eso, estar midiendo a todos los españoles. Entonces, ¿qué es lo que se hace? Pues se coge una muestra de españoles, un pequeño, o no tan pequeño, pero en cualquier caso, un conjunto de españoles. 5 00:01:04,620 --> 00:01:15,840 y de ellos saco una media de estatura, una media que por cierto tiene este símbolo, es una X con una rayita encima. ¿Por qué este símbolo distinto? Porque esta es la media muestral. 6 00:01:16,180 --> 00:01:25,099 Esto significa que es la media de una muestra, mientras que Mu es la media de toda la población, lo que yo realmente quiero averiguar, pero cojo una muestra y hago la media de su estatura 7 00:01:25,099 --> 00:01:33,099 y esa es la media muestral. Entonces, ¿cómo consigo yo la media de una muestra? Pues muy fácil, me pongo por ejemplo en la puerta de un pabellón de baloncesto 8 00:01:33,099 --> 00:01:42,280 esperando que salgan los chicos de entrenar y entonces les voy midiendo y saco la media de altura. ¿Esa muestra me vale? Pues hombre, no, porque precisamente en un pabellón de baloncesto 9 00:01:42,280 --> 00:01:51,359 seguro que hay chicos muy altos, entonces no sería una muestra que sea más representativa, no sería una muestra justa, porque esa gente va a medir seguramente más de lo que mide 10 00:01:51,359 --> 00:01:53,219 por lo general un individuo español. 11 00:01:53,560 --> 00:01:55,260 Entonces, ¿qué es lo que puedo hacer? Pues mira, me pongo 12 00:01:55,260 --> 00:01:57,420 en la puerta de un bingo, porque para jugar 13 00:01:57,420 --> 00:01:59,060 al bingo no hay que ser ni alto ni bajito, ¿verdad? 14 00:01:59,319 --> 00:02:01,000 Y mido todas las personas que salen de ahí. 15 00:02:01,739 --> 00:02:02,680 Pues hombre, tampoco. 16 00:02:03,140 --> 00:02:05,120 Porque a lo mejor en el bingo solo tengo 17 00:02:05,120 --> 00:02:07,280 una representación de gente ya 18 00:02:07,280 --> 00:02:09,280 con determinada edad, porque no es un juego 19 00:02:09,280 --> 00:02:10,659 al que vaya gente de todas las edades. 20 00:02:11,000 --> 00:02:13,360 Lo que quiero decir con esto es que para coger 21 00:02:13,360 --> 00:02:15,139 una muestra representativa, 22 00:02:15,780 --> 00:02:17,400 si es que es lo que se quiere coger, que muchas veces 23 00:02:17,400 --> 00:02:19,180 no, pero deberíamos querer coger una muestra 24 00:02:19,180 --> 00:02:21,419 representativa, fiel del reflejo 25 00:02:21,419 --> 00:02:23,219 de la sociedad, tenemos que coger una muestra 26 00:02:23,219 --> 00:02:25,060 que mantenga las proporciones 27 00:02:25,060 --> 00:02:27,080 de esa población, o sea, la proporción 28 00:02:27,080 --> 00:02:29,099 entre chicos y chicas, las proporciones 29 00:02:29,099 --> 00:02:31,280 de edades, de gente mayor, adulta 30 00:02:31,280 --> 00:02:33,139 y joven, incluso a lo mejor habría 31 00:02:33,139 --> 00:02:34,819 que coger gente de todas las comunidades 32 00:02:34,819 --> 00:02:36,900 por si acaso resulta que una comunidad 33 00:02:36,900 --> 00:02:39,080 es más alta que otra, etc. 34 00:02:39,699 --> 00:02:41,340 Esto es de la... 35 00:02:41,340 --> 00:02:42,620 Esto corresponde a la teoría 36 00:02:42,620 --> 00:02:45,360 del tema de estadística, así que no nos detenemos 37 00:02:45,360 --> 00:02:47,180 mucho, pero sí que vemos esto. Existen 38 00:02:47,180 --> 00:02:48,620 diversos métodos para obtener muestras 39 00:02:48,620 --> 00:02:50,599 representativas de una población. 40 00:02:50,759 --> 00:02:53,060 Digamos que una muestra representativa es una muestra justa, 41 00:02:53,099 --> 00:02:55,120 ¿vale? Que es como un reflejo 42 00:02:55,120 --> 00:02:56,740 en miniatura de cómo son 43 00:02:56,740 --> 00:02:58,199 los individuos de esa población. 44 00:02:58,879 --> 00:03:00,819 Uno de los métodos más comunes es el muestreo 45 00:03:00,819 --> 00:03:02,919 aleatorio simple. Es decir, en vez de ponerme 46 00:03:02,919 --> 00:03:04,800 en la puerta de un bingo o ponerme en la puerta 47 00:03:04,800 --> 00:03:06,759 de un pabellón o lo que sea, si yo tuviera 48 00:03:06,759 --> 00:03:08,319 una lista de toda la población, 49 00:03:08,680 --> 00:03:10,800 que puedo conseguir una lista de la población, por ejemplo, 50 00:03:10,800 --> 00:03:13,099 España, y de ahí, aleatoriamente, 51 00:03:13,219 --> 00:03:14,759 al azar, cojo un número de personas. 52 00:03:14,879 --> 00:03:16,520 Por ejemplo, 500. Si yo cojo 53 00:03:16,520 --> 00:03:22,900 500 personas al azar, si realmente es al azar, pues se espera que esas personas mantengan las 54 00:03:22,900 --> 00:03:27,800 proporciones de la población del país, o sea, la proporción entre chicos y chicas, las proporciones 55 00:03:27,800 --> 00:03:33,300 de edades, etcétera, ¿vale? Bueno, no nos detenemos más en esto. Vale, ahora supongamos entonces que 56 00:03:33,300 --> 00:03:39,879 sabemos, supongamos que sabemos que la estatura en España sigue una distribución normal de media 57 00:03:39,879 --> 00:03:50,879 170, o sea, ya sabemos que la media de estatura en España es 170 y desviación típica 12, ¿vale? Media 170, desviación típica 12. Entonces eso sigue una curva como esta. 58 00:03:50,879 --> 00:04:03,879 Ya sabéis lo que significa la curva, que hay mucha gente que mide 170, incluso 172, 174, 168, ¿vale? Entre 160, 180, hay mucha gente que mide eso. Algunas personas miden 59 00:04:03,879 --> 00:04:12,800 190, ¿vale? Porque son altas. Ya 2 metros mide muy poquita gente. Y lo mismo al otro lado, ¿no? Ya gente que mide 140, pues tan bajitas hay poco. 60 00:04:13,099 --> 00:04:19,939 Gente que mide 150, pues también es poco, ¿vale? En definitiva, que si voy midiendo a todos y recogiendo los datos, pues me sale esta curva, ¿no? 61 00:04:20,379 --> 00:04:27,759 Bueno, pues ahora imaginemos que hemos cogido muestras de tamaño N, de tamaño el que sea. Por ejemplo, muestras de 100 personas, ¿vale? 62 00:04:27,759 --> 00:04:40,759 Cojo muestras de 100 personas y a esas 100 personas les calculo su media muestral. La media es su estatura. Estoy calculando la media de conjuntos de 100 personas. Estoy calculando la media muestral. 63 00:04:40,759 --> 00:04:45,439 entonces vosotros pensáis que si yo cojo 100 españoles al azar y calculo su media 64 00:04:45,439 --> 00:04:50,759 pues a lo mejor hay muchas muestras que me darían de media 171 65 00:04:50,759 --> 00:04:56,199 por ejemplo, si yo represento aquí cuántas muestras me han dado de media 171 66 00:04:56,199 --> 00:05:00,160 que son muestras de gente un poquito más alta, habíamos dicho que la media era 170 67 00:05:00,160 --> 00:05:03,259 bueno, pues a lo mejor cojo 100 personas y me sale media 171 68 00:05:03,259 --> 00:05:05,800 pues es que he cogido gente un poquito más alta que la media 69 00:05:05,800 --> 00:05:21,379 También podría salir un buen número de muestras cuya media estatura me salga 168. Bueno, pues he cogido muestras un poquito más bajitas, ¿no? Seguramente me va a salir el mayor número es de muestras cuya media de estatura sale 170, ¿vale? 70 00:05:21,379 --> 00:05:36,959 Ya sería raro, fijaos, ya sería raro coger a 100 personas y que la media sustentura fuera 175, porque es ya bastante más alto que la media normal. Y también sería raro coger una muestra de gente con una tendencia muy bajita y cuya media fuera 166. 71 00:05:36,959 --> 00:06:04,060 Lo que quiero decir es que si voy haciendo todas estas medias de muestras, al final resulta que me queda este dibujo. Fijaos, otra curva de distribución normal. ¿Qué significa esto? Que las medias de las muestras que yo escojo, o sea, yo cojo muestras de personas y calculo su media, pues las medias forman a su vez una nueva distribución normal, donde tan raro es que me salgan valores muy altos como valores muy bajos. 72 00:06:04,060 --> 00:06:12,339 Y por lo general, las medias de las muestras estarán en torno a esos valores centrales, como podéis ver aquí. Vamos a hacer entonces una pequeña comparativa muy importante. 73 00:06:12,560 --> 00:06:20,879 Esta sería la población. Imaginemos que esta es la población en España, ¿vale? Y esta es su curva de distribución normal. Y esta sería la curva de distribución normal 74 00:06:20,879 --> 00:06:31,399 si voy cogiendo muestras y calculando la media de estatura en cada muestra, ¿vale? Entonces, características. Mirad, la población tiene una media que era mu, que es 170. 75 00:06:31,920 --> 00:06:44,420 Estupendo. Hay muchísima gente que mide 170. Es el valor que más se repite. Y mi muestra, la media muestral, que era esta X con la radio encima, pues resulta que también el 170 es el valor que más se da. 76 00:06:44,899 --> 00:06:54,339 Lo más normal es que si yo cojo grupos, por ejemplo, de 100 personas, la media de su estatura también sea 170. O sea que la población y las muestras coinciden en la media. 77 00:06:55,139 --> 00:07:02,180 Pero ahora fijaos en esto, como había dicho, si yo voy cogiendo a gente en mi población, pues hay algunas personas que miden 1,90, pues hay gente alta. 78 00:07:02,319 --> 00:07:07,680 Entonces hay un grupo de personas que miden 1,90. Ya hay poquita gente que mide a 2 metros y 2,10 ya pues muy poquitos. 79 00:07:07,819 --> 00:07:17,100 Alguno habrá, pero muy poquitos. Sin embargo, fijaos, en mi curva de las muestras es imposible coger un grupo de 100 personas y que la media de su estatura esté de 190. 80 00:07:17,100 --> 00:07:36,439 O sea, ya como no estoy cogiendo una persona, sino una muestra, por ejemplo, de 100 o incluso de 1000. Imagina que cojo 1000 personas. Es imposible que la media me salga 190. Entonces, lo que quiero decir con esto es que cómo se distribuyen las medias de una muestra es una curva normal muchísimo más estrechita, muchísimo más comprimida en torno a los valores centrales, ¿vale? 81 00:07:36,439 --> 00:07:56,160 donde la población tiene una desviación típica que era sigma, las muestras son curvas muchísimo más compactas, entonces realmente su desviación es esta, responde a esta fórmula, es la misma desviación que la población dividido entre raíz de n, dividido entre la raíz del número de personas que tengan las muestras, ¿vale? 82 00:07:56,160 --> 00:08:07,259 Por ejemplo, 100 o raíz entre lo que sea. De modo que, como veis, como lo estoy dividiendo entre raíz del número de personas de la muestra, pues la desviación es más pequeña y la curva me sale más estrecha. 83 00:08:07,439 --> 00:08:21,939 Y esto es importante. Cuanta más gente coja en las muestras, o sea, si en vez de coger una muestra de 100, cojo una muestra de 10.000 personas, pues con más razón la media me sale más cerca del valor central. 84 00:08:21,939 --> 00:08:31,839 Si cojo una muestra de 10.000 personas, ya es rarísimo que la media de sus estaturas me salga 1.80, por ejemplo, porque tanta gente, tanta gente, no pueden ser todos altos, ¿comprendéis? 85 00:08:32,120 --> 00:08:43,240 Entonces, cuando yo calculo la media de las muestras, esta media sigue una distribución normal más estrechita, con la misma media, pero con la desviación típica partido de raíz de n, ¿vale? 86 00:08:43,240 --> 00:08:56,299 Si esto es una distribución normal mu y sigma, las muestras, la media de las muestras sigue una distribución normal de misma media, mu, o sea, la media sí que va a acabar dando la misma, pero la desviación típica es partido de raíz de n. 87 00:08:56,940 --> 00:09:08,000 Vamos a ver un ejemplo que es como esto se puede ir practicando. Supongamos que sabemos que la duración media de las bombillas de una determinada marca sigue una distribución normal de media 1500 horas y desviación típica 160, ¿vale? 88 00:09:08,000 --> 00:09:19,159 tengo unas bombillas que duran de media a 1500 horas con una desviación típica de 160. Si escogemos una bombilla al azar, ¿cuál es la probabilidad de que funcione más de 1524 horas? 89 00:09:19,480 --> 00:09:27,759 Hemos dicho que la media era 1500, pues ¿cuál es la probabilidad de que una bombilla funcione más de 1524 horas? Bueno, ya lo veremos. Pero si cogemos una muestra de 100 bombillas 90 00:09:27,759 --> 00:09:37,460 y calculamos su duración media, cojo 100 bombillas y calculo la duración media de las 100. ¿Cuál es la probabilidad de que sea superior a 1524? Eso ya es distinto. 91 00:09:37,460 --> 00:09:52,159 Entonces, ¿cómo se hace? Pues vamos allá, mirad, con una bombilla tenía una distribución normal de media 1500 y desviación típica 160, ¿recordáis? Entonces lo que hacemos es calcular la probabilidad de durar más de 1524 horas, que es lo que vemos en el dibujo. 92 00:09:52,159 --> 00:10:09,539 Entonces, había que tipificar, ¿os acordáis? La X la paso a la Z, es decir, Z es X menos la media partido de la variación típica, o sea, 1.524 menos 1.500 partido de 160 me da 0,15. La probabilidad de durar más de 1.524 horas es la probabilidad de que Z sea superior a 0,15. 93 00:10:09,539 --> 00:10:26,259 Y para ser superior a 0,15 realmente calculábamos 1 menos ser inferior a 0,15. Esto lo miraba en la tabla, resulta que me da 0,4404. Hay un 44,04% de probabilidades de que una bombilla dure más de 1524 horas. 94 00:10:26,259 --> 00:10:46,320 O por así decirlo, el 44% de las bombillas podría durar más de 1524 horas, ¿vale? Bombillas individuales. Pero si cojo una muestra de 100 bombillas, miro a ver cuánto duran las 100 y calculo la media de su duración, mi distribución ya es esta, media mu, pero la desviación típica es sigma partido de raíz de n, ¿vale? 95 00:10:46,320 --> 00:10:48,559 que en vez de ser 160 va a ser 96 00:10:48,559 --> 00:10:50,320 160 partido raíz de 100 97 00:10:50,320 --> 00:10:52,600 la raíz de 100 es 10, o sea que al final va a dar 98 00:10:52,600 --> 00:10:54,539 16 de desviación típica 99 00:10:54,539 --> 00:10:56,799 o sea, distribución normal 1500 y 16 100 00:10:56,799 --> 00:10:58,340 en vez de 160, vale 101 00:10:58,340 --> 00:11:00,720 y me pide cuál es la probabilidad de que la media 102 00:11:00,720 --> 00:11:02,820 de esa muestra sea superior a 1524 103 00:11:02,820 --> 00:11:04,500 no de que una bombilla dure más 104 00:11:04,500 --> 00:11:06,720 sino de que la media de las 100 bombillas 105 00:11:06,720 --> 00:11:07,960 sea superior a 1524 106 00:11:07,960 --> 00:11:10,659 entonces tipifico, pero fijaos, ahora al tipificar 107 00:11:10,659 --> 00:11:12,059 la fórmula es esta, claro, es 108 00:11:12,059 --> 00:11:14,519 media menos la media poblacional 109 00:11:14,519 --> 00:11:24,000 partido de, no de desviación típica, sino de desviación típica partido raíz de n, ¿vale? En definitiva, ahora al poner los números, abajo no va 160, sino que ahora es 16, ¿vale? 110 00:11:24,080 --> 00:11:35,100 Y esto me sale 1,5. Entonces, la probabilidad de que la media de esa muestra sea superior a 1524 es igual a la probabilidad de que z sea superior a 1,5. 111 00:11:35,100 --> 00:11:41,639 y entonces esto es 1 menos 0,5, fijaos, lo miro en la tabla y ahora da 0,0668. 112 00:11:41,639 --> 00:11:49,679 O sea, solo hay un 6,68% de probabilidad de que si cojo 100 bombillas, la media de su duración sea superior a 1594. 113 00:11:49,820 --> 00:11:55,980 Porque claro, no es que una bombilla me salga, no, es que la media de las 100 bombillas supere eso y eso ya es mucho más difícil. 114 00:11:56,519 --> 00:11:58,899 Venga, cerramos con un ejercicio más para seguir practicando. 115 00:11:59,500 --> 00:12:05,820 Se conoce que el peso de las lubinas producidas en una piscifactoría se puede aproximar por una distribución normal de media 600, ¿vale? 116 00:12:06,279 --> 00:12:12,519 Y desviación típica 100, o sea, tenemos unas lubinas cuyo peso medio es 600 con una desviación típica de 100. 117 00:12:13,179 --> 00:12:19,440 Considerando una muestra aleatoria simple de 20 lubinas, cálculese la probabilidad de que su peso medio sea inferior a 550 gramos. 118 00:12:19,440 --> 00:12:28,879 O sea, ahora cojo 20 lubinas, no una, una muestra de 20 lubinas y me piden cuál es la probabilidad de que el peso medio de las 20 sea inferior a 550 gramos, ¿vale? 119 00:12:28,899 --> 00:12:47,600 Tenía aquí la piscifactoría, cada lubina tiene esta distribución de media 600, desviación típica 100. Pero si cojo 20, entonces ahora n en la fórmula es 20, sigo una distribución de media 600 y desviación 100 entre raíz de 20. Sigma entre raíz de n. Esta es la distribución que utilizo yo en los ejercicios. 120 00:12:47,600 --> 00:13:10,259 Y entonces realmente me están pidiendo cuál es la probabilidad de que la media del peso de esas 20 lubinas sea inferior a 550, ¿vale? Pues tipifico, pero claro, tipifico con esta fórmula, es x menos media partido de desviación típica partido de raíz de n, entonces me sale 550 menos 600 partido de 100 partido de raíz de 20 y esto me sale menos 2,236. 121 00:13:10,259 --> 00:13:24,179 Entonces la probabilidad de que la media de 20 lubinas sea inferior a 550 gramos es lo mismo que Z sea inferior a menos 2,236. Tengo un valor negativo, pero ya sabéis, cambio el signo y cambio el símbolo, es la probabilidad de que Z sea mayor que tanto. 122 00:13:24,179 --> 00:13:45,559 La probabilidad de ser mayor que es 1 menos la probabilidad de ser menor que. Esto ya lo miro en la tabla y me sale 1 menos 0,9873, total 0,0127. O sea, la probabilidad de que cogiendo 20 lubinas el peso medio de las 20 sea inferior a 550 es muy pequeño, la probabilidad es 0,0127, o sea, 1,27%.