1 00:00:00,000 --> 00:00:12,519 Estamos ya terminando pero todavía nos queda un último concepto. Es un poco difícil pero ya es como la culminación de todas estas cosas que hemos ido aprendiendo sobre la distribución normal y es el intervalo de confianza para la media poblacional. 2 00:00:12,519 --> 00:00:29,660 Bueno, pues como siempre, imaginaos que estamos queriendo medir la estatura media en España, ¿de acuerdo? Coger todo un país y conocer su estatura media. Yo lo que hago no es calcular la estatura de todos los individuos, sino que cojo una muestra y calculo la media de esa muestra, la media muestral. 3 00:00:29,660 --> 00:00:54,479 Y la gran pregunta entonces es, ¿vale, la media muestral es igual a la media poblacional? ¿Yo puedo tener la certeza de que la media de esa muestra que he escogido es igual a la media auténtica de toda la población española? Bueno, pues supongamos que tomamos una muestra de 100 personas, ¿vale? N es igual a 100. Y entonces obtenemos una media muestral de 169 centímetros, ¿vale? La media muestral, la X con la rayita, es 169. 4 00:00:54,479 --> 00:00:57,119 entonces podríamos afirmar con bastante certeza 5 00:00:57,119 --> 00:00:59,000 que la media de la población 6 00:00:59,000 --> 00:01:00,840 la auténtica media de toda la población 7 00:01:00,840 --> 00:01:03,020 está entre, pues vamos a ver 8 00:01:03,020 --> 00:01:04,939 si la media muestra, nos ha salido 9 00:01:04,939 --> 00:01:06,200 169 centímetros 10 00:01:06,200 --> 00:01:08,879 yo creo que la media de estatura 11 00:01:08,879 --> 00:01:11,280 en España está entre 100 y 238 12 00:01:11,280 --> 00:01:12,939 hombre pues sí, puedo afirmar 13 00:01:12,939 --> 00:01:14,719 que la media de estatura estará entre 100 14 00:01:14,719 --> 00:01:16,900 y 238, incluso podría afirmar 15 00:01:16,900 --> 00:01:18,500 un poco más, puedo pensar que está 16 00:01:18,500 --> 00:01:21,239 entre 120 y 218 17 00:01:21,239 --> 00:01:23,439 estoy cogiendo estos valores porque son simétricos 18 00:01:23,439 --> 00:01:30,959 en torno a 169, ¿vale? Puedo apurar un poco más. ¿Puedo pensar que la media estatura en España está entre 140 y 198? 19 00:01:31,400 --> 00:01:36,459 Hombre, pues sí. Pues seguro que la media está por debajo de 198 y por encima de 140, pues también. 20 00:01:36,939 --> 00:01:42,920 ¿Puedo entonces esperar que la media de la población, por ejemplo, esté entre 160 y 178? 21 00:01:43,920 --> 00:01:48,640 Pues hombre, no sé. Hemos cogido 100 personas a medio de 169. Venga, vamos a poner que sí. 22 00:01:48,640 --> 00:02:04,359 ¿Puedo decir entonces que la media en España está entre 168 y 170? Pues aquí ya yo tengo mis dudas. Solo porque he acogido 100 personas y la media me dé 169 es un poco arriesgado pensar que, venga, pues todos los españoles la media está entre 168 y 170. No. 23 00:02:04,780 --> 00:02:18,300 ¿Puedo decir entonces, si mi muestra salió a 169, que la media auténtica de la población española es 169? Pues no. Eso ya genera muchísimas dudas. No porque haya cogido 100 personas y me dé 169, esa es la media de la población. 24 00:02:18,800 --> 00:02:26,159 Y en esto consiste un poco los intervalos de confianza. Yo tengo la media de la muestra que he obtenido. Cojo una muestra y obtengo una media, ¿vale? 25 00:02:26,159 --> 00:02:46,460 Y quiero encontrar dos valores entre los cuales decir con cierta seguridad que estará la media de la población, ¿vale? Yo tengo un x1 que sea más bajito y un x2 que sea más alto. Y decir, mira, seguro que entre estos dos valores la media de la población se va moviendo. Puede que sea como mucho esto y como poco esto, ¿vale? 26 00:02:46,460 --> 00:02:59,539 que es lo bueno, que como yo sé que las medias de las muestras tienen una distribución normal y conozco sus fórmulas, pues puedo llegar a conocer con qué nivel de confianza doy ese intervalo. 27 00:02:59,539 --> 00:03:12,360 Es decir, yo puedo decir, mira, entre este valor y este hay una cierta probabilidad, hay una cierta seguridad de que estará la auténtica media de la población. Y esto es lo que es el intervalo de confianza para mu, para la media poblacional. 28 00:03:12,360 --> 00:03:19,379 A partir de la media muestral puedo generar un intervalo de confianza dentro del cual tenemos cierta seguridad de que estará la media poblacional 29 00:03:19,379 --> 00:03:21,960 O sea, yo no te voy a decir la media poblacional seguro que es esta 30 00:03:21,960 --> 00:03:26,340 Pero te puedo dar una seguridad de que está entre este valor y este otro valor 31 00:03:26,340 --> 00:03:29,599 Eso es el intervalo de confianza para la media poblacional 32 00:03:29,599 --> 00:03:35,259 Bueno, vosotros ya habíamos aprendido a calcular intervalos de confianza 33 00:03:35,259 --> 00:03:38,000 Pues este z alfa medios y menos z alfa medios, ¿lo recordáis? 34 00:03:38,000 --> 00:03:46,960 eran valores simétricos en torno al 0 y usábamos una distribución normal 0,1 de las que puedo utilizar las tablas. Y ahora lo que quiero es encontrar en mi ejercicio 35 00:03:46,960 --> 00:03:57,500 dos valores x1 y x2 que generen ese mismo intervalo dentro del cual seguramente esté la media poblacional. Y ya sabemos que como yo tengo la media de las muestras, 36 00:03:57,500 --> 00:04:23,740 Pues eso sigue una distribución normal de media mu y desviación igual a desviación poblacional partido de raíz de n, ¿vale? Entonces, mirad, voy a tipificar, tengo ahí x1 a la izquierda, quiero conocer cuánto es el valor de menos z alfa medios, ¿vale? De menos z alfa medios, entonces siguiendo la fórmula, la tengo aquí, menos z alfa medios es igual a x1 menos media partido de desviación típica partido de raíz de n. 37 00:04:23,740 --> 00:04:43,139 Os suena estar la fórmula de tipificar, solo que en vez de ser partido de desviación típica, es partido de desviación típica partido raíz de n, porque estoy con las medias de las muestras. Y quiero despejar x1, ¿vale? Entonces, mirad, todo lo que hay abajo que es sigma partido de raíz de n, todo eso que está dividiendo se va multiplicando a menos z alfa medios. 38 00:04:43,139 --> 00:04:55,920 Y luego la media muestral menos media muestral se va sumando al otro lado, o sea que esto queda así, ¿vale? x1 será la media muestral menos z alfa medios por sigma partido de raíz de n, ¿vale? Estupendo. 39 00:04:56,139 --> 00:05:07,040 Y ahora por la derecha x2, ¿vale? Ese valor cuando lo tipifique o cuando lo destipifique, cuando averigue cuánto es, tengo que z alfa medios es igual a x2 menos la media partido de desviación típica partido de raíz de n. 40 00:05:07,040 --> 00:05:14,939 Entonces, desviación típica partido raíz de n, la parte del denominador será a la otra lado multiplicando y menos media muestral será a otro lado sumando. 41 00:05:15,399 --> 00:05:21,040 Quedará algo así, x2 es x, o sea, la media muestral, más z alfa medios por desviación típica partido raíz de n. 42 00:05:21,040 --> 00:05:27,220 Entonces, fijaos a la izquierda en esto, esta cosita, z alfa medios por desviación partido raíz de n, lo voy a llamar error, ¿vale? 43 00:05:27,220 --> 00:05:33,779 Se llama error, de manera que a la derecha, pues también aparece esta cosita, ¿vale? También es el error, ¿vale? 44 00:05:33,779 --> 00:05:46,879 Entonces, el intervalo de confianza que yo busco va de x1 a x2, y si os fijáis en las fórmulas que hemos hecho aquí a los lados, el intervalo de confianza es media muestral menos error y media muestral más error. 45 00:05:47,199 --> 00:05:54,300 Los extremos de ese intervalo de confianza, el valor más bajo y el valor más alto es media muestral menos error y media muestral más error. 46 00:05:54,300 --> 00:06:06,600 En definitiva, toda la fórmula es media muestral menos z alfa medios por desviación típica a partir de raíz de n, coma, y el otro valor es media muestral más el error, z alfa medios por desviación típica a partir de raíz de n. 47 00:06:06,699 --> 00:06:13,680 Y con esta fórmula es como vamos a obtener los intervalos de confianza a partir de la media muestral para la media poblacional. 48 00:06:14,459 --> 00:06:21,759 Entonces, importantísimo, sabemos que el error tiene esta fórmula, hay que aprendérselo. El error es el z alfa medios por desviación típica a partir de raíz de n, ¿vale? 49 00:06:22,300 --> 00:06:44,399 Entonces, supongamos que tenemos una muestra, por ejemplo, de 100 personas, ¿vale? Tengo una muestra de 100 personas, calculo la media de esta muestra de 100 personas, le sumo el error y me da el x2, le resto el error y me da el x1 y con esto he obtenido el intervalo de confianza, ¿vale? Con esas 100 personas, pues diría, el intervalo de confianza va de x1 a x2, estupendo. 50 00:06:44,399 --> 00:06:46,579 pero, y ya sé entonces 51 00:06:46,579 --> 00:06:48,259 que la media de la población 52 00:06:48,259 --> 00:06:50,399 pues está entre esos dos valores moviéndose 53 00:06:50,399 --> 00:06:52,300 ¿vale? pero imaginemos 54 00:06:52,300 --> 00:06:54,240 que en vez de coger una muestra de 100 personas, cojo una muestra 55 00:06:54,240 --> 00:06:55,920 de 10.000 personas 56 00:06:55,920 --> 00:06:58,459 si yo en vez de calcular la estatura de 100 personas 57 00:06:58,459 --> 00:07:00,480 se lo calculo para 10.000 personas 58 00:07:00,480 --> 00:07:02,000 mirad, he calculado 59 00:07:02,000 --> 00:07:03,959 muchísima más gente, y como eso está 60 00:07:03,959 --> 00:07:06,279 dividiendo, resulta que el error 61 00:07:06,279 --> 00:07:07,860 me sale mucho más pequeño 62 00:07:07,860 --> 00:07:10,399 cuanta más gente cojo en la 63 00:07:10,399 --> 00:07:12,420 muestra, si cojo una muestra de 10.000 personas 64 00:07:12,420 --> 00:07:14,339 pues esa media que me salga 65 00:07:14,339 --> 00:07:22,019 de 10.000 personas es una media mucho más precisa, mucho más fiable, es mucho más centrada seguro, porque en 10.000 personas ya sería raro que me salieran 66 00:07:22,019 --> 00:07:31,379 muchas altas o muchas bajitas. Al final unas compensan con otras y una muestra, si tiene una n muy elevada, el error es muy pequeño. Entonces ahora lo que haría es 67 00:07:31,379 --> 00:07:41,279 tengo la media de esas 10.000 personas, le sumo el error, que resulta que ahora es mucho más pequeñito, y saco x2. Le resto el error, que es más pequeñito, y tengo x1 68 00:07:41,279 --> 00:07:51,860 y por lo tanto el intervalo de confianza es mucho más estrecho. Cuantas más personas tenga en mi muestra, menor será el error y puedo precisar mucho más 69 00:07:51,860 --> 00:07:57,420 el intervalo de confianza. Digo, mira, ahora tengo mucha más certeza porque es que le he preguntado a 10.000 personas. Entonces la media de esa muestra 70 00:07:57,420 --> 00:08:05,120 realmente es mucho más precisa y ahora yo puedo asegurar que la media de la población se mueve entre estos dos valores más estrechos. 71 00:08:05,120 --> 00:08:07,139 ¿vale? es decir 72 00:08:07,139 --> 00:08:09,240 que a partir de la media muestral 73 00:08:09,240 --> 00:08:11,040 yo cojo una muestra y a partir de la media muestral 74 00:08:11,040 --> 00:08:12,899 genero un intervalo de confianza dentro del cual 75 00:08:12,899 --> 00:08:15,279 tengo cierta seguridad de que se encuentra la media poblacional 76 00:08:15,279 --> 00:08:17,300 ¿vale? como el intervalo de confianza 77 00:08:17,300 --> 00:08:18,939 es la media muestral menos el error 78 00:08:18,939 --> 00:08:20,459 y la media muestral más el error 79 00:08:20,459 --> 00:08:22,519 y el error tiene esta fórmula 80 00:08:22,519 --> 00:08:25,139 cuanto más grande sea la muestra 81 00:08:25,139 --> 00:08:26,720 cuanto más grande sea n 82 00:08:26,720 --> 00:08:29,100 más fiable será la media muestral 83 00:08:29,100 --> 00:08:31,079 que obtengo, más pequeño será el error 84 00:08:31,079 --> 00:08:33,240 y más específico será el intervalo 85 00:08:33,240 --> 00:08:33,940 de confianza 86 00:08:33,940 --> 00:08:35,620 vamos a verlo con un ejemplo 87 00:08:35,620 --> 00:08:38,059 el tiempo diario que los adultos de una determinada ciudad 88 00:08:38,059 --> 00:08:40,460 dedican a actividades deportivas expresado en minutos 89 00:08:40,460 --> 00:08:42,779 se puede aproximar por una variable aleatoria 90 00:08:42,779 --> 00:08:44,480 con distribución normal de desviación típica 91 00:08:44,480 --> 00:08:45,740 20 minutos, ¿vale? 92 00:08:45,759 --> 00:08:48,279 tengo unas personas que dedican tiempo a actividades deportivas 93 00:08:48,279 --> 00:08:50,679 no sé la media de lo que calculan 94 00:08:50,679 --> 00:08:51,620 o sea, de lo que dedican 95 00:08:51,620 --> 00:08:53,879 pero la desviación típica es 20 minutos, ¿vale? 96 00:08:54,120 --> 00:08:56,620 entonces, A, para una muestra aleatoria simple 97 00:08:56,620 --> 00:08:58,179 250 habitantes 98 00:08:58,179 --> 00:08:59,919 cojo a 250 habitantes 99 00:08:59,919 --> 00:09:02,320 y se ha obtenido un tiempo medio de dedicación 100 00:09:02,320 --> 00:09:04,360 actividades deportivas de 90 minutos diarios. 101 00:09:04,779 --> 00:09:06,120 Calcúlese un intervalo de confianza 102 00:09:06,120 --> 00:09:07,960 al 90% para Mu. 103 00:09:08,200 --> 00:09:10,519 O sea, he cogido una muestra de 250 personas 104 00:09:10,519 --> 00:09:12,539 y de esa muestra me sale 105 00:09:12,539 --> 00:09:14,159 que practican deporte una media 106 00:09:14,159 --> 00:09:16,159 de 90 minutos diarios. Vale, pues sabiendo que 107 00:09:16,159 --> 00:09:18,360 esas 250 personas dedican 90 minutos diarios, 108 00:09:19,019 --> 00:09:20,279 hazme un intervalo de confianza 109 00:09:20,279 --> 00:09:22,240 al 90% para la media de 110 00:09:22,240 --> 00:09:24,039 toda la población. Dame dos valores, 111 00:09:24,159 --> 00:09:26,419 como si te digo, mira, pues el 90% de la gente 112 00:09:26,419 --> 00:09:28,279 practica deporte entre 80 y 113 00:09:28,279 --> 00:09:30,220 100 minutos. Por ejemplo, hazme un intervalo 114 00:09:30,220 --> 00:09:32,899 de confianza con una seguridad del 90%. 115 00:09:32,899 --> 00:09:34,139 ¿Vale? Tengo 116 00:09:34,139 --> 00:09:36,379 mi población entonces, que no conozco 117 00:09:36,379 --> 00:09:38,159 la media, pero sí la desviación típica 118 00:09:38,159 --> 00:09:39,980 que es 20. Y luego cojo una muestra 119 00:09:39,980 --> 00:09:42,399 de 250 personas, de esas 250 120 00:09:42,399 --> 00:09:43,840 la media me sale 90 121 00:09:43,840 --> 00:09:46,320 y me piden el intervalo de confianza 122 00:09:46,320 --> 00:09:47,759 al 90% 123 00:09:47,759 --> 00:09:49,919 para mu, para la media poblacional, ¿no? 124 00:09:50,039 --> 00:09:51,980 Sácame un intervalo de confianza dentro 125 00:09:51,980 --> 00:09:53,519 del cual está la media de la población 126 00:09:53,519 --> 00:09:55,580 con un 90% de seguridad. 127 00:09:56,100 --> 00:09:57,940 ¿Vale? Tengo aquí mis valores, z alfa 128 00:09:57,940 --> 00:09:58,980 medios, menos z alfa medios. 129 00:09:58,980 --> 00:10:02,059 recordad como se calculaban intervalos de confianza 130 00:10:02,059 --> 00:10:03,820 quiero dos valores 131 00:10:03,820 --> 00:10:05,700 que me encierran al 90% de la gente 132 00:10:05,700 --> 00:10:07,919 como en la tabla no puedo mirar dos valores 133 00:10:07,919 --> 00:10:09,679 solo puedo mirar el área por debajo 134 00:10:09,679 --> 00:10:11,080 de un valor, entonces sé 135 00:10:11,080 --> 00:10:13,600 que lo que queda fuera es el 10% 136 00:10:13,600 --> 00:10:15,320 repartido, 5% por arriba 137 00:10:15,320 --> 00:10:17,399 5% por abajo, o sea que en el fondo 138 00:10:17,399 --> 00:10:19,980 busco un valor que a su izquierda 139 00:10:19,980 --> 00:10:22,240 está dejando al 90% más al 5% 140 00:10:22,240 --> 00:10:23,820 o sea 95% 141 00:10:23,820 --> 00:10:25,860 total, que tengo que buscar en la tabla 142 00:10:25,860 --> 00:10:27,480 que valor deja por debajo 143 00:10:27,480 --> 00:10:39,259 al 0,95. Entonces, y vamos a la tabla, aquí ocurría una cosa, que tengo el 0,95 está entre este y este, ¿no? De manera que era entre 1,64 y 1,65, 144 00:10:39,659 --> 00:10:49,200 o sea que Z alfa medios era 1,645, ¿vale? Pues ya está. Error, tenía esta fórmula, ¿vale? Z alfa medios por sigma partido raíz de n. Vale, pues ya tengo 145 00:10:49,200 --> 00:10:58,179 que la Z alfa medios es 1,645, sigma es 20, partido de raíz de 250 y esto me sale 2,08. Así que mi 146 00:10:58,179 --> 00:11:03,700 intervalo de confianza es la media muestral menos error y media muestral más error. O sea, 90 menos 147 00:11:03,700 --> 00:11:13,980 2,08 y 90 más 2,08. O sea, ya tengo el intervalo de confianza. Está entre 87,92 y 92,08. Es decir, 148 00:11:13,980 --> 00:11:35,059 Yo sé que la media del tiempo que dedica al deporte esa población está entre 87,92 y 92,08 con un 90% de certeza. Yo no te voy a decir cuánto es la media de la población, pero está entre esos dos valores con un 90% de seguridad. En eso consiste encontrar un intervalo con una cierta confianza. 149 00:11:35,059 --> 00:11:38,360 Y luego, este que hemos hecho es el ejercicio más típico 150 00:11:38,360 --> 00:11:40,220 Y luego, este apartado B también es muy típico 151 00:11:40,220 --> 00:11:40,779 Que me digan 152 00:11:40,779 --> 00:11:44,440 ¿Qué tamaño mínimo debe tener una muestra aleatoria simple 153 00:11:44,440 --> 00:11:46,700 Para que el error máximo cometido en la estimación 154 00:11:46,700 --> 00:11:48,559 De la media poblacional por la media muestral 155 00:11:48,559 --> 00:11:50,519 Sea menor que un minuto 156 00:11:50,519 --> 00:11:52,340 Con el mismo nivel de confianza del 90%? 157 00:11:52,480 --> 00:11:53,659 ¿Qué narices significa esto? 158 00:11:53,720 --> 00:11:55,860 Bueno, a ver, ahora lo que me piden es 159 00:11:55,860 --> 00:11:58,740 ¿Qué tamaño de muestra a cuántas personas debería entrevistar 160 00:11:58,740 --> 00:12:01,200 Para que el error sea menor que uno? 161 00:12:01,440 --> 00:12:03,259 Con esa misma confianza del 90% 162 00:12:03,259 --> 00:12:05,039 A mí antes el error lo he calculado 163 00:12:05,039 --> 00:12:14,899 verdad, era 1,645, aquí en N había puesto 250 personas, y con eso el error me salía 2,08, ¿vale? Ese era el error que tenía, y luego el error, ¿para qué me servía? 164 00:12:14,980 --> 00:12:22,860 Pues hacía media menos error y media más error, y entonces mi intervalo de confianza me daba este. Pero ahora quieren, dicen, no, mira, vamos a hacer una cosa, 165 00:12:23,080 --> 00:12:31,399 quiero que el error sea más pequeño, quiero que me ajustes mucho más ese intervalo de confianza, ¿vale? Entonces debería entrevistar a más personas para poder ganar 166 00:12:31,399 --> 00:12:38,440 certeza y saber que la media de esa muestra es mucho más precisa. Es un apartado muy típico, como digo, que es ¿y a cuánta gente debería 167 00:12:38,440 --> 00:12:46,379 entrevistar para reducir el error? Para que mi intervalo de confianza sea más ajustado, ¿vale? Entonces, mirad, yo ahora quiero que el error, 168 00:12:46,700 --> 00:12:54,240 antes daba 2,08, yo ahora quiero que el error sea menor o igual que 1. Quiero que el error no supere el 1. Entonces, cojo la fórmula del error, 169 00:12:54,240 --> 00:13:02,820 z alfa medios por sigma partido raíz de n y quiero que sea menor o igual que 1, ¿vale? Sigma sigue siendo el mismo, z alfa medios sigue siendo el mismo 170 00:13:02,820 --> 00:13:12,379 porque siguen queriendo un nivel de confianza del 90%, o sea que yo usaría la tabla y llegaría a mí mismo 1,645, pero n es lo que me piden ahora, 171 00:13:12,779 --> 00:13:20,799 ¿a cuánta gente debería entrevistar para que el error me dé menos que 1? Voy poniendo los datos, 1,645 por 20 partido raíz de n, menor o igual que 1, 172 00:13:20,799 --> 00:13:36,440 Entonces, ahora, esa raíz de n que está dividiendo se va a ir al otro lado multiplicando y el 1 que estará multiplicando se va a venir dividiendo. O sea, que me queda esto. Lo que quiero es despejar n. Opero todos esos números, me dan 32,9 y raíz de n tiene que ser mayor o igual que eso. 173 00:13:36,440 --> 00:13:59,720 Entonces la raíz pasa al otro lado como al cuadrado, total que me dice que n tiene que ser mayor o igual que 1082,41. Debería entrevistar a una cantidad mayor o igual a 1082,41 personas. En definitiva, a 1083 personas. He pasado de encuestar a 250 a coger a 1083 si quiero ahora que el error se me reduzca y no supere el 1. 174 00:13:59,720 --> 00:14:01,580 por cierto, cuando hagáis todos los ejercicios 175 00:14:01,580 --> 00:14:03,200 siempre hay que redondear hacia arriba 176 00:14:03,200 --> 00:14:05,500 veis que ha salido 1.082,4 177 00:14:05,500 --> 00:14:07,600 pero no lo dejo en 1.082 porque me piden 178 00:14:07,600 --> 00:14:09,720 que el error sea menor o igual 179 00:14:09,720 --> 00:14:11,580 que 1 y de eso al despejar me queda 180 00:14:11,580 --> 00:14:13,620 que la n tiene que ser mayor o igual 181 00:14:13,620 --> 00:14:15,600 que lo que me dé, entonces mi respuesta 182 00:14:15,600 --> 00:14:17,659 es, si quieres que el error en el 183 00:14:17,659 --> 00:14:19,779 intervalo de confianza no sea 184 00:14:19,779 --> 00:14:21,360 mayor que un minuto, entonces hay que 185 00:14:21,360 --> 00:14:23,759 entrevistar por lo menos a 1.083 186 00:14:23,759 --> 00:14:24,179 personas