1 00:00:00,620 --> 00:00:04,960 Buenas tardes, esta es la clase de matemáticas del día 6 de mayo. 2 00:00:06,080 --> 00:00:08,519 Estamos con el tema de estadística. 3 00:00:09,160 --> 00:00:17,280 En la última clase estuvimos viendo los tipos de variables que teníamos en los estudios estadísticos 4 00:00:17,280 --> 00:00:26,199 que eran variables cualitativas, cuando expresaban cualidades que no se iban a poder medir numéricamente 5 00:00:26,199 --> 00:00:32,820 y variables cuantitativas, que es cuando se expresan cantidades que sí que puedo medir numéricamente. 6 00:00:33,939 --> 00:00:40,640 Cuando estábamos estas variables cuantitativas, podíamos encontrarnos dos tipos distintos, 7 00:00:41,380 --> 00:00:45,679 que eran las discretas, que eran aquellas que tomaban valores puntuales, 8 00:00:46,119 --> 00:00:50,340 decíamos que no había decimales, y variables continuas, 9 00:00:50,340 --> 00:00:55,840 que eran las que tomaban valores dentro de intervalos, y entonces sí que podía haber decimales. 10 00:00:56,200 --> 00:01:04,079 Como iba a haber muchísimos datos, pues los agrupábamos en intervalos para poder representarlos mejor. 11 00:01:04,840 --> 00:01:11,260 Estuvimos viendo cómo hacer las tablas de frecuencia de los recuentos de los datos de estas variables, 12 00:01:11,859 --> 00:01:18,260 viendo esa frecuencia absoluta, la frecuencia acumulada, la relativa, la relativa acumulada. 13 00:01:19,980 --> 00:01:25,719 Vimos también los tipos de representación que podíamos utilizar para cada tipo de variable 14 00:01:25,719 --> 00:01:30,120 estábamos por ejemplo diciendo que utilizábamos diagrama de sectores 15 00:01:30,120 --> 00:01:35,099 cuando la variable era cualitativa o cuando era cuantitativa 16 00:01:35,099 --> 00:01:40,560 y esa representación era simplemente llevar a porciones de un círculo 17 00:01:40,560 --> 00:01:46,620 el número de datos que correspondía a cada una de las variables 18 00:01:46,620 --> 00:01:51,420 teníamos otro tipo de representación que era el diagrama de barras 19 00:01:51,420 --> 00:02:06,939 que se utilizaba o en variables cualitativas o en cuantitativas discretas, que eran barritas que me decían con su altura la frecuencia de aparición de cada uno de los datos. 20 00:02:09,439 --> 00:02:18,500 Por otra parte, teníamos otras barras, pero que eran distintas, que eran barras pegadas, y se llamaba entonces histograma, la representación, 21 00:02:18,500 --> 00:02:22,439 que lo utilizábamos para las variables cuantitativas continuas. 22 00:02:23,439 --> 00:02:31,360 Estas barras eran de anchas como la longitud del intervalo que estábamos intentando representar 23 00:02:31,360 --> 00:02:37,400 y de altas como la frecuencia de los datos que caían dentro de ese intervalo, 24 00:02:37,439 --> 00:02:39,039 el número de datos que caían en ese intervalo. 25 00:02:39,280 --> 00:02:46,460 Y por último teníamos el polígono de frecuencias que se utilizaba tanto con diagrama de barras 26 00:02:46,460 --> 00:02:53,139 como con histograma que lo que hacía era unirme los puntos más altos de cada una de estas barras 27 00:02:53,139 --> 00:03:00,319 y de otra forma de representar más esquemáticamente esas frecuencias de aparición de esos datos. 28 00:03:01,080 --> 00:03:06,900 Bueno, pues visto cómo hacer el recuento de datos con esas tablas de frecuencias 29 00:03:06,900 --> 00:03:12,819 y cómo poder representarlo gráficamente para ver los datos de una forma más rápida 30 00:03:12,819 --> 00:03:27,919 Y con un formato más visual, que nos llame más la atención, vamos a ver qué otros estudios podemos hacer sobre esas series de datos que habíamos encontrado en nuestra estadística, en nuestro estudio estadístico. 31 00:03:27,919 --> 00:03:38,139 Y vamos a empezar primero viendo lo que son las medidas de centralización, también llamadas medidas de posición, ¿vale? 32 00:03:38,180 --> 00:03:48,860 Que lo que me van a decir es cómo se ordenan estos datos dentro de mi estudio estadístico, ¿vale? 33 00:03:48,860 --> 00:04:09,979 La primera de esas medidas de centralización sería la media. Todos hemos hecho alguna vez la media de nuestras notas en el instituto, o ahora mismo, este año. ¿Cómo hacemos la media de nuestras notas? Pues sumando las notas de todas las asignaturas y dividiendo entre el número de asignaturas. 34 00:04:09,979 --> 00:04:19,399 Bueno, pues eso cuando estoy con una serie de datos más grande, ir sumando uno a uno no es práctico. 35 00:04:19,759 --> 00:04:21,079 Entonces, ¿qué es lo que vamos a hacer? 36 00:04:21,519 --> 00:04:28,040 Vamos a aprovecharnos de la tabla de frecuencias con la que habíamos registrado el recuento de nuestros datos 37 00:04:28,040 --> 00:04:33,339 para poder calcular esta media de una forma más rápida. 38 00:04:34,079 --> 00:04:41,600 Vemos aquí en el ejemplo que dice, si yo tengo que he hecho un estudio, por ejemplo, 39 00:04:41,860 --> 00:04:49,980 del número de días que faltó al trabajo en un año y tengo dos personas que han faltado 10 días, 40 00:04:50,339 --> 00:04:56,500 una persona que ha faltado 12, una persona que ha faltado 14 y una que ha faltado 13. 41 00:04:56,500 --> 00:05:25,879 Yo podría sumar todas esas faltas y dividirlo entre el total de dos datos que sería la suma de todos que es 52 o puedo hacer una tabla de frecuencias para el ejemplo 2 en el que digo si hay que hayan faltado 5 días 4 personas, que hayan faltado 10 días 6 personas, 15 días 7 personas, 20 días 9 personas, 25 días 4 personas, 42 00:05:25,879 --> 00:05:30,019 30 días, 6 personas, pues si me genero una columna 43 00:05:30,019 --> 00:05:33,300 en la que haga la multiplicación 44 00:05:33,300 --> 00:05:38,100 de los días faltados por la frecuencia 45 00:05:38,100 --> 00:05:41,779 que se ha repetido ese número de faltas, en ese caso 46 00:05:41,779 --> 00:05:46,279 estas 4 personas, pues me dará que en total se han faltado 47 00:05:46,279 --> 00:05:50,339 20 días, lo mismo para todos los demás, o sea voy multiplicando 48 00:05:50,339 --> 00:05:54,560 el valor de la variable, que es el número de días que se ha faltado 49 00:05:54,560 --> 00:06:02,839 nuestro ejemplo, por la frecuencia de aparición de ese valor, que sería el número de personas 50 00:06:02,839 --> 00:06:12,560 que han faltado 5 días, 10 días, 15 días, y sumo esa columna de variable por su frecuencia. 51 00:06:13,620 --> 00:06:19,000 Si el total de esa suma lo divido entre el total de personas a las que había hecho la encuesta, 52 00:06:19,000 --> 00:06:23,680 que será la suma de estas frecuencias absolutas que en este caso es 36 53 00:06:23,680 --> 00:06:30,279 y hago el cociente entre la suma de la aparición de cada uno de los datos 54 00:06:30,279 --> 00:06:32,500 y el total de personas a las que he preguntado 55 00:06:32,500 --> 00:06:36,379 me saldrá la media aritmética que estábamos buscando 56 00:06:36,379 --> 00:06:40,000 entonces resumiendo lo que estamos haciendo aquí 57 00:06:40,000 --> 00:06:44,740 cuando tengo muchísimos datos y lo hago desde la tabla de frecuencias 58 00:06:44,740 --> 00:06:49,819 es multiplicar cada valor de la variable por su frecuencia 59 00:06:49,819 --> 00:06:54,860 y sumárselo al resto de variables por sus frecuencias 60 00:06:54,860 --> 00:07:01,819 y dividirlo en el resultado final, esta e rara significa sumatorio de todo, 61 00:07:01,920 --> 00:07:06,920 suma de todos estos términos, dividirlo entre el número total de datos que tenía, 62 00:07:07,079 --> 00:07:11,500 entre el número total de personas a las que hice la encuesta, 63 00:07:11,500 --> 00:07:19,879 que sería igual que la suma de la frecuencia, este 36, y esa sería mi forma de hacer la media aritmética. 64 00:07:20,540 --> 00:07:27,680 Si tengo pocos datos los puedo sumar directamente, pero cuando tengo muchos me es más práctico utilizar esta pequeña fórmula. 65 00:07:30,519 --> 00:07:36,160 Otro parámetro de centralización es la moda. 66 00:07:36,160 --> 00:07:44,920 todos sabemos de nuestro día a día que decimos que algo está de moda cuando lo lleva o lo hace mucha gente 67 00:07:44,920 --> 00:07:53,319 pues aquí en estadística es lo mismo, la moda vamos a llamarla aquel valor que se repita más asiduamente 68 00:07:53,319 --> 00:07:59,139 o sea que la forma de encontrar la moda mirando una tabla de datos estadísticos de frecuencias 69 00:07:59,139 --> 00:08:04,540 es buscar aquel o aquellos datos que tienen la frecuencia más alta 70 00:08:04,540 --> 00:08:08,259 entonces en el ejemplo que vimos anterior 71 00:08:08,259 --> 00:08:10,379 lo que tengo que hacer es buscar 72 00:08:10,379 --> 00:08:13,240 qué dato, qué valor de la variable 73 00:08:13,240 --> 00:08:15,939 tiene la frecuencia más alta 74 00:08:15,939 --> 00:08:18,600 en el primer ejemplo veo que 75 00:08:18,600 --> 00:08:20,879 los que tienen frecuencia más alta son el 5 76 00:08:20,879 --> 00:08:22,240 que aparece 8 veces 77 00:08:22,240 --> 00:08:24,779 y el 20 que aparece 8 veces 78 00:08:24,779 --> 00:08:27,620 pues entonces diremos que la moda 79 00:08:27,620 --> 00:08:30,779 en este primer ejemplo son el 5 y el 20 80 00:08:30,779 --> 00:08:35,639 puede haber más de una cosa dentro de la moda 81 00:08:35,639 --> 00:08:38,440 yo por ejemplo si hablo de ropa pues puede ser que la moda sea 82 00:08:38,440 --> 00:08:41,299 llevar pantalones vaqueros o que la moda sea 83 00:08:41,299 --> 00:08:44,120 llevar pantalones vaqueros con una camiseta blanca 84 00:08:44,120 --> 00:08:47,539 o sea que puede haber más de un elemento dentro de la moda 85 00:08:47,539 --> 00:08:48,919 más de un valor de la variable 86 00:08:48,919 --> 00:08:52,139 en el segundo ejemplo pues hago lo mismo 87 00:08:52,139 --> 00:08:54,679 ordeno los valores de la variable 88 00:08:54,679 --> 00:08:58,720 miro sus frecuencias y veo que en este caso 89 00:08:58,720 --> 00:09:02,580 quien tiene la frecuencia más alta es el 600 90 00:09:02,580 --> 00:09:06,679 que tiene frecuencia 9, pues diré que en este segundo caso la moda 91 00:09:06,679 --> 00:09:11,059 solo es el 600, entonces nos quedamos con esa idea 92 00:09:11,059 --> 00:09:15,100 que la moda mirada dentro de una distribución estadística 93 00:09:15,100 --> 00:09:18,559 es el valor de la variable que más se repite 94 00:09:18,559 --> 00:09:23,120 y eso lo veo en la tabla de frecuencias buscando el valor 95 00:09:23,120 --> 00:09:26,919 o valores que tenga la frecuencia absoluta más alta 96 00:09:26,919 --> 00:09:30,799 bueno, seguimos con otra medida 97 00:09:30,799 --> 00:09:33,720 de posición, que sería 98 00:09:33,720 --> 00:09:36,419 a ver, un segundito 99 00:09:36,419 --> 00:09:41,669 sería la mediana 100 00:09:41,669 --> 00:09:45,470 y la mediana, si nosotros pensamos 101 00:09:45,470 --> 00:09:48,350 la medida que tenemos nosotros de mediana es 102 00:09:48,350 --> 00:09:50,509 pues una carretera o una calle 103 00:09:50,509 --> 00:09:52,870 que tiene un muro que me divide 104 00:09:52,870 --> 00:09:56,450 los carriles del lado izquierdo y los carriles del lado derecho 105 00:09:57,149 --> 00:10:06,129 Cuando yo voy pensando en una carretera, la mediana es esa franja de terreno que hay entre unos carriles y otros que me separan la carretera en dos partes iguales. 106 00:10:06,129 --> 00:10:20,230 Bueno, pues aquí va a ser la misma idea. La mediana es el valor que ocupa la posición central de todos los datos que tengo yo en mi estadística cuando están ordenados. 107 00:10:20,230 --> 00:10:35,110 O sea que si yo quisiese hacerlo por el camino largo lo que haría es ordenar todos los datos, ponerlos de menor a mayor y luego buscar qué dato es el que me deja la misma cantidad de datos por debajo que por encima. 108 00:10:35,110 --> 00:10:41,389 Claro, eso lo puedo hacer cuando tenga estudios estadísticos con poquitos datos 109 00:10:41,389 --> 00:10:44,889 Pero si tengo muchos, no es práctico ordenar todos los datos uno por uno 110 00:10:44,889 --> 00:10:50,629 Vuelvo una vez más a valerme de la tabla de frecuencias para poder hacer este cálculo 111 00:10:50,629 --> 00:10:54,529 Entonces, vemos por ejemplo, aquí en el ejemplo 112 00:10:54,529 --> 00:10:57,450 Que los valores distintos que me han salido son del 1 al 5 113 00:10:57,450 --> 00:11:00,250 Y aquí tengo sus frecuencias absolutas 114 00:11:00,250 --> 00:11:04,090 El 1 ha aparecido 10 veces, el 2 20 veces, el 3 17 115 00:11:04,090 --> 00:11:07,850 el 4 doce veces y el 5 diecisiete 116 00:11:07,850 --> 00:11:11,830 o sea que en total tengo 10, 20 117 00:11:11,830 --> 00:11:15,509 37, 49 y 118 00:11:15,509 --> 00:11:19,649 66 datos, ¿vale? que era 119 00:11:19,649 --> 00:11:23,710 el último valor de la frecuencia absoluta acumulada, entonces hay 120 00:11:23,710 --> 00:11:27,850 66 datos, tengo que buscar cuál de esos 121 00:11:27,850 --> 00:11:31,870 66 datos me deja la mitad por debajo y la mitad por encima 122 00:11:31,870 --> 00:11:37,710 O sea, ¿cuál me deja 33 datos por debajo y cuál me deja 33 datos por encima? 123 00:11:38,429 --> 00:11:44,389 Otra forma de verlo, ¿cuál me deja el 50% de los datos por debajo y el 50% por encima? 124 00:11:44,990 --> 00:11:55,250 Pues lo que vamos a hacer es mirar en la tabla de frecuencias quién es el dato que ocuparía esa posición 33, que es la mitad de ese 66. 125 00:11:55,250 --> 00:12:22,429 Bueno, los 10 primeros números eran 1. Los 10 números siguientes eran 2. O sea, ya he colocado los 20 primeros datos. Y ahora, de ese dato 20, que era un 2, al dato 37, lo que hay son 3. Pero yo no quería llegar tan lejos. Yo solo quería llegar a la posición 33, que era la mitad de este 66, que era el número total de datos que había en mi tabla estadística. 126 00:12:22,429 --> 00:12:48,070 Pues si yo pienso en qué dato está en esa posición 33, me encuentro que en la posición 33 habrá un 3, porque tenía 10 unos, 10 doses, 10 treses, el 11, la posición 31 será también un 3, la 32 será un 3, la 33 será un 3, la 34 será un 3. 127 00:12:48,070 --> 00:13:00,029 Así está la posición 37, entonces, en la posición 33, que es la que yo quería controlar, hay un 3, si yo los hubiese puesto todos en fila y ordenaditos. 128 00:13:01,250 --> 00:13:11,850 Esta misma idea la vamos a utilizar para el siguiente parámetro de centralización, que son los cuartiles, que es la misma idea que en la mediana. 129 00:13:11,850 --> 00:13:30,629 Ahora, los cuartiles son tres, y son como tres, digamos, paredes que me dividen mi distribución de datos estadísticos en cuatro cajitas igual de grandes, fijaos aquí en el dibujo, entonces, ¿qué ocurrirá? 130 00:13:30,629 --> 00:13:34,750 que el primer cuartil me va a dejar un cuarto de los datos 131 00:13:34,750 --> 00:13:38,789 por debajo, o sea, el 25% de los datos por debajo. El segundo 132 00:13:38,789 --> 00:13:42,730 cuartil me va a dejar la mitad de los datos por debajo, o sea, el 50% 133 00:13:42,730 --> 00:13:46,669 de los datos. Luego el segundo cuartil siempre va a 134 00:13:46,669 --> 00:13:50,769 coincidir con el valor de la mediana. Y el tercer cuartil 135 00:13:50,769 --> 00:13:54,909 es el que me deja el 75% de los datos por debajo, o sea, tres cuartas 136 00:13:54,909 --> 00:13:59,110 partes, ¿vale? Por eso se llaman cuartiles, porque divido 137 00:13:59,110 --> 00:14:03,629 mi distribución de datos en cuartos, ¿vale? 138 00:14:04,330 --> 00:14:06,850 Primer cuarto, llego al primer cuartil. 139 00:14:07,350 --> 00:14:09,570 Segundo cuarto, cuando he cogido la mitad de los datos, 140 00:14:09,730 --> 00:14:10,750 llego al segundo cuartil. 141 00:14:11,350 --> 00:14:14,049 Tercer cuartil, cuando llego al tercer cuarto. 142 00:14:14,570 --> 00:14:16,889 Entonces, vuelvo a hacer la misma historia de antes. 143 00:14:17,470 --> 00:14:20,570 Aquí en la tabla me lo he hecho calculando los porcentajes. 144 00:14:20,730 --> 00:14:21,570 Es una forma de hacerlo. 145 00:14:22,070 --> 00:14:24,570 O puedo hacer el mismo recuento que antes. 146 00:14:24,570 --> 00:14:41,570 Bueno, la cuarta parte de 66, perdón, la mitad de 66 era 33 y en la posición 33 vimos que había un 3, o sea que el cuartil 2 va a ser igual que la mediana que es un 3. 147 00:14:41,570 --> 00:15:02,230 Ahora digo, ¿quién es la mitad de ese 33? ¿Quién es la mitad de esa mitad que hemos visto con la mediana? Pues será el dato que esté en la posición 16 y medio, digamos, 16 por abajo y 16 por arriba, para llegar a esos 33 datos que juntaba con la mediana. 148 00:15:02,230 --> 00:15:06,230 Pues voy a ver, a contar hasta que llegue ese dato 16. 149 00:15:07,629 --> 00:15:18,149 10 unos y ahora 10 doses, pues la posición 16 la ocupará uno de esos doses, pues el cuartil 1 es un 2. 150 00:15:18,889 --> 00:15:22,549 Si quiero calcular el cuartil 3, lo puedo hacer de dos formas. 151 00:15:23,490 --> 00:15:25,889 Creo que la segunda que os voy a hacer va a ser más cómoda. 152 00:15:26,230 --> 00:15:32,169 Puedo decir, buscar cuál es el dato que me deja tres cuartas partes por debajo. 153 00:15:32,230 --> 00:15:37,190 que es el 75%, o hacer la misma cuenta que he hecho para el cuartil 1 154 00:15:37,190 --> 00:15:41,730 pensando en qué dato es el que me deja un cuarto de los datos por encima. 155 00:15:42,190 --> 00:15:45,370 ¿Cuál es el que me deja por encima el 25% de los datos? 156 00:15:46,250 --> 00:15:50,970 Pues como hemos dicho que la mediana está en la posición 33, 157 00:15:50,970 --> 00:15:56,470 que la mitad es el 66, pues si yo pienso el mismo razonamiento 158 00:15:56,470 --> 00:16:01,029 que hice para el cuartil 1, pero pensando desde el último dato hacia atrás, 159 00:16:01,029 --> 00:16:06,529 lo que necesito es saber qué dato hay en la posición 16,5 160 00:16:06,529 --> 00:16:08,370 que decíamos que es la mitad del 33 161 00:16:08,370 --> 00:16:11,610 y entonces me fijaría en mi tabla de frecuencias 162 00:16:11,610 --> 00:16:12,929 pero empezando por el final 163 00:16:12,929 --> 00:16:17,590 digo, los 17 últimos datos son 5 164 00:16:17,590 --> 00:16:20,110 pero yo no quería los 17 últimos datos 165 00:16:20,110 --> 00:16:22,529 me bastaba con los 16 últimos datos 166 00:16:22,529 --> 00:16:26,710 ¿qué hay en la posición 16 empezando por el final? 167 00:16:27,230 --> 00:16:27,909 pues un 5 168 00:16:27,909 --> 00:16:32,289 pues mi cuartil tercero es ese 5 169 00:16:32,289 --> 00:16:35,889 ¿vale? si lo pensamos de 170 00:16:35,889 --> 00:16:39,769 la forma de utilizar los porcentajes 171 00:16:39,769 --> 00:16:44,590 lo que tengo que ir es calculando que porcentaje 172 00:16:44,590 --> 00:16:48,610 de repetición tiene cada uno de esos datos que he estado mirando 173 00:16:48,610 --> 00:16:52,629 y digo, sería hacer una regla de 3, si 66 174 00:16:52,629 --> 00:16:57,090 datos es el 100%, pues 10 datos sería un 15% 175 00:16:57,090 --> 00:17:06,549 El 2, que sería el dato 20, 10 y 10, 20, pues los 20 primeros datos serían el 30%, que es el doble que es el 15. 176 00:17:07,470 --> 00:17:14,589 Los 20 más los 17, 37 datos serían el 56%, el 56%. 177 00:17:14,589 --> 00:17:20,869 Esos 17 más estos otros 12, los 49 primeros datos serían el 74%. 178 00:17:20,869 --> 00:17:26,170 Y los últimos 16 datos serían ya completar el 100%. 179 00:17:26,170 --> 00:17:43,690 Pues la forma de buscar la mediana es buscar qué dato está dentro del 50%, que sería un 3, qué dato estaría dentro de la posición del 25%, que sería un 2, y qué dato estaría en la posición del 75%, que sería un 5. 180 00:17:44,230 --> 00:17:55,730 Como mejor lo veáis, con los porcentajes corro el riesgo de que si calculo mal el porcentaje, pues ponga ya mal esta columna y todo me salga mal. 181 00:17:56,170 --> 00:18:13,690 ¿Con el recuento de la frecuencia absoluta? Pues me es más cómodo, creo yo, a mí me gusta más porque solo es contar hasta llegar al dato que yo quiero llegar y ver, hasta llegar a la posición, perdón, que quiero llegar y ver luego qué dato ocupa esa posición. 182 00:18:13,690 --> 00:18:17,349 pero lo podéis hacer de la forma que queráis 183 00:18:17,349 --> 00:18:20,130 como os resulte más cómodo y lo veáis mejor 184 00:18:20,130 --> 00:18:29,579 bueno, vistas estas medidas o parámetros de centralización 185 00:18:29,579 --> 00:18:33,140 el diagrama de carga y bigotes 186 00:18:33,140 --> 00:18:36,240 este no lo vamos a ver porque sería una forma de representar los cuartiles 187 00:18:36,240 --> 00:18:38,380 pero no lo vamos a utilizar luego en los ejercicios 188 00:18:38,380 --> 00:18:41,119 entonces que quede así solo como curiosidad 189 00:18:41,119 --> 00:18:43,099 de cómo se representa esto gráficamente 190 00:18:43,099 --> 00:18:46,380 igual que vimos la representación de los distintos tipos de variables 191 00:18:46,380 --> 00:19:09,119 Pero no os lo voy a pedir, ¿vale? Ahora lo que sí que os voy a pedir es que sepáis calcular las medidas de dispersión. ¿Qué es esto de las medidas de dispersión? Pues las medidas de dispersión lo que me van a hacer es ver cómo de agrupados o separados están los datos de mi estudio estadístico, ¿vale? 192 00:19:09,700 --> 00:19:16,240 Si los datos están muy agrupaditos, pues será un estudio muy homogéneo, una población muy homogénea a la que he estudiado, la gente es muy parecida. 193 00:19:16,799 --> 00:19:27,700 Si los datos están muy dispersos, pues la población será muy heterogénea y, por decirlo de alguna manera, si estamos controlando los gustos que tienen, pues va a haber gustos muy dispares. 194 00:19:28,319 --> 00:19:37,539 Si las medidas de dispersión están muy centralizadas, pues serán datos muy parejos y gustos muy parejos los que tendrá la gente. 195 00:19:37,539 --> 00:19:39,880 bueno, vamos a ver quiénes son estos 196 00:19:39,880 --> 00:19:43,619 medidas de dispersión o parámetros de dispersión 197 00:19:43,619 --> 00:19:46,559 empezamos de más fáciles a más difíciles 198 00:19:46,559 --> 00:19:47,500 por decirlo de alguna manera 199 00:19:47,500 --> 00:19:50,519 la primera sería el rango recorrido 200 00:19:50,519 --> 00:19:55,000 y el rango recorrido simplemente lo que me va a indicar 201 00:19:55,000 --> 00:19:57,460 es entre qué valores me voy a mover 202 00:19:57,460 --> 00:20:00,400 entonces el rango es 203 00:20:00,400 --> 00:20:03,200 la diferencia entre el valor más alto 204 00:20:03,200 --> 00:20:05,240 que me voy a encontrar en mi variable 205 00:20:05,240 --> 00:20:09,900 y el valor más pequeño, o sea que lo que me va a indicar es la longitud 206 00:20:09,900 --> 00:20:14,059 del intervalo en la que se están moviendo mis datos 207 00:20:14,059 --> 00:20:17,940 ¿vale? en este ejemplo que me dicen aquí, pues el dato 208 00:20:17,940 --> 00:20:21,859 más pequeño, el valor más pequeño de mi variable era 5 y el más alto 209 00:20:21,859 --> 00:20:25,759 era 30, pues el rango de mi estudio va a ser 210 00:20:25,759 --> 00:20:29,960 30 menos 5, 25, o sea que estaré 211 00:20:29,960 --> 00:20:32,880 diciendo con esta medida 212 00:20:32,880 --> 00:20:35,700 que mis datos están 213 00:20:35,700 --> 00:20:38,839 separados 214 00:20:38,839 --> 00:20:41,299 25 unidades 215 00:20:41,299 --> 00:20:44,339 entre el más pequeño y más grande, o sea que 216 00:20:44,339 --> 00:20:47,279 el recorrido por el que me muevo 217 00:20:47,279 --> 00:20:51,160 tiene una longitud, por así decirlo, de 25 unidades 218 00:20:51,160 --> 00:20:53,660 en este caso, ¿vale? Entonces 219 00:20:53,660 --> 00:20:57,180 no me da una información muy importante 220 00:20:57,180 --> 00:20:59,559 pero ya me ayuda a ir 221 00:20:59,559 --> 00:21:02,599 centrándome sobre qué valores 222 00:21:02,599 --> 00:21:09,200 me estoy moviendo, ¿vale? Bueno, siguiente medida de dispersión sería lo que se llama 223 00:21:09,200 --> 00:21:15,160 la desviación media. ¿Y en qué consiste la desviación media? Pues en hacer la media 224 00:21:15,160 --> 00:21:21,880 que hay entre los valores absolutos de la diferencia entre la media aritmética y los 225 00:21:21,880 --> 00:21:27,500 distintos datos que me he encontrado. Entonces, lo que estoy viendo aquí es cómo de separados 226 00:21:27,500 --> 00:21:32,460 en valor medio están mis datos de esa media aritmética 227 00:21:32,460 --> 00:21:35,579 ¿Cómo haré para calcularlos? 228 00:21:36,039 --> 00:21:39,619 Me puedo generar una nueva columna 229 00:21:39,619 --> 00:21:42,480 que me diga, voy a ver cuánto vale 230 00:21:42,480 --> 00:21:47,640 cada diferencia de el dato 231 00:21:47,640 --> 00:21:52,039 que estoy mirando con la media, como los datos se están repitiendo 232 00:21:52,039 --> 00:21:55,460 esta cuentecita la tendré que multiplicar 233 00:21:55,460 --> 00:21:59,740 Por la frecuencia absoluta de las veces que se ha repetido el dato que estoy mirando. 234 00:22:00,400 --> 00:22:00,579 ¿Vale? 235 00:22:00,900 --> 00:22:07,779 Entonces, lo pongo en valor absoluto porque me da igual que el dato esté por encima de la media que esté por debajo. 236 00:22:07,779 --> 00:22:11,119 Yo solo quiero ver lo que me he separado de él. 237 00:22:11,599 --> 00:22:13,460 Me da igual hacia adelante o hacia atrás. 238 00:22:14,000 --> 00:22:20,440 Entonces, lo que diríamos si en nuestro ejercicio vamos a poner que la media salió que era el 3, 239 00:22:20,819 --> 00:22:24,640 pues diríamos 3 menos 5, que sería menos 2. 240 00:22:24,640 --> 00:22:28,319 como quiero valor absoluto, lo pongo en positivo, más 2 241 00:22:28,319 --> 00:22:31,839 multiplicado por las dos veces que salió el 5 242 00:22:31,839 --> 00:22:37,019 ese resultado me lo pongo en esta columna nueva que me he creado 243 00:22:37,019 --> 00:22:40,160 y voy haciendo esa misma cuenta con todos los demás 244 00:22:40,160 --> 00:22:45,039 3 menos 10, menos 7, al ponerlo en valor absoluto, más 7 245 00:22:45,039 --> 00:22:48,039 pero como apareció una vez, pues menos 7 por 1 246 00:22:48,039 --> 00:22:53,220 y sería ir haciendo esa cuenta todo el rato 1 por 1 247 00:22:53,920 --> 00:23:05,299 Cuando tenga cada uno de los valores de cada una de las filas de los datos que he ido contrastando con la media aritmética, lo que hago es sumarlos, ¿vale? 248 00:23:05,740 --> 00:23:10,259 Sumo todos los valores de esta columna y me da este 106,66. 249 00:23:10,259 --> 00:23:15,579 como yo quiero compararlo con el total de datos que tenía 250 00:23:15,579 --> 00:23:19,880 pues digo, esa desviación que se llama respecto a la media 251 00:23:19,880 --> 00:23:23,619 la divido entre los 18 datos que tenía 252 00:23:23,619 --> 00:23:26,380 que era la suma de las frecuencias absolutas 253 00:23:26,380 --> 00:23:29,779 y el resultado de esta división 254 00:23:29,779 --> 00:23:33,859 me da este 5,92 que es la desviación media 255 00:23:33,859 --> 00:23:37,819 la media aritmética de lo que me he desviado 256 00:23:37,819 --> 00:23:41,759 con respecto a la media en todo mi estudio estadístico 257 00:23:41,759 --> 00:23:45,279 es un poco trabalenguas esto, pero bueno 258 00:23:45,279 --> 00:23:49,920 no es difícil la cuenta, siempre va a ser la misma cuenta y os aconsejo 259 00:23:49,920 --> 00:23:54,200 que en vez de irla haciendo por separado, os escribáis la columna 260 00:23:54,200 --> 00:23:57,000 entera, haciendo uno para uno 261 00:23:57,000 --> 00:24:01,980 la operación que hemos dicho, cuando la tenga entera hago la suma, divido entre el número total 262 00:24:01,980 --> 00:24:05,700 de datos y ya está, que no hagáis cuentas parciales porque si no 263 00:24:05,700 --> 00:24:10,880 Es muy fácil que me deje un dato atrás, que uno le ponga dos veces y ya la iría. 264 00:24:11,039 --> 00:24:18,240 O cuando me confunda en uno de los operadores de esta suma que estoy haciendo en el numerador, me he cargado la operación. 265 00:24:18,700 --> 00:24:25,640 Entonces mejor vamos completando la tabla, que ya veremos que nos va a hacer falta luego completarla más para mirar otros parámetros. 266 00:24:27,019 --> 00:24:30,680 Y así me va a ser más cómodo luego aplicar las fórmulas finales. 267 00:24:31,279 --> 00:24:33,279 Bueno, esa sería la desviación media. 268 00:24:33,279 --> 00:24:35,400 después de la desviación media 269 00:24:35,400 --> 00:24:37,440 tenemos una cosa que se llama varianza 270 00:24:37,440 --> 00:24:41,819 y la varianza es algo parecido a la desviación media 271 00:24:41,819 --> 00:24:44,200 pero lo que estoy haciendo es mirar 272 00:24:44,200 --> 00:24:47,500 cómo se desvían en media los cuadrados 273 00:24:47,500 --> 00:24:49,440 de estas desviaciones medias 274 00:24:49,440 --> 00:24:51,940 es como rizar un poco el rizo 275 00:24:51,940 --> 00:24:55,140 y bueno, voy a hacer otra vez la misma historia 276 00:24:55,140 --> 00:24:59,980 la fórmula de la varianza sería lo que hay dentro aquí 277 00:24:59,980 --> 00:25:01,000 de la raíz cuadrada 278 00:25:01,000 --> 00:25:04,900 puesto que la desviación típica que es el siguiente parámetro 279 00:25:04,900 --> 00:25:08,000 es hacer la raíz cuadrada de lo que me salió en la variada 280 00:25:08,000 --> 00:25:12,240 lo puedo calcular de dos formas distintas 281 00:25:12,240 --> 00:25:14,380 como resulte más cómodo, yo os cuento las dos 282 00:25:14,380 --> 00:25:15,740 aquí en el ejemplo vienen las dos 283 00:25:15,740 --> 00:25:18,859 la fórmula que más cómoda os sea de utilizar 284 00:25:18,859 --> 00:25:21,460 hay quien le gusta más esta, quien le gusta más esta 285 00:25:21,460 --> 00:25:23,759 en la primera lo que está haciendo es 286 00:25:23,759 --> 00:25:26,319 lo mismo que hemos hecho antes con la desviación media 287 00:25:26,319 --> 00:25:30,539 pero en vez de hacer el valor absoluto de la diferencia que había entre cada dato 288 00:25:30,539 --> 00:25:34,500 y la media aritmética lo que hace es el cuadrado de esas diferencias 289 00:25:34,500 --> 00:25:37,619 luego lo multiplica por las veces que se ha repetido ese dato 290 00:25:37,619 --> 00:25:39,559 o sea, por su frecuencia absoluta 291 00:25:39,559 --> 00:25:42,319 y al final la suma de todos ellos 292 00:25:42,319 --> 00:25:44,420 lo divide entre el número total de datos 293 00:25:44,420 --> 00:25:48,539 entonces, una vez más, consejo que os digo 294 00:25:48,539 --> 00:25:53,420 que os hagáis la columna de todas esas cuentas 295 00:25:53,420 --> 00:25:55,519 en vez de ir haciendo toda la fórmula entera 296 00:25:55,519 --> 00:26:00,579 me hago la columna de lo que correspondería 297 00:26:00,579 --> 00:26:04,000 a cada uno de los datos en su fila, digo el 5 298 00:26:04,000 --> 00:26:07,819 menos la media, que era el 9 no sé cuánto 299 00:26:07,819 --> 00:26:11,480 el resultado de esa resta le hago al cuadrado 300 00:26:11,480 --> 00:26:16,279 y luego multiplico por 5, que eran las veces que se había repetido 301 00:26:16,279 --> 00:26:19,859 ese 5, y lo pongo en su fila 302 00:26:19,859 --> 00:26:24,000 hago la misma historia para el siguiente, para el siguiente, para el siguiente, cuando tenga todos 303 00:26:24,000 --> 00:26:27,660 calculados, hago su suma y lo que me salga 304 00:26:27,660 --> 00:26:32,119 lo divido entre los 19 datos que había y ya tendría calculada 305 00:26:32,119 --> 00:26:36,140 la varianza, que luego quiero saber la desviación típica 306 00:26:36,140 --> 00:26:40,220 pues simplemente hago la raíz cuadrada de lo que me hubiese 307 00:26:40,220 --> 00:26:44,079 salido en la cuenta de la varianza, o sea la raíz cuadrada de lo que me salió 308 00:26:44,079 --> 00:26:47,119 de dividir esto entre 19 309 00:26:47,119 --> 00:26:52,539 otra opción que hay a quien le parece más cómoda 310 00:26:52,539 --> 00:26:54,059 Que es usar esta segunda fórmula. 311 00:26:54,640 --> 00:27:01,240 Y esta segunda fórmula puede ser más cómoda porque es más rápida de calcular en principio. 312 00:27:02,059 --> 00:27:05,799 Porque no tengo que pensar en la media aritmética hasta el final. 313 00:27:05,799 --> 00:27:11,539 Y es que vaya multiplicando la frecuencia de cada dato por el cuadrado del dato. 314 00:27:11,779 --> 00:27:13,619 O sea, digo, 5 por 5, 25. 315 00:27:14,160 --> 00:27:15,440 5 veces, 125. 316 00:27:17,200 --> 00:27:20,000 10 al cuadrado, 100 por 1, 100. 317 00:27:20,000 --> 00:27:24,200 15 al cuadrado, 225, por una vez que se repetía 318 00:27:24,200 --> 00:27:28,539 225, entonces hago frecuencia por el cuadrado 319 00:27:28,539 --> 00:27:32,359 del valor de la variable, sumo todo lo que me sale 320 00:27:32,359 --> 00:27:36,839 en la columna esa, y a este 9975 321 00:27:36,839 --> 00:27:39,480 le divido 322 00:27:39,480 --> 00:27:44,480 primero entre los 19 datos que había 323 00:27:44,480 --> 00:27:48,680 en mi estadística, y al resultado de esta división 324 00:27:48,680 --> 00:27:53,500 le resto el cuadrado de lo que valiese la media aritmética 325 00:27:53,500 --> 00:27:57,259 que ya había calculado previamente y voy a llegar al mismo resultado 326 00:27:57,259 --> 00:28:01,599 fijaos que aquí ha hecho la cuenta con esta 327 00:28:01,599 --> 00:28:04,759 primera modalidad, utilizando esta primera columna 328 00:28:04,759 --> 00:28:09,640 aquí ha hecho la cuenta, utilizando las cuentas de esta segunda columna, de esta segunda fórmula 329 00:28:09,640 --> 00:28:12,359 y llega exactamente al mismo resultado 330 00:28:12,359 --> 00:28:17,339 lo que os resulte más cómodo, para hacerlo 331 00:28:17,339 --> 00:28:21,859 sin calculadora, digamos, es más cómoda esta, para hacerlo con calculadora 332 00:28:21,859 --> 00:28:25,460 pues la que me dé la gana, eso sí, si lo hago con calculadora 333 00:28:25,460 --> 00:28:29,680 pues aún así yo me iría haciendo esas cuentas parciales 334 00:28:29,680 --> 00:28:33,500 y poniéndolas aquí, para no perderme ninguna ni saltarme ningún 335 00:28:33,500 --> 00:28:36,900 dato, aunque se podría escribir en la calculadora todo del tirón 336 00:28:36,900 --> 00:28:41,099 como queráis, eso dependerá de la soltura que tengáis a la hora de 337 00:28:41,099 --> 00:28:45,180 manejar la calculadora, bueno, lo haga como lo haga 338 00:28:45,180 --> 00:28:52,579 sé que la desviación típica sale de hacer la raíz cuadrada de lo que me dio la varianza, ¿vale? 339 00:28:52,720 --> 00:28:58,579 Y que para poder hacer la varianza necesito primero haber sabido la media aritmética. 340 00:28:59,240 --> 00:29:01,299 ¿Qué ocurrirán los ejercicios? 341 00:29:01,900 --> 00:29:06,500 Que me darán mis numeritos, ahora volveremos haciendo uno paso a paso, 342 00:29:07,359 --> 00:29:13,279 y me pedirán que calcule esta desviación típica y no me dirán nada más. 343 00:29:13,279 --> 00:29:16,420 pero claro, para poder calcular esta desviación típica 344 00:29:16,420 --> 00:29:18,599 me están obligando a que haga la tabla de frecuencias 345 00:29:18,599 --> 00:29:22,240 a que calcule la media aritmética, a que calcule la varianza 346 00:29:22,240 --> 00:29:25,500 y que por último llegue a la desviación típica 347 00:29:25,500 --> 00:29:28,380 o sea, que preguntándome sólo una cosa 348 00:29:28,380 --> 00:29:31,299 me están obligando a hacer todas las demás 349 00:29:31,299 --> 00:29:34,519 porque las necesito para poder aplicar la fórmula 350 00:29:34,519 --> 00:29:37,960 de esta desviación típica que me estarían pidiendo 351 00:29:37,960 --> 00:29:40,500 o sea que yo lo hago tranquilamente 352 00:29:41,140 --> 00:29:43,200 despacito y ya está 353 00:29:43,200 --> 00:30:02,960 Y el último parámetro de dispersión es el coeficiente de variación, que como cuando hacía esta desviación típica iban a depender los resultados de unas unidades que medían la variable que yo estaba estudiando, 354 00:30:02,960 --> 00:30:06,579 Si yo quisiese comparar dos estadísticas distintas 355 00:30:06,579 --> 00:30:07,819 No podría hacerlo 356 00:30:07,819 --> 00:30:12,000 Si yo quiero comparar los colores que le gusta a la gente 357 00:30:12,000 --> 00:30:13,700 Con la edad que tienen 358 00:30:13,700 --> 00:30:16,279 Pues no me permitiría hacer la comparación 359 00:30:16,279 --> 00:30:19,299 Ahora, si yo utilizo este último coeficiente 360 00:30:19,299 --> 00:30:20,819 Que es el coeficiente de variación 361 00:30:20,819 --> 00:30:22,240 Si lo voy a poder hacer 362 00:30:22,240 --> 00:30:25,539 Porque el coeficiente de variación no tiene unidades de medida 363 00:30:25,539 --> 00:30:28,460 Porque el coeficiente de variación lo que hace es 364 00:30:28,460 --> 00:30:32,579 Ver la relación entre la desviación típica 365 00:30:32,579 --> 00:30:37,579 y la media aritmética, o sea, el coeficiente de variación es 366 00:30:37,579 --> 00:30:42,740 dividir la desviación típica entre la media aritmética 367 00:30:42,740 --> 00:30:47,339 y luego, pues, hay quien lo deja así, escrito como fracción 368 00:30:47,339 --> 00:30:51,680 como decimales no me interesa nunca, o quien lo pone en porcentaje 369 00:30:51,680 --> 00:30:56,319 pero, como he dividido unidades de desviación típica, que por ejemplo 370 00:30:56,319 --> 00:31:01,940 serían edades entre unidades de la media que volverían a ser edades 371 00:31:01,940 --> 00:31:07,240 pues edad entre edad desaparecería y se queda sin unidades de medida 372 00:31:07,240 --> 00:31:08,539 y coeficiente de variación. 373 00:31:09,240 --> 00:31:13,720 Y eso lo que me permite es comparar estudios estadísticos 374 00:31:13,720 --> 00:31:17,180 que no tengan en principio nada que ver, como decíamos, 375 00:31:17,819 --> 00:31:23,259 del gusto de los colores para vestir, con la edad de la gente, 376 00:31:23,759 --> 00:31:29,460 simplemente viendo qué porcentaje me sale en esa comparación 377 00:31:29,460 --> 00:31:36,180 de desviación típica contra media y el que tenga el porcentaje más alto 378 00:31:36,180 --> 00:31:43,480 pues será el que corresponda a una población más heterogénea 379 00:31:43,480 --> 00:31:46,299 y el que tenga el porcentaje de coeficiente de variación más bajo 380 00:31:46,299 --> 00:31:51,599 me estará diciendo que los datos están más concentrados respecto a la media 381 00:31:51,599 --> 00:31:56,240 y que esa gente tiene gustos más parecidos y entonces sí que podría 382 00:31:56,240 --> 00:32:01,000 comparar ese gusto de colores con las edades 383 00:32:01,000 --> 00:32:05,359 de la gente a las que le he hecho la encuesta. Esto es un poco 384 00:32:05,359 --> 00:32:09,079 complicado a lo mejor de entender así, pero bueno 385 00:32:09,079 --> 00:32:12,779 nosotros nos quedamos con que este último coeficiente de variación 386 00:32:12,779 --> 00:32:17,180 lo que me hace es dividir la desviación típica entre la media 387 00:32:17,180 --> 00:32:20,599 dinética, ya está. Si quiero el resultado de esa división 388 00:32:20,599 --> 00:32:25,240 para verlo un poco más gráficamente, lo paso a porcentaje haciendo una regla 389 00:32:25,240 --> 00:32:30,640 de 3. Si no quiero, pues no hace falta. Me da igual. Viéndolo simplemente como fracción 390 00:32:30,640 --> 00:32:37,059 o como número decimal, voy a poder compararlos también perfectamente, porque sabemos ordenar 391 00:32:37,059 --> 00:32:40,759 los números decimales y también sabemos ordenar fracciones. O sea que si yo quiero 392 00:32:40,759 --> 00:32:46,200 comparar dos números decimales o quiero comparar dos fracciones, a estas alturas lo sabemos 393 00:32:46,200 --> 00:32:50,579 hacer. ¿Qué me es más cómodo hacerlo con porcentaje? Pues lo pasáis a porcentaje con 394 00:32:50,579 --> 00:32:57,400 esa regla de tres y se ve aún mejor y más rápido, bien es verdad, ¿vale? Bueno, lo 395 00:32:57,400 --> 00:33:04,099 que voy a hacer ahora es irnos a un ejercicio en el que hagamos todo lo que hemos visto 396 00:33:04,099 --> 00:33:09,960 en este tema, desde representación a medidas de descentralización, medidas de dispersión, 397 00:33:10,619 --> 00:33:16,000 todo lo que me podrían preguntar un ejercicio visto sobre un ejemplo, para que veáis que 398 00:33:16,000 --> 00:33:19,539 todo va como encadenado. Ese ejercicio 399 00:33:19,539 --> 00:33:23,019 le vamos a hacer sobre uno de los resueltos que se da 400 00:33:23,019 --> 00:33:27,660 en los ejercicios aquí resueltos y los que tenéis para practicar 401 00:33:27,660 --> 00:33:31,079 para que así tengamos las cuentas hechas y pueda tardar un poco menos, pero 402 00:33:31,079 --> 00:33:35,500 voy a ir explicando paso a paso que hago en cada cuenta de lo que 403 00:33:35,500 --> 00:33:41,640 vamos haciendo. Bueno, pues imaginaos 404 00:33:41,640 --> 00:33:45,759 me dicen que tengo este 405 00:33:45,759 --> 00:33:53,259 estudio estadístico, que será de lo que Dios quiera que sea, me da igual. Los valores 406 00:33:53,259 --> 00:33:57,019 que ha tomado la variable en ese estudio estadístico, los distintos valores que tenía la variable 407 00:33:57,019 --> 00:34:06,900 eran 5, 10, 15, 20, 25 y 30. Y me dicen las frecuencias con las que ha aparecido cada 408 00:34:06,900 --> 00:34:14,880 uno de estos datos. Me dice que el 5 ha aparecido 9 veces, el 10 2, el 15 3, el 25, el 25 9 409 00:34:14,880 --> 00:34:37,260 y el 34. Luego, ya sé aquí de entrada que el número de datos que había en mi estadística es 32, que sería 9 más 2, 11, más 3, 14, 19, 28 y 32. 410 00:34:37,260 --> 00:34:45,260 Pues acordaos que el número de datos es la suma de todas las frecuencias absolutas, ¿vale? 411 00:34:46,800 --> 00:34:50,260 Que si yo lo pongo en forma de tabla, que es lo que a mí me va a interesar, 412 00:34:50,719 --> 00:34:55,260 pues sería mi primera columna, los distintos valores de la variable, 413 00:34:56,719 --> 00:35:00,639 sea lo que sea lo que esté estudiando, pues si pensamos en el de antes, 414 00:35:01,139 --> 00:35:05,179 días que he faltado a trabajar en un mes, por ejemplo, 415 00:35:05,179 --> 00:35:10,130 y personas que han faltado ese número de días 416 00:35:10,130 --> 00:35:11,690 en mi segunda columna 417 00:35:11,690 --> 00:35:13,889 la suma de todas esas frecuencias 418 00:35:13,889 --> 00:35:15,869 absolutas me dará el total 419 00:35:15,869 --> 00:35:16,590 de personas 420 00:35:16,590 --> 00:35:20,190 sobre las que estoy haciendo la encuesta 421 00:35:20,190 --> 00:35:21,610 sobre las que estoy haciendo el estudio 422 00:35:21,610 --> 00:35:24,010 ¿vale? y fijaos 423 00:35:24,010 --> 00:35:27,599 me dice ¿cuál es 424 00:35:27,599 --> 00:35:29,460 la desviación 425 00:35:29,460 --> 00:35:30,159 típica? 426 00:35:31,519 --> 00:35:33,320 ¿vale? pues es que para hacer 427 00:35:33,320 --> 00:35:35,639 la desviación típica necesito 428 00:35:35,639 --> 00:35:37,000 saber la media aritmética 429 00:35:37,000 --> 00:35:47,659 porque no necesitaba mi fórmula puesto que la desviación típica hemos dicho que era la raíz cuadrada de la varianza 430 00:35:47,659 --> 00:35:55,619 que lo podemos poner así o la podemos poner también como sigma al cuadrado y esto era igual a la raíz cuadrada 431 00:35:55,619 --> 00:36:00,920 vamos a utilizar la fórmula cortita puesto que tiene aquí la columna y es más rápida de ver las cuentas 432 00:36:00,920 --> 00:36:17,679 Que era la suma de fi por xi al cuadrado, que era cada uno de los datos distintos que aparecía, dividido entre el número total de datos y menos el cuadrado de la media, ¿vale? 433 00:36:17,679 --> 00:36:20,800 esa sería mi desviación típica 434 00:36:20,800 --> 00:36:23,500 y lo que hay aquí dentro 435 00:36:23,500 --> 00:36:25,820 si yo lo quisiese hacer en dos partes 436 00:36:25,820 --> 00:36:28,119 lo que hay aquí dentro 437 00:36:28,119 --> 00:36:31,639 ¿vale? lo de dentro de la raíz 438 00:36:31,639 --> 00:36:37,449 sería el valor de mi varianza 439 00:36:37,449 --> 00:36:39,750 que hemos dicho que me pueden poner como var 440 00:36:39,750 --> 00:36:42,389 o como sigma al cuadrado, son las dos formas de 441 00:36:42,389 --> 00:36:44,690 representar la varianza 442 00:36:45,389 --> 00:36:53,389 Bueno, pues digo, bueno, si utilizo esta segunda fórmula, que hemos dicho que es la más corta, la de usar, pues ¿qué haré? 443 00:36:54,489 --> 00:36:58,170 Me olvido de esta columna. A ver, ¿por qué no me dejas escribir? 444 00:37:00,440 --> 00:37:09,699 Me olvido de esta columna y me quedo con esta, mi tabla de frecuencias, en la que yo decía que tenía que multiplicar la frecuencia, 445 00:37:10,019 --> 00:37:16,300 en este caso el 9, por el cuadrado del valor del dato que estaba mirando, por el cuadrado de 25. 446 00:37:16,699 --> 00:37:23,960 Pues 9 por 25, o digo, perdón, por el cuadrado de 5, perdón, que se me ha ido la pinta. 447 00:37:24,719 --> 00:37:28,239 5 al cuadrado, 25 por 9, 225. 448 00:37:28,320 --> 00:37:28,940 Voy al siguiente. 449 00:37:29,519 --> 00:37:32,079 10 al cuadrado, 100 por 2, 200. 450 00:37:32,239 --> 00:37:32,940 Voy al siguiente. 451 00:37:33,559 --> 00:37:37,679 15 al cuadrado, 225 por 3, 675. 452 00:37:38,579 --> 00:37:41,860 20 al cuadrado, 400 por 5, 2000. 453 00:37:42,380 --> 00:37:43,940 25 al cuadrado, pum, pum, pum. 454 00:37:43,940 --> 00:37:54,099 Voy haciendo por filas la cuenta esta de multiplicar frecuencia por cuadrado del valor de mi variable. 455 00:37:54,960 --> 00:38:02,739 Cuando tengo toda la columna hecha, sumo todos los resultados, que me dan en este caso 12.325, 456 00:38:03,739 --> 00:38:09,519 y me acuerdo que ese 12.325, como estoy usando esta segunda fórmula, 457 00:38:10,019 --> 00:38:12,500 lo tengo que dividir entre el número total de datos que tenía. 458 00:38:12,500 --> 00:38:16,380 pero el número total de datos lo tenía aquí como suma de las frecuencias absolutas 459 00:38:16,380 --> 00:38:19,280 o sea, 32 datos que ya lo vimos hacia arriba 460 00:38:19,280 --> 00:38:22,639 entonces digo, 1.012.325 461 00:38:22,639 --> 00:38:23,960 dividido entre 32 462 00:38:23,960 --> 00:38:28,679 menos, ¿cuánto era la media? 463 00:38:29,340 --> 00:38:30,059 no anda leches 464 00:38:30,059 --> 00:38:33,659 me hace falta la media para la fórmula y no la he calculado 465 00:38:33,659 --> 00:38:37,260 ¿cómo se calculaba la media? pues si os acordáis 466 00:38:37,260 --> 00:38:40,219 la media la calculamos diciendo 467 00:38:40,219 --> 00:38:44,760 que mi media aritmética era la suma de 468 00:38:44,760 --> 00:38:49,079 las frecuencias por cada uno de los datos 469 00:38:49,079 --> 00:38:52,159 y dividido entre el total de datos 470 00:38:52,159 --> 00:38:56,619 o sea que lo que hago es esta columna para ayudarme, digo 5 por 9 471 00:38:56,619 --> 00:39:00,360 45, 10 por 2, 20, 15 por 3 472 00:39:00,360 --> 00:39:03,280 45, 20 por 5, 100, pa pa pa pa pa pa 473 00:39:03,280 --> 00:39:07,840 y la suma de todos, este 555 474 00:39:07,840 --> 00:39:12,420 sería esta parte del numerador, ¿qué hago con ese numerador? 475 00:39:12,639 --> 00:39:15,920 dividirlo entre 32 que era el número total de datos, pues 476 00:39:15,920 --> 00:39:20,300 555 dividido entre 32 me da que la media es 17 477 00:39:20,300 --> 00:39:23,860 con 34, pero bueno, pues si a ese 478 00:39:23,860 --> 00:39:28,199 12.325 dividido entre 32 le resto 479 00:39:28,199 --> 00:39:32,440 el cuadrado de ese 17 con 34, me estaría 480 00:39:32,440 --> 00:39:36,440 dando el valor de la varianza, pero no me pedían el valor de la varianza 481 00:39:36,440 --> 00:39:39,159 me pedían la desviación típica, no hay ningún problema 482 00:39:39,159 --> 00:39:41,940 pues al resultado de ese valor de la varianza 483 00:39:41,940 --> 00:39:45,400 le hago la raíz cuadrada y me sale la desviación 484 00:39:45,400 --> 00:39:48,119 típica que quería, 9 con 18 485 00:39:48,119 --> 00:39:51,340 y me dicen para rematar, bueno pero ese 486 00:39:51,340 --> 00:39:54,699 9 con 18, si le quisiese 487 00:39:54,699 --> 00:39:57,019 comparar con otro estudio estadístico 488 00:39:57,019 --> 00:40:00,699 de otra variable distinta, no puedo porque va a depender 489 00:40:00,699 --> 00:40:03,480 de las unidades de medida que tuviese la variable 490 00:40:03,480 --> 00:40:07,320 que estaba estudiando, bueno, pues vamos a pasar coeficiente de variación 491 00:40:07,320 --> 00:40:10,559 digo, ¿cómo se calculaba el coeficiente de variación? 492 00:40:11,079 --> 00:40:15,039 pues el coeficiente de variación dijimos que era coger 493 00:40:15,039 --> 00:40:19,559 esa desviación típica y dividirlo entre la media aritmética 494 00:40:19,559 --> 00:40:23,199 pues cojo ese 9,18 y lo divido entre el 495 00:40:23,199 --> 00:40:27,880 17,34 que es la media aritmética y me dará 496 00:40:27,880 --> 00:40:30,679 pues una fracción que yo la puedo poner en decimal 497 00:40:30,679 --> 00:40:32,840 dejarlo como fracción o 498 00:40:32,840 --> 00:40:35,920 si lo quiero pasar a porcentaje 499 00:40:35,920 --> 00:40:38,079 el resultado de esta división 500 00:40:38,079 --> 00:40:40,800 lo único que tengo que pasarle es multiplicarle por 100 501 00:40:40,800 --> 00:40:42,699 y me sale 502 00:40:42,699 --> 00:40:45,760 transformo ese número decimal 503 00:40:45,760 --> 00:40:46,940 del resultado de la división 504 00:40:46,940 --> 00:40:49,280 en un porcentaje, en un tanto por ciento 505 00:40:49,280 --> 00:40:52,679 me estaría diciendo que el coeficiente de variación aquí 506 00:40:52,679 --> 00:40:54,699 es de un 52% 507 00:40:54,699 --> 00:40:58,679 que el 52% de la gente está separado de la media 508 00:40:58,679 --> 00:41:27,079 Entonces, si yo quiero interpretar si esta estadística está representando a datos muy dispersos o a datos muy concentrados, al ver que me salió un coeficiente de variación tan alto, que hay tanta gente que está lejos de la media, digo, uy, pues es que el estudio este que he hecho ha sido sobre una población tan sumamente heterogénea que aquí ha opinado la gente de forma muy, muy diversa. 509 00:41:27,079 --> 00:41:42,360 No es una buena población si yo quiero sacar conclusiones de ella y hacer cosas con esas conclusiones porque son datos muy heterogéneos, ¿vale? Son datos muy dispersos. 510 00:41:42,360 --> 00:41:47,139 bueno, y diréis, bueno, pero es que nos hemos dejado cosas sin hacer 511 00:41:47,139 --> 00:41:50,340 pues ya que hemos visto esta última parte, que era la difícil 512 00:41:50,340 --> 00:41:54,599 más despacito, vamos a hacer esas medidas de centralización 513 00:41:54,599 --> 00:41:58,800 que nos faltaban, y entre esas medidas de centralización 514 00:41:58,800 --> 00:42:02,480 teníamos que calcular la media aritmética 515 00:42:02,480 --> 00:42:05,340 que la tenemos, o sea que sé que la media aritmética 516 00:42:05,340 --> 00:42:09,780 nos salió 17,34, la tengo 517 00:42:09,780 --> 00:42:12,280 tengo que calcular la mediana 518 00:42:12,280 --> 00:42:15,679 y dijimos, la mediana era buscar 519 00:42:15,679 --> 00:42:19,119 qué dato es el que ocupa la posición central 520 00:42:19,119 --> 00:42:21,760 y os dije, solo es contar 521 00:42:21,760 --> 00:42:24,500 veo que tengo 32 datos en total 522 00:42:24,500 --> 00:42:27,179 entonces el dato que ocupe la posición central 523 00:42:27,179 --> 00:42:29,099 estará en la posición 16,5 524 00:42:29,099 --> 00:42:33,039 para dejarme 16 por abajo y 16 por arriba 525 00:42:33,039 --> 00:42:35,820 y bueno, pues vamos a ver, a contar 526 00:42:35,820 --> 00:42:38,579 los 5 primeros datos son 5 527 00:42:38,579 --> 00:42:42,619 los dos siguientes, 10, ya llevo 11 datos 528 00:42:42,619 --> 00:42:47,719 los tres siguientes son 15, 11 y 3, 14 datos 529 00:42:47,719 --> 00:42:50,079 y ahora los cinco siguientes son 20 530 00:42:50,079 --> 00:42:55,119 que con eso ya llegaría hasta la posición 19 531 00:42:55,119 --> 00:42:57,340 pero es que yo quería la posición 16 532 00:42:57,340 --> 00:43:03,780 ¿quién va a ver en esa posición 16 si yo lo he puesto ordenados uno por uno? 533 00:43:03,780 --> 00:43:05,500 pues lo que va a ver es un 20 534 00:43:05,500 --> 00:43:33,059 Entonces, uno de esos 20 son los que me dejan 16 datos por debajo y 16 datos por encima. Vale, si sé la mediana, sé que cuando vaya a buscar los cuartiles, el cuartil 2, que era justo el que me dejaba el 50% de los datos por encima y el 50% de los datos por debajo, va a ser el mismo que la mediana, ¿vale? 535 00:43:33,059 --> 00:43:46,139 Porque acordaos que dijimos que los cuartiles eran dividir en cuatro partes iguales mi distribución de datos. 536 00:43:49,219 --> 00:43:59,440 Entonces, el cuartil 2, hemos dicho que es como la mediana, deja el 50% de datos por debajo y el otro 50% por arriba. 537 00:43:59,440 --> 00:44:03,019 el cuartil 1 lo que me hace es dejarme 538 00:44:03,019 --> 00:44:06,019 el 25% de los datos por debajo 539 00:44:06,019 --> 00:44:08,619 o sea, la cuarta parte, pues voy a ver 540 00:44:08,619 --> 00:44:12,000 ¿quién sería la cuarta parte de 32? 8 541 00:44:12,000 --> 00:44:15,780 ¿qué dato estaría en esa posición 8? 542 00:44:16,119 --> 00:44:19,159 bueno, me vuelvo otra vez a mi tabla de frecuencias 543 00:44:19,159 --> 00:44:21,920 digo, los primeros 9 datos son 5 544 00:44:21,920 --> 00:44:25,119 hombre, pues yo no quiero los primeros 9, quiero los primeros 545 00:44:25,119 --> 00:44:27,159 quiero saber la posición 8 546 00:44:27,159 --> 00:44:46,900 Pues ¿quién va a ver en la posición 8? Uno de esos 5. Pues el cuartil 1 es un 5. Si hago lo mismo mirando por detrás, digo, quiero ver quién está en la posición 8, pero contando de adelante hacia atrás. 547 00:44:46,900 --> 00:44:49,900 digo, los primeros cuatro datos son treintas 548 00:44:49,900 --> 00:44:52,559 y los siguientes nueve datos son veinticinco 549 00:44:52,559 --> 00:44:55,639 o sea que el cuarto dato 550 00:44:55,639 --> 00:44:58,280 que yo tengo que sumar a esto para llegar a la posición ocho 551 00:44:58,280 --> 00:45:01,900 por detrás, ¿qué va a ser? un veinticinco 552 00:45:01,900 --> 00:45:05,219 pues el cuartil tres que me dejaba 553 00:45:05,219 --> 00:45:07,579 veinticinco por ciento 554 00:45:07,579 --> 00:45:10,880 por encima y setenta y cinco por ciento por debajo 555 00:45:10,880 --> 00:45:12,739 pues resulta que es 556 00:45:12,739 --> 00:45:15,280 uno de esos veinticinco 557 00:45:15,280 --> 00:45:18,659 ¿vale? pues ya tengo 558 00:45:18,659 --> 00:45:21,679 todos mis parámetros de centralización 559 00:45:21,679 --> 00:45:26,340 media, mediana, cuartiles 560 00:45:26,340 --> 00:45:30,639 a falta de la moda, solo me falta calcular 561 00:45:30,639 --> 00:45:34,539 quién es la moda, la moda era el dato que más se repetía 562 00:45:34,539 --> 00:45:39,000 y el dato que más se repite es el que tenga la frecuencia absoluta más alta 563 00:45:39,000 --> 00:45:42,920 pues vengo otra vez a mi tabla y digo, bueno, las frecuencias absolutas 564 00:45:42,920 --> 00:45:51,800 más altas son el C9 y S9. ¿Quiénes tienen esa frecuencia? Pues los 5 y los 25. Pues 565 00:45:51,800 --> 00:46:00,119 la moda en este caso es 5 y 25. Hay dos datos que se repiten mucho más que los demás. 566 00:46:00,820 --> 00:46:10,139 Pues ya tengo todos mis parámetros de centralización, media, mediana, moda y cuartiles y los de 567 00:46:10,139 --> 00:46:12,920 dispersión, coeficiente de variación, 568 00:46:13,800 --> 00:46:15,900 varianza y desviación típica. 569 00:46:16,820 --> 00:46:19,739 Solo me faltaría el dato del rango, 570 00:46:20,860 --> 00:46:24,079 ¿cuánto es el rango de mi distribución? 571 00:46:24,260 --> 00:46:27,139 Pues acordaos que el rango era la diferencia que había 572 00:46:27,139 --> 00:46:30,079 entre el valor más alto y el valor más bajo. 573 00:46:30,559 --> 00:46:33,159 Era la longitud que tenía mi distribución, 574 00:46:33,159 --> 00:46:36,099 pues el rango en este caso es 25, 575 00:46:36,280 --> 00:46:39,019 porque me he movido desde el 5 hasta el 30. 576 00:46:39,019 --> 00:46:43,719 y ya tenemos todos los parámetros que hemos estudiado hoy 577 00:46:43,719 --> 00:46:45,579 hechos en este ejemplo 578 00:46:45,579 --> 00:46:49,320 espero que os hayáis entendido más o menos bien 579 00:46:49,320 --> 00:46:51,739 con el resto de ejemplos que tengáis resueltos 580 00:46:51,739 --> 00:46:55,239 y los ejercicios que hagáis pues que os salga más o menos esto bien 581 00:46:55,239 --> 00:46:56,920 son muy pesadas las cuentas 582 00:46:56,920 --> 00:46:59,619 hay que repetir muchas veces la misma cuenta 583 00:46:59,619 --> 00:47:03,619 pero eso, por otro lado tengo la ventaja de que es siempre la misma cuenta 584 00:47:03,619 --> 00:47:05,679 entonces si me prendo las formulitas 585 00:47:05,679 --> 00:47:11,079 solo es tener paciencia para hacerme las tablitas despacio y con cuidado 586 00:47:11,079 --> 00:47:16,059 para que no me equivoque en ninguno de los cálculos y me cargue todas las cuentas, ¿vale? 587 00:47:16,719 --> 00:47:22,599 Bueno, pues lo dejamos aquí y habríamos terminado este tema de estadística, ¿vale? 588 00:47:23,320 --> 00:47:24,579 Que tengáis buena tarde. 589 00:47:25,400 --> 00:47:27,900 Si hay alguna duda, pues me contáis al próximo día, ¿vale? 590 00:47:28,519 --> 00:47:29,340 Venga, buena tarde.