1 00:00:05,320 --> 00:00:21,250 Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 2 00:00:21,250 --> 00:00:26,109 Arquitecto Pedro Gumiel de Alcalá de Henares, y os doy la bienvenida a esta serie de videoclases 3 00:00:26,109 --> 00:00:29,429 de la unidad ES1 dedicada a la estadística univariante. 4 00:00:31,530 --> 00:00:39,799 En la videoclase de hoy estudiaremos las medidas de centralización. 5 00:00:41,000 --> 00:00:50,030 En esta videoclase vamos a estudiar las medidas de centralización. 6 00:00:50,030 --> 00:00:56,329 son el valor o valores alrededor de los cuales se van a situar los datos y representan los valores 7 00:00:56,329 --> 00:01:02,210 más representativos de la variable que estamos estudiando en la población o en la muestra la 8 00:01:02,210 --> 00:01:06,430 primera medida de centralización que nosotros vamos a describir es la moda que se denota por 9 00:01:06,430 --> 00:01:13,250 mo m mayúscula o minúscula está definida tanto variables cualitativas como cuantitativas y si 10 00:01:13,250 --> 00:01:19,010 miramos el conjunto de los datos es el valor más repetido podemos encontrarlo sin necesidad de 11 00:01:19,010 --> 00:01:23,730 observar los datos brutos mirando la tabla de frecuencias y buscando cuál es el valor que 12 00:01:23,730 --> 00:01:29,430 tiene una mayor frecuencia absoluta o frecuencia relativa. La moda es una medida de centralización 13 00:01:29,430 --> 00:01:35,890 que va a tener unidades las mismas de la variable y es un caso especial. Existen poblaciones o 14 00:01:35,890 --> 00:01:40,689 muestras que tienen más de una moda porque no hay un único valor que sea el más repetido sino que 15 00:01:40,689 --> 00:01:46,890 hay más de uno, dos o más valores que son los más repetidos repetidos igualmente. En ese caso 16 00:01:46,890 --> 00:01:54,219 hablaremos de distribuciones multimodales, bimodales, trimodales, etcétera. La siguiente 17 00:01:54,219 --> 00:01:59,879 medida de centralización que vamos a describir es la más importante, es la media aritmética. Se 18 00:01:59,879 --> 00:02:05,079 denota con el símbolo de la variable, habitualmente utilizamos como símbolo x porque estamos hablando 19 00:02:05,079 --> 00:02:11,520 de una variable x, con una raya horizontal por encima, una barra sobre ella. Únicamente está 20 00:02:11,520 --> 00:02:16,319 definida en variables cuantitativas y se puede calcular. Si nosotros utilizamos el conjunto de 21 00:02:16,319 --> 00:02:21,860 datos, como la suma de todos ellos dividido entre el número de datos, entre el tamaño del conjunto, 22 00:02:22,020 --> 00:02:27,259 ya sea una población o sea una muestra. Lo más habitual no es que utilicemos los datos brutos, 23 00:02:27,340 --> 00:02:32,520 sino que utilicemos los datos que tenemos contenidos en la tabla de frecuencias, en cuyo caso lo que 24 00:02:32,520 --> 00:02:37,080 vamos a hacer es utilizar esta expresión que tenemos aquí. Sumaremos el producto de las 25 00:02:37,080 --> 00:02:42,060 frecuencias absolutas por los variables de la variable, o bien la marca de clase en el caso 26 00:02:42,060 --> 00:02:48,759 de datos agrupados y dividiremos entre el tamaño de la población o muestra. Esta expresión con las 27 00:02:48,759 --> 00:02:54,439 frecuencias absolutas se puede convertir en esta otra con las frecuencias relativas, en donde como 28 00:02:54,439 --> 00:02:59,159 podéis ver no estamos dividiendo entre el tamaño de la muestra porque por definición las frecuencias 29 00:02:59,159 --> 00:03:03,000 absolutas entre el tamaño de la muestra son estas frecuencias relativas que tenemos aquí. 30 00:03:04,319 --> 00:03:10,400 La medida aritmética tiene unidades las mismas que las de la variable y una propiedad importante de 31 00:03:10,400 --> 00:03:14,419 la media aritmética es que la suma de las desviaciones de los datos con respecto de la 32 00:03:14,419 --> 00:03:21,439 media aritmética es idénticamente nula. Tal es una medida de centralización que si cogemos todos 33 00:03:21,439 --> 00:03:26,580 los datos y calculamos la diferencia entre el dado y la media aritmética, esas son las diferencias, 34 00:03:26,960 --> 00:03:35,969 y sumamos todas ellas debe dar idénticamente cero. A continuación vamos a definir la mediana, 35 00:03:36,189 --> 00:03:41,389 los cuartiles y los percentiles. La mediana es una medida de centralización que se denota 36 00:03:41,389 --> 00:03:47,509 M, M mayúscula, E minúscula. Se definen variables cuantitativas o bien en algunas variables 37 00:03:47,509 --> 00:03:52,349 cualitativas en las cuales exista una cierta relación de orden. Y la idea es que la mediana 38 00:03:52,349 --> 00:03:57,250 es un valor que va a dejar por debajo a la mitad de los datos, la mitad de los datos van a ser 39 00:03:57,250 --> 00:04:01,870 menores o iguales que la mediana, y por encima a la otra mitad de los datos. La otra mitad de los 40 00:04:01,870 --> 00:04:06,909 datos va a ser mayor o igual que la mediana. Si tuviéramos todos los datos ordenados, todos los 41 00:04:06,909 --> 00:04:11,409 datos de una muestra o bien de la población y el tamaño de la muestra de población fuera impar, 42 00:04:11,949 --> 00:04:17,350 la mediana se correspondería con el elemento central en esos datos ordenados. Si no tuviéramos 43 00:04:17,350 --> 00:04:22,490 un número impar de datos sino par, lo más habitual es coger los dos que estarían en el centro y tomar 44 00:04:22,490 --> 00:04:27,269 la media aritmética de ellos. Si no queremos utilizar los datos brutos sino que queremos 45 00:04:27,269 --> 00:04:32,709 utilizar la tabla de frecuencias, es lo más habitual, vamos a definir la mediana como el 46 00:04:32,709 --> 00:04:40,009 primer valor, x y, con frecuencia relativa acumulada mayor o igual a 0,5. La mediana tiene 47 00:04:40,009 --> 00:04:45,069 unidades, tiene las mismas unidades que la variable y como veis aquí en esta anotación, en el caso de 48 00:04:45,069 --> 00:04:51,769 datos agrupados, existe una definición más rigurosa atendiendo a criterios geométricos. Es más rigurosa 49 00:04:51,769 --> 00:04:56,689 pero también es más laboriosa de determinar y por esa razón, porque es más laboriosa, no va a ser la 50 00:04:56,689 --> 00:05:01,730 que nosotros utilicemos. En el caso de los cuartiles, estos se denotan 51 00:05:01,730 --> 00:05:08,970 Q1, Q2 y Q3, serían primer, segundo y tercer cuartil. Y se definen de una forma muy similar 52 00:05:08,970 --> 00:05:14,350 a como se define la mediana. Vuelvo atrás, la mediana es el valor que deja por debajo 53 00:05:14,350 --> 00:05:18,910 una mitad y por encima a la otra mitad de los datos. Divide la muestra en dos mitades. 54 00:05:19,490 --> 00:05:24,430 Bueno, pues los cuartiles lo que hacen es dividir la muestra en cuatro cuartos. De tal 55 00:05:24,430 --> 00:05:29,709 manera que el primer cuartil va a ser el valor que deje por debajo a un cuarto de los datos y por 56 00:05:29,709 --> 00:05:34,629 encima a tres cuartas partes de los datos, el segundo cuartil dejará por debajo a dos cuartas 57 00:05:34,629 --> 00:05:39,509 partes de los datos y por encima a dos cuartas partes de los datos, y el tercer cuartil dejará 58 00:05:39,509 --> 00:05:43,850 por debajo a tres cuartas partes de los datos y por encima a una cuarta parte de los datos. 59 00:05:44,810 --> 00:05:49,889 Si nosotros no utilizamos los datos brutos sino como es habitual una vez más la tabla de frecuencias, 60 00:05:50,250 --> 00:05:56,449 El primer cuartil se define como el primer valor xy cuya frecuencia relativa acumulada sea mayor o igual que 0,25. 61 00:05:57,050 --> 00:06:02,629 El segundo cuartil como el primer valor cuya frecuencia relativa acumulada sea mayor o igual que 0,5. 62 00:06:03,170 --> 00:06:08,370 Y el tercer cuartil como el primer valor cuya frecuencia relativa acumulada sea mayor o igual que 0,75. 63 00:06:08,930 --> 00:06:15,470 Como podéis ver, no lo he mencionado, pero los cuartiles se definen igual que la mediana únicamente en variables cuantitativas 64 00:06:15,470 --> 00:06:22,329 o en aquellas variables cualitativas donde exista una cierta relación de orden, de tal forma que estén definidas las frecuencias relativas acumuladas. 65 00:06:23,709 --> 00:06:27,069 Los cuartiles tienen unidades, son las mismas que las de la variable. 66 00:06:27,709 --> 00:06:36,730 Al igual que pasaba con la mediana, en el caso de datos agrupados se pueden definir utilizando propiedades, criterios geométricos a partir del histograma de frecuencias acumuladas. 67 00:06:37,069 --> 00:06:38,709 No lo vamos a hacer porque es muy laborioso. 68 00:06:38,709 --> 00:06:47,910 y a la vista de cómo hemos definido el segundo cuartil, imagino que no se os habrá escapado, el segundo cuartil coincide con la mediana. 69 00:06:48,930 --> 00:06:55,470 En lo que respecta a los percentiles, funcionan de una manera muy similar a los cuartiles y a la mediana. 70 00:06:55,589 --> 00:07:00,029 No en vano, mediana, cuartiles y percentiles los estoy comentando dentro de un mismo apartado. 71 00:07:00,029 --> 00:07:22,170 Si la mediana divide todos los datos en dos mitades, la mitad menor o igual, la otra mitad mayor o igual, y los cuartiles dividen los datos en cuatro cuartos, de tal forma que son la frontera entre el primer y segundo, segundo y tercer, tercer y cuarto cuarto, los percentiles, no se os escapará, lo que hacen es dividir la muestra en cien centiles. 72 00:07:22,170 --> 00:07:33,230 Los percentiles se denotan P1, P2, etc. hasta P99 y se definen de una forma análoga a como hemos definido los cuartiles y como hemos definido la mediana. 73 00:07:33,810 --> 00:07:44,310 El primer percentil es un valor que deja por debajo a un 1% de la muestra o de la población y por encima al 99% restante. 74 00:07:44,850 --> 00:07:51,129 El segundo percentil deja por debajo a un 2% de la población y por encima a un 98%. 75 00:07:51,129 --> 00:08:14,930 El tercer percentil, por debajo al 3%, por encima al 97% restante, etcétera, etcétera. De la forma que llegaríamos al percentil 98, que deja por debajo al 98% de la población en muestra y por encima al 2% restante, y por último el percentil 99, que deja por debajo al 99% de la población en muestra y por encima al 1% restante. 76 00:08:16,870 --> 00:08:25,310 Nosotros no determinaremos los percentiles con los datos brutos, sino que utilizaríamos, como hemos hecho con la mediana y con los cuartiles, la tabla de frecuencias. 77 00:08:25,470 --> 00:08:35,509 Y entonces lo que haríamos sería buscar cuál es el primer valor con valor de frecuencia relativa acumulada mayor o igual al 1%, y ahí tendríamos el primer percentil. 78 00:08:35,769 --> 00:08:43,330 El primer valor con frecuencia relativa acumulada mayor o igual al 2%, y ahí tendríamos al segundo percentil, etcétera, etcétera. 79 00:08:43,850 --> 00:08:58,330 El primer valor con frecuencia relativa acumulada mayor o igual al 98% sería el percentil 98 y el último percentil, el 99, sería aquel valor con frecuencia relativa acumulada mayor o igual que el 99%. 80 00:08:58,929 --> 00:09:10,330 Igual que pasa con la mediana y con los cuartiles. Tiene unidades las de la variable. En el caso de datos agrupados tienen una definición geométrica más vigorosa pero más laboriosa que no utilizaremos. 81 00:09:10,330 --> 00:09:16,509 y atendiendo a cuál es la definición, el percentil 25 va a coincidir con el primer cuartil, 82 00:09:17,029 --> 00:09:21,389 el percentil 50 coincide con el segundo cuartil y esta a su vez coincide con la mediana, 83 00:09:22,289 --> 00:09:26,169 el percentil 75 va a coincidir con el tercer cuartil. 84 00:09:28,629 --> 00:09:33,250 Como un primer ejemplo vamos a considerar la encuesta anterior para la variable cualitativa 85 00:09:33,769 --> 00:09:39,490 deporte más practicado en las zonas polideportivas comunes, en las comunidades de vecinos de la Comunidad de Madrid 86 00:09:39,490 --> 00:09:57,029 Y vamos a determinar la única medida de centralización que podemos determinar en este caso, que es la moda. Puesto que la variable es cualitativa, los valores posibles eran baloncesto, frontenis, fútbol y pádel, y en esos deportes no existe una ordenación posible que sea lógica y razonable. 87 00:09:57,029 --> 00:10:02,029 Aquí únicamente podemos poner por criterio más común el orden alfabético. 88 00:10:02,970 --> 00:10:08,889 Esta es la tabla de frecuencia que nosotros teníamos, es la que se corresponde con una variable cualitativa. 89 00:10:09,190 --> 00:10:15,149 Tenemos las frecuencias absolutas, para baloncesto había 6 respuestas, frontenis 4, fútbol 8, pádel 6. 90 00:10:15,250 --> 00:10:21,450 En total la suma de las frecuencias absolutas 24 era el tamaño de la muestra y aquí teníamos las frecuencias relativas. 91 00:10:21,450 --> 00:10:47,289 Pues bien, la moda será el valor, xy, que corresponde con la mayor frecuencia absoluta o bien, de manera análoga, el mayor valor de la frecuencia relativa. Aquí, 6486, el mayor valor de la frecuencia absoluta es 8, por cierto, se corresponde con la mayor frecuencia relativa, 025, 0167, 0333, 025, el mayor valor es el mismo, 0,333, que corresponde al fútbol. 92 00:10:48,129 --> 00:10:54,070 Así pues, en este caso, hemos de concluir que como medida de centralización tenemos la moda mo, que es igual a fútbol. 93 00:10:56,289 --> 00:11:00,409 En este segundo ejemplo vamos a trabajar con una variable cuantitativa discreta. 94 00:11:01,070 --> 00:11:06,049 Vamos a considerar el ejemplo anterior del estudio del número de veces que se pone lavadora en una semana 95 00:11:06,049 --> 00:11:08,769 en los hogares de los estudiantes del IES Arquitecto Pedro Gumiel. 96 00:11:09,509 --> 00:11:15,769 En este caso tenemos una muestra de 35 familias y aquí tenemos la tabla de frecuencias correspondiente. 97 00:11:15,769 --> 00:11:21,149 correspondiente. Teníamos los valores posibles, frecuencias absolutas, suman 35, frecuencias 98 00:11:21,149 --> 00:11:26,350 relativas, y aquí tenemos frecuencias absolutas acumuladas, frecuencias relativas acumuladas. 99 00:11:27,450 --> 00:11:33,309 Vamos a determinar en primer lugar la moda. Se corresponde con el valor más repetido, 100 00:11:33,389 --> 00:11:38,409 el valor que tiene una mayor frecuencia absoluta o frecuencia relativa. Visto los valores de 101 00:11:38,409 --> 00:11:43,610 frecuencia absoluta, el mayor es este 10, así que la moda va a ser 4. Mo igual a 4. 102 00:11:43,610 --> 00:11:59,870 Cuartiles, primero, segundo, tercero, son los valores x y que se corresponden con el primer valor de frecuencia relativa acumulada mayor o igual a 0,25, mediana y segundo cuartil mayor o igual a 0,5, tercer cuartil mayor que 0,75. 103 00:11:59,870 --> 00:12:15,629 Nos vamos a la columna de las frecuencias relativas acumuladas y vamos a buscar la primera mayor o igual que 0,25. Aquí tenemos 0,2, es este tercer dato, 0,486. Se corresponde con xy igual a 4, así que el primer cuartil es 4. 104 00:12:16,330 --> 00:12:20,110 Buscamos el primer valor de frecuencia relativa acumulada mayor o igual que 0,5. 105 00:12:21,269 --> 00:12:28,250 Pasamos más allá del 0,486 y el siguiente, este ya es mayor o igual que 0,5, es 0,714. 106 00:12:29,110 --> 00:12:35,929 Vamos a la izquierda a buscar cuál es el valor xy que le corresponde, es 5, así que la mediana igual al segundo cuartil es 5. 107 00:12:36,649 --> 00:12:42,450 Para el tercer cuartil buscamos cuál es el primer valor de frecuencia relativa acumulada mayor o igual que 0,75. 108 00:12:42,450 --> 00:12:50,309 vamos más allá del 0 714 y el primero que encontramos es este 0 886 miramos hacia la 109 00:12:50,309 --> 00:12:56,850 izquierda el valor x y que le corresponde es 6 así que el tercer cuartil es 6 en cuanto a la 110 00:12:56,850 --> 00:13:01,289 media aritmética lo que vamos a hacer es utilizar la fórmula que habíamos visto este visto 111 00:13:01,289 --> 00:13:07,809 anteriormente vamos a calcular la suma de los productos de frecuencia absoluta por valor y 112 00:13:07,809 --> 00:13:13,450 vamos a dividir el resultado de esta suma entre el tamaño de la muestra en este caso. Podríamos 113 00:13:13,450 --> 00:13:20,830 hacer 2, perdón, 2 por 2 más 3 por 5 más 4 por 10 más 5 por 8 más 6 por 6 más 7 por 4 igual a 114 00:13:20,830 --> 00:13:27,509 y el resultado entre 35. Lo más habitual es no hacer este cálculo directamente con la calculadora 115 00:13:27,509 --> 00:13:33,690 sino apoyarse de una columna adicional que se suele añadir a la derecha del todo en la tabla 116 00:13:33,690 --> 00:13:40,330 de frecuencias. Vamos a calcular una columna auxiliar con los productos de x y por ni. Vamos 117 00:13:40,330 --> 00:13:47,629 a multiplicar 2 por 2, que es este 4, 3 por 5, que es este 15, 4 por 10, que es este 40, etcétera. Y 118 00:13:47,629 --> 00:13:54,830 aquí vamos a poner la suma. 4 más 15 más 40 más 40 más 36 más 28 igual a 163. Así que lo que vamos 119 00:13:54,830 --> 00:14:04,470 hacer es para calcular la media aritmética dividir 163 entre 35. El resultado es este 4,66 que veis 120 00:14:04,470 --> 00:14:09,830 aquí y ese sería el valor de la media aritmética. Lo bueno de utilizar esta columna auxiliar es que 121 00:14:09,830 --> 00:14:15,789 estamos dividiendo los cálculos, primero unas cuantas multiplicaciones, luego una suma y por 122 00:14:15,789 --> 00:14:21,490 último una división. Si tenemos miedo, somos propensos a equivocarnos al utilizar la calculadora 123 00:14:21,490 --> 00:14:26,210 e introducir expresiones largas, esta es la mejor forma de llegar al cálculo de la medida aritmética 124 00:14:26,210 --> 00:14:28,309 minimizando el riesgo de cometer un error. 125 00:14:28,450 --> 00:14:30,850 Y por eso, esa es la opción que os voy a presentar. 126 00:14:33,259 --> 00:14:37,720 Por último, vamos a ver como ejemplo el estudio de una variable cuantitativa continua. 127 00:14:38,500 --> 00:14:41,299 Vamos a considerar el estudio que habíamos hecho anteriormente 128 00:14:41,299 --> 00:14:45,360 de la masa de los adolescentes de 16 años en un cierto campo de refugiados. 129 00:14:46,360 --> 00:14:49,600 Y aquí tenemos la tabla de frecuencias anterior correspondiente a la población. 130 00:14:50,379 --> 00:14:53,379 Vamos a operar análogamente como hicimos en el caso anterior 131 00:14:53,379 --> 00:14:59,059 para la variable cuantitativa discreta, lo único que en lugar de operar con los x y los propios 132 00:14:59,059 --> 00:15:04,500 valores vamos a operar con los x y que son las marcas de clase. Y así pues vamos a determinar 133 00:15:04,500 --> 00:15:10,500 la moda, mo, buscando cuál es el valor de marca de clase que corresponde con la mayor frecuencia 134 00:15:10,500 --> 00:15:17,259 absoluta. Ese es este 11 y la moda es este 52,5 kilogramos, puesto que la variable tiene unidades 135 00:15:17,259 --> 00:15:23,159 kilogramos. Primer, segundo, tercer cuartiles. Vamos a irnos a la columna de las frecuencias 136 00:15:23,159 --> 00:15:29,679 relativas acumuladas. Vamos a buscar el primer valor mayor o igual que 0,25. Es este 0,27. El 137 00:15:29,679 --> 00:15:36,059 primer cuartil es 47,5 kilogramos, que tiene unidades. Primer valor mayor o igual que 0,5. 138 00:15:36,059 --> 00:15:42,899 Es este 0,55. Corresponde con el valor 52,5 kilogramos. Este es el segundo cuartil igual 139 00:15:42,899 --> 00:15:51,299 de la mediana. Primer valor mayor o igual que 0,75 es este 0,775, corresponde con este valor 57,5 140 00:15:51,299 --> 00:15:56,899 kilogramos y este será el tercer cuartil. Para terminar la medida aritmética vamos a utilizar 141 00:15:56,899 --> 00:16:02,179 la misma fórmula, lo único que vamos a ir directamente a utilizar esta columna auxiliar, 142 00:16:02,740 --> 00:16:07,299 donde vamos a poner los resultados de multiplicar los valores, las marcas de clase por las frecuencias 143 00:16:07,299 --> 00:16:15,399 absolutas. Su suma es este 2170 y la medida aritmética es el cociente de esta suma 2170 144 00:16:15,399 --> 00:16:24,580 entre el tamaño de la población. El resultado es 54,25 kilogramos. En el aula virtual de la 145 00:16:24,580 --> 00:16:31,000 asignatura tenéis disponibles otros recursos y cuestionarios. Asimismo, tenéis más información 146 00:16:31,000 --> 00:16:36,240 en las fuentes bibliográficas y en la web. No dudéis en traer vuestras dudas e inquietudes 147 00:16:36,240 --> 00:16:40,820 a clase o al foro de dudas en el aula virtual. Un saludo y hasta pronto.