1 00:00:03,950 --> 00:00:12,609 Hola a todos, buenas tardes. Vamos a ver el tema de matemáticas de estadística, 2 00:00:13,050 --> 00:00:25,629 que como veis empieza con la definición de variable. Variable puede ser multitud de cosas en este mundo. 3 00:00:26,170 --> 00:00:31,910 Aquí lo definen los apuntes como una característica o propiedad de un conjunto de elementos 4 00:00:31,910 --> 00:00:35,990 que puede tomar diferentes valores. 5 00:00:37,490 --> 00:00:44,009 Puede ser un conjunto de elementos, un conjunto de individuos, personas o cosas. 6 00:00:44,369 --> 00:00:51,649 O sea, variable es una propiedad que se le puede asignar a cualquier objeto del mundo. 7 00:00:52,810 --> 00:00:58,289 Por ejemplo, tenemos la altura de los alumnos de una clase, el color de los ojos 8 00:00:58,289 --> 00:01:06,989 o, por ejemplo, el número de hermanos, que es una variable en la que vamos a hacer seguramente uno de los ejemplos. 9 00:01:07,510 --> 00:01:17,250 ¿Cómo pueden ser las variables? Pues las variables tienen una división primera que sería cualitativa y cuantitativa. 10 00:01:18,150 --> 00:01:21,390 Cualitativa es una cualidad, una característica. 11 00:01:22,930 --> 00:01:31,950 Puede ser nominal, si no sigue un orden, por ejemplo, puede ser una característica de una persona, 12 00:01:31,950 --> 00:01:41,250 como el color de ojos, el color del pelo o cualquier otra característica que no tenga un orden predefinido. 13 00:01:41,670 --> 00:01:44,150 Y ordinal, pues sí que sigue un orden. 14 00:01:44,150 --> 00:01:58,390 Aquí como ejemplo tenéis el nivel educativo, puede ser los estudios que uno tenga o cualquier variable que pueda ser ordenada. 15 00:01:59,549 --> 00:02:10,090 Estas cualitativas, es decir, que dan idea de una cualidad y las que dan idea de una cantidad son las cuantitativas. 16 00:02:10,090 --> 00:02:17,349 y estas pueden ser, tendiendo a si esa cantidad es un número entero o es un número que puede tener cualquier valor, 17 00:02:18,090 --> 00:02:26,830 se denomina discreta si el número que acompaña a esta característica es un número entero. 18 00:02:26,830 --> 00:02:33,830 Por ejemplo, puede ser cosas que se midan en unidades, el número de hijos, el número de pisos en un bloque, 19 00:02:34,449 --> 00:02:38,530 algo que se pueda expresar en números enteros. 20 00:02:38,530 --> 00:02:56,990 Y la continua puede tomar cualquier valor dentro de un intervalo. Por ejemplo, puede ser la altura en metros de una persona o cualquier otra unidad de medida a la que le podamos añadir infinitos decimales, porque sea un continuo. 21 00:02:56,990 --> 00:03:23,750 Y las tres variables que vamos a analizar, o sea, las tres, analizando un conjunto de datos y de características de estas variables, vamos a ir viendo de qué forma ese conjunto de datos podemos obtener conclusiones de ellos atendiendo a esta característica que hemos denominado variable. 22 00:03:23,750 --> 00:03:38,710 Entonces, una de las primeras cuestiones que se ve en estadística es la frecuencia absoluta, que es un concepto sencillo que es simplemente el número de veces que aparece un valor concreto en un conjunto de datos. 23 00:03:38,710 --> 00:03:42,810 y si os parece voy a ir alternando 24 00:03:42,810 --> 00:03:53,340 esto con el eje, vamos a pensar por ejemplo 25 00:03:53,340 --> 00:04:10,169 voy a construir una que sea 26 00:04:10,169 --> 00:04:10,990 por ejemplo 27 00:04:10,990 --> 00:04:37,980 un número, por ejemplo tenemos 28 00:04:37,980 --> 00:04:44,850 una niña que se llama 29 00:04:44,850 --> 00:04:53,000 Ana, tenemos aquí 30 00:04:53,000 --> 00:05:24,209 otra niña que se llama Eva, que tiene también un hermano. Tenemos a Juan, que tiene Sol, 31 00:05:24,209 --> 00:05:46,120 tiene también dos hermanos, María tiene un hermano, Pedro cuatro y por último Juan 32 00:05:46,120 --> 00:05:54,579 tiene cinco hermanos. Bien, entonces, ¿qué sería la frecuencia absoluta? Pues la frecuencia 33 00:05:54,579 --> 00:06:04,300 absoluta es el número de veces que aparece un valor en un conjunto de datos. Entonces, 34 00:06:04,439 --> 00:06:10,620 si nosotros hacemos una tabla estadística, que es el objetivo principal de cualquier 35 00:06:10,620 --> 00:06:20,720 análisis estadístico, construiremos una tabla que es, esto sería el valor de nuestra 36 00:06:20,720 --> 00:06:27,319 variable que es el número de hermanos y si cogemos los valores que están en esta tabla 37 00:06:27,319 --> 00:06:34,300 vemos que hay sujetos o alumnos de esta clase que hemos cogido de ejemplo, hay alumnos que 38 00:06:34,300 --> 00:06:42,360 tienen un hermano, hay alumnos que tienen dos, como por ejemplo Juan y Sol, hay alumnos 39 00:06:42,360 --> 00:06:48,800 que tienen, no hay ninguno, si veis que tiene tres hermanos, pero hay un alumno que es Pedro 40 00:06:48,800 --> 00:06:56,319 que tiene cuatro hermanos, y hay también un alumno que tiene cinco, que es el último, Juan. 41 00:06:56,959 --> 00:07:03,860 Entonces, la frecuencia absoluta, que es la primera característica que hemos descrito, 42 00:07:03,980 --> 00:07:09,800 que es el número de veces que aparece una variable, pues se construye... 43 00:07:10,740 --> 00:07:13,639 Bueno, normalmente la frecuencia absoluta se denomina con una f. 44 00:07:13,639 --> 00:07:25,800 Bien, pues es el número de veces que aparece un valor en un conjunto de datos. 45 00:07:25,959 --> 00:07:28,720 Entonces, ¿cuántas veces aparece un hermano? 46 00:07:28,779 --> 00:07:36,639 Pues si veis, es una vez, dos veces, hemos visto Ana, que es la primera de la lista, 47 00:07:36,819 --> 00:07:39,720 tiene un hermano, y María también tiene un hermano. 48 00:07:39,720 --> 00:07:50,490 O sea, el valor 1, que es el número de hermanos 1, el número 2, Juan y Sol, dos veces. 49 00:07:50,490 --> 00:07:54,410 el número 3 hemos visto que no aparece 50 00:07:54,410 --> 00:07:57,509 y sin embargo 4 aparece una vez 51 00:07:57,509 --> 00:08:00,250 Pedro, perdón, 4 aparece dos veces 52 00:08:00,250 --> 00:08:03,550 Pedro y Juan 53 00:08:03,550 --> 00:08:08,069 perdón, y Eva 54 00:08:08,069 --> 00:08:11,149 esta es Eva, dos veces 55 00:08:11,149 --> 00:08:14,730 y 5 hermanos aparece una vez 56 00:08:14,730 --> 00:08:16,670 esta es la frecuencia absoluta 57 00:08:16,670 --> 00:08:18,889 es simplemente contar el número de veces 58 00:08:18,889 --> 00:08:25,470 que aparece un determinado valor de la variable que estamos analizando, 59 00:08:25,569 --> 00:08:27,509 que en este caso es el número de hijos. 60 00:08:27,870 --> 00:08:31,290 Si sumamos una forma de comprobar que hemos hecho las cosas bien, 61 00:08:31,850 --> 00:08:34,570 si sumamos las frecuencias absolutas, 62 00:08:35,029 --> 00:08:39,370 nos tiene que dar el número total de valores que hemos analizado, 63 00:08:39,529 --> 00:08:43,779 que es 1, 2, 3, 4, 7 valores. 64 00:08:43,779 --> 00:08:48,200 La frecuencia absoluta es tan sencillo como simplemente agrupar 65 00:08:48,200 --> 00:08:51,679 el número de veces que aparece un determinado valor de la variable. 66 00:08:52,460 --> 00:08:57,940 La frecuencia relativa, que sería el siguiente dato, frecuencia relativa. 67 00:08:59,159 --> 00:09:07,500 Pues la frecuencia relativa en una tabla estadística es el cociente entre la frecuencia absoluta de un valor, 68 00:09:07,500 --> 00:09:11,779 o sea, lo que acabamos de calcular, y el número total de datos. 69 00:09:11,779 --> 00:09:44,210 En definitiva, sería lo que hemos calculado en la columna anterior, sería 2 partido del número 7, que es el número total de unidades que hemos analizado. 70 00:09:44,789 --> 00:09:54,820 Exactamente igual con los demás, 2 en este caso, frecuencia relativa es la frecuencia absoluta, 2 séptimos. 71 00:09:55,580 --> 00:09:59,940 Exactamente igual aquí, 2 unidades entre el número total, 7. 72 00:10:00,240 --> 00:10:12,759 Y en este caso, la frecuencia relativa es 1 partido por 7. Es decir, la frecuencia relativa es el cociente entre la frecuencia absoluta de un valor y el número total de datos. 73 00:10:12,759 --> 00:10:35,159 Y por último, la frecuencia. El último cálculo que se hace en una tabla estadística de este tipo es la frecuencia absoluta acumulada. 74 00:10:35,159 --> 00:10:54,080 que es básicamente ir sumando los valores de la frecuencia absoluta según van apareciendo en la columna de frecuencia absoluta ya calculada. 75 00:10:54,080 --> 00:11:02,759 En este caso, el primer término es 2 y en la segunda fila sumaremos las dos filas anteriores de frecuencia absoluta, por tanto, 4. 76 00:11:02,759 --> 00:11:23,129 En la siguiente casilla sumaremos los tres datos primeros de la frecuencia absoluta, 2 más 2 más 2, 6. Y en el último caso, todas las filas anteriores de la frecuencia absoluta, 2 más 2 más 2 más 1, 7. 77 00:11:23,129 --> 00:11:35,730 Al final, el último término de la frecuencia absoluta acumulada tiene que coincidir con el número total de elementos o de números que hemos analizado del conjunto. 78 00:11:35,730 --> 00:11:58,570 Es bastante habitual que una tabla de frecuencias al final tenga una representación gráfica y se hace un diagrama que es normalmente el diagrama de barras para hacer esto un poco más visual. 79 00:11:58,570 --> 00:12:13,009 Pero bueno, antes de pasar al diagrama de barras vamos a ver también otros elementos que se suelen calcular cuando se hace un análisis estadístico de los datos. 80 00:12:13,009 --> 00:12:34,210 Uno de los conceptos más ampliamente utilizados es la media. La media se define como el promedio de los valores de una variable y se calcula con la suma de los productos de los valores y las frecuencias absolutas dividiéndolo entre el total de los datos. 81 00:12:34,210 --> 00:12:57,049 ¿Esto qué quiere decir? Pues que nosotros la media deberíamos calcularla como la multiplicación, el acumulado de los valores, cada uno de los valores por su frecuencia absoluta que hemos ido calculando. 82 00:12:57,049 --> 00:13:24,919 1 por 2, lo que he hecho ha sido el valor multiplicado por su frecuencia absoluta y esto dividirlo entre el número total de elementos calculados que es 7. 83 00:13:26,220 --> 00:13:33,360 En definitiva, la media se puede calcular así o sumar uno a uno todos los valores analizados y dividirlos entre el total. 84 00:13:33,360 --> 00:13:51,600 Esto en este caso nos da 2,7. Es decir, la media la hemos obtenido como la suma de los productos, de los valores, por sus frecuencias absolutas y dividiendo todo ello entre el total de los datos. 85 00:13:52,340 --> 00:14:20,370 Otro dato que se calcula en estadística, que se utiliza con mucha frecuencia, es la moda. La moda es simplemente el dato que más aparece. En nuestro caso, el dato que más aparece, como veis, no es único, porque hay tres valores que aparecen dos veces. 86 00:14:20,370 --> 00:14:48,389 Por tanto, la moda en nuestro caso es triple y es el valor 1, el valor 2 y el valor, no siempre tiene que ser solo un valor, depende de los datos analizados, la moda puede tener, como coincide que hay tres valores de nuestra variable, que es el número de hermanos, que aparecen dos veces, la moda no es un único valor, sino que son tres, el 1, el 2 y el 4. 87 00:14:48,389 --> 00:15:12,250 Y por último, la mediana, que es la última de los resultados estadísticos que se suelen calcular en un conjunto de datos cuando se hace un análisis estadístico, la mediana es el valor que está justo en el centro. 88 00:15:12,250 --> 00:15:39,330 Para eso deberíamos ordenar todos los valores con su frecuencia, o sea, por escribir la lista de todos los valores, el 1 aparece en una lista ordenada de todas las apariciones, el 4 aparece y el 5 aparece una vez. 89 00:15:40,210 --> 00:16:02,029 Es decir, hacemos una enumeración ordenada de todos los valores y su aparición y la mediana es el valor que está en el centro. En nuestro caso, como eran siete valores, el valor que está en el centro es el cuarto, que es dos. En nuestro caso, la mediana es el valor número dos. 90 00:16:02,029 --> 00:16:29,730 Bueno, para reforzar lo que hemos visto, vamos a ver el ejemplo y seguramente sirva para afianzar esto que hemos hecho en este ejemplo tan sencillo. 91 00:16:29,730 --> 00:16:45,929 Un profesor registró las calificaciones de 20 estudiantes en un examen sobre 10 puntos, estamos hablando de una variable cuantitativa, en este caso es el resultado en un examen, 92 00:16:45,929 --> 00:16:47,769 Tiene un valor, además un número entero. 93 00:16:48,809 --> 00:16:59,789 Entonces, los 20 estudiantes han tenido estas calificaciones que las tenemos aquí simplemente como una lista enumerada de todas las notas que han obtenido estos 20 estudiantes. 94 00:16:59,929 --> 00:17:07,250 A partir de estos datos nos dicen que construyamos la tabla que hemos visto antes, la tabla de frecuencias absoluta y relativa acumuladas. 95 00:17:07,750 --> 00:17:12,509 Y luego calcularemos estos tres conceptos que hemos visto antes, que es la media, la moda y la mediana. 96 00:17:13,089 --> 00:17:19,630 ¿Cómo se calcula la tabla de frecuencias absolutas? Pues nos tenemos que poner a contar. 97 00:17:20,630 --> 00:17:27,650 ¿Cuáles son todos los valores que aparecen en esta lista? Pues si nos fijamos, aparecen valores desde el 5 hasta el 9. 98 00:17:28,269 --> 00:17:32,329 Aparece el valor, la nota 5, la nota 6, la 7, la 8 y la 9. 99 00:17:32,809 --> 00:17:36,630 ¿Cuántas veces aparece la nota 5? Pues sería cuestión de contar. 100 00:17:36,630 --> 00:17:55,069 El 5 aparece una vez aquí, dos veces aquí, tres veces aquí y cuatro veces aquí. Frecuencia absoluta 4. La misma operación la repetimos con el 6. ¿Cuántas veces aparece el 6? Una vez aquí, dos, tres, cuatro y cinco. 101 00:17:55,069 --> 00:18:15,569 5 veces y así con todos los elementos, de forma que cuando hayamos terminado todos los valores de la variable, en este caso 5, 6, 7, 8 y 9, con sus frecuencias absolutas, que es el número de veces que aparece cada uno de estos valores, nos debe dar el total de datos analizados. 102 00:18:15,569 --> 00:18:21,509 En este caso hemos dicho que eran 20 estudiantes, que coincide y por tanto es una comprobación de que lo tenemos bien. 103 00:18:22,950 --> 00:18:30,029 ¿Cuál es la frecuencia relativa? Pues hemos dicho que es la absoluta a partido del número total de variables analizadas, 104 00:18:30,150 --> 00:18:38,579 o de elementos analizados, entonces es coger el valor de la frecuencia absoluta y dividirla entre el 2. 105 00:18:38,579 --> 00:18:50,920 5 entre 20, 0,25. 5 entre 20, 0,25. 4 entre 20, 0,20. Y 2 entre 20, 0,10. Frecuencia relativa. 106 00:18:51,619 --> 00:18:57,380 Frecuencias absolutas acumuladas, tan sencillo como copiar el primer valor de la frecuencia absoluta 107 00:18:57,380 --> 00:19:05,480 e ir sumando las anteriores columnas. 4 es 4, a la segunda columna le sumamos los dos valores 108 00:19:05,480 --> 00:19:08,779 de frecuencias absolutas anteriores, el 4 y el 5, 9. 109 00:19:09,599 --> 00:19:17,140 Al siguiente valor le sumamos las tres columnas que le anteceden, 4 más 5 más 5, 14. 110 00:19:18,160 --> 00:19:28,539 En el cuarto valor de la frecuencia acumulada, las cuatro columnas anteriores, 4 más 5 más 5 más 4, 18. 111 00:19:28,539 --> 00:19:40,539 Y por último, el último valor es sumar todos los valores de frecuencia absoluta, 4 más 5 más 5 más 4 más 2, 20, que coincide con el número total de elementos analizados. 112 00:19:40,539 --> 00:20:02,059 Por último, los tres conceptos que hemos mencionado. La media, que es la multiplicación de las frecuencias absolutas por el valor de la variable dividido entre el número total, es ir uno a uno haciendo la multiplicación de las dos columnas. 113 00:20:02,059 --> 00:20:14,920 La variable por su frecuencia absoluta. 5 por 4, 6 por 5, 7 por 6, 8 por 4 y 9 por 2, que es las veces que aparece cada una de estas variables. 114 00:20:15,140 --> 00:20:20,220 Todos esos sumando, los sumamos, todos esos conjuntos de multiplicaciones y lo dividimos entre el total. 115 00:20:21,039 --> 00:20:27,500 Y esto nos da la media, en este caso de las calificaciones, de los 20 alumnos que son, es un 6,75. 116 00:20:27,500 --> 00:20:39,759 La moda, hemos dicho que es el valor que más veces, es el valor con mayor frecuencia en un conjunto de datos 117 00:20:39,759 --> 00:20:48,539 que no tiene por qué ser un valor único, porque como vemos aquí, la nota 6 y 7 son las que más aparecen 118 00:20:48,539 --> 00:20:53,759 aparecen 5 veces, pero aparecen ellas dos, no es un único valor, por lo tanto la moda aquí en este caso es bimodal 119 00:20:53,759 --> 00:20:59,019 y son los dos valores, el 6 y el 7, que son los que más aparecen, moda. 120 00:20:59,980 --> 00:21:04,420 Y por último, la mediana es el valor central, para eso tenemos que ordenar, 121 00:21:05,400 --> 00:21:09,299 colocar ordenados todos los valores tantas veces como aparezcan, 122 00:21:10,059 --> 00:21:13,559 o sea, es tantas veces el valor 5 como su frecuencia absoluta, 123 00:21:13,880 --> 00:21:20,180 escribimos 5 cuatro veces, escribimos el 6 cinco veces, el 7 cinco veces, 124 00:21:20,180 --> 00:21:37,359 el 8 cuatro veces y el 9 dos veces y cogemos el valor central. En este caso, como analizamos un número de valores par, no existe un valor central, porque el valor central aquí sería la coma. 125 00:21:37,359 --> 00:21:47,099 Tenemos que tomar el promedio de los dos valores, cuando los valores son par, tenemos que coger el promedio de los dos valores centrales. 126 00:21:47,160 --> 00:22:02,400 En este caso los dos valores centrales son las posiciones 10 y 11, que son 7 y 7, estos dos son los valores centrales, y como son dos tenemos que hacer el promedio. 127 00:22:02,980 --> 00:22:07,980 Es 7 más 7 dividido entre 2 es 7. En este caso la mediana es el valor 7. 128 00:22:07,980 --> 00:22:15,980 Por el hecho de que no es un valor impar como en el ejemplo que hemos hecho antes, sino que es un valor par y se hace el promedio de los dos valores centrales. 129 00:22:18,160 --> 00:22:30,180 Por último, en este ejemplo, lo que se suele hacer muchas veces para dar una sensación más visual de los resultados estadísticos es hacer lo que se denomina el diagrama de barras. 130 00:22:30,180 --> 00:22:39,519 que básicamente es colocar de una forma gráfica para que se visualice más fácil el número de las frecuencias absolutas. 131 00:22:39,660 --> 00:22:50,759 Es decir, en el eje de las X ponemos las calificaciones que han aparecido, hemos visto que han aparecido notas desde el 5 hasta el 9, 132 00:22:50,759 --> 00:22:58,720 o sea, todo el espectro de calificaciones posibles o de valores que ha tomado la variable que estamos analizando 133 00:22:58,720 --> 00:23:03,000 y en el eje de las i ponemos la frecuencia absoluta que hemos hallado. 134 00:23:03,660 --> 00:23:06,819 O sea, básicamente es hacer una representación gráfica de esta columna. 135 00:23:09,579 --> 00:23:16,380 Entonces, el 5 ha aparecido cuatro veces, pues encima del 5 hacemos un diágramo de barras, 136 00:23:16,380 --> 00:23:20,380 una representación gráfica que llegue hasta el 4, que es la frecuencia. 137 00:23:20,759 --> 00:23:29,279 En la nota 6 hacemos una barra que llegue hasta el valor de veces que ha aparecido, que son 5, igual que en la calificación 7. 138 00:23:29,859 --> 00:23:34,799 El 8 ha aparecido 4 veces, por lo tanto copiamos la barra igual que el 5. 139 00:23:34,799 --> 00:23:44,299 Y por último el 9 ha aparecido 2 veces. Subimos la barra hasta el valor 2, que está representado, como digo, las frecuencias están en el X. 140 00:23:44,299 --> 00:24:04,420 Y de esta forma tenemos la información de las dos primeras columnas, la variable analizada, en este caso calificación, y su frecuencia absoluta en una representación gráfica que nos ayuda a visualizar de una forma mucho más fácil el número de apariciones de cada una de las variables. 141 00:24:04,420 --> 00:24:17,019 Aquí se ve claramente y de una forma inmediata, mucho más visual, que la mayoría de las notas han estado entre el 6 y el 7 y las dos que más han aparecido han aparecido 5 veces. 142 00:24:17,180 --> 00:24:19,880 Es una forma mucho más rápida y visual. 143 00:24:22,670 --> 00:24:29,150 Y esto es todo lo que contempla este tema de estadística.