1 00:00:02,930 --> 00:00:11,089 Bienvenidos a este breve vídeo donde vamos a hacer un pequeño resumen sobre los contenidos 2 00:00:11,089 --> 00:00:20,679 básicos de la estadística unidimensional. Primero comenzamos definiendo qué se entiende 3 00:00:20,679 --> 00:00:26,739 por estadística. La estadística es la ciencia que trata de la recopilación, organización, 4 00:00:26,739 --> 00:00:35,000 presentación, análisis e interpretación de datos numéricos con el fin de tomar la decisión más 5 00:00:35,000 --> 00:00:43,579 efectiva. Es decir, yo voy a recopilar una serie de datos, los voy a analizar y luego voy a sacar 6 00:00:43,579 --> 00:00:55,679 conclusiones sobre los datos obtenidos. Lo primero que tengo que saber es a quién quiero dirigir ese 7 00:00:55,679 --> 00:01:03,780 estudio. A ese conjunto de personas u objetos a los que va dirigido dicho estudio se le llama 8 00:01:03,780 --> 00:01:11,900 población y a cada uno de las personas u objetos se le llama individuo. Cuando la población es 9 00:01:11,900 --> 00:01:23,060 demasiado grande utilizo una parte de ella que le llamaré muestra y al número total de elementos 10 00:01:23,060 --> 00:01:28,459 u objetos que forman esta muestra se le llama tamaño de la muestra. 11 00:01:32,450 --> 00:01:35,950 Lo siguiente será definir qué es lo que yo quiero estudiar 12 00:01:35,950 --> 00:01:38,250 y sobre qué voy a hacer el estudio. 13 00:01:38,849 --> 00:01:41,129 Pues la característica que yo voy a estudiar 14 00:01:41,129 --> 00:01:45,290 es lo que se conoce con el nombre de variable estadística. 15 00:01:45,650 --> 00:01:48,849 Las variables estadísticas pueden ser de dos tipos 16 00:01:48,849 --> 00:01:52,370 o bien variable estadística cualitativa 17 00:01:52,370 --> 00:02:02,549 cuando lo que yo voy a estudiar es una cualidad, por ejemplo en un concesionario quieren saber de los coches que han vendido 18 00:02:02,549 --> 00:02:07,189 cuál es el color más vendido o el que más gusta a la gente. 19 00:02:08,430 --> 00:02:16,629 Sin embargo, si yo quiero saber el número de hermanos que hay en una ciudad, en un conjunto de familias, 20 00:02:16,629 --> 00:02:24,250 entonces estaré evaluando algo numérico y por tanto hablaré de una variable cuantitativa. 21 00:02:24,710 --> 00:02:31,590 Dentro de las variables estadísticas cuantitativas tengo que distinguir entre variable cuantitativa discreta 22 00:02:31,590 --> 00:02:33,909 y variable cuantitativa continua. 23 00:02:34,550 --> 00:02:40,370 La variable será discreta si los datos son valores aislados, por ejemplo, número de hermanos 24 00:02:40,370 --> 00:02:44,270 y será continua cuando pueden tomar valores intermedios. 25 00:02:44,270 --> 00:02:47,750 Por ejemplo, la estatura de mis alumnos. 26 00:02:51,379 --> 00:03:01,199 Una vez que yo ya tengo la población y tengo el estudio, procedo a realizar mi encuesta y obtengo una serie de valores. 27 00:03:01,919 --> 00:03:09,939 Esos valores, lo primero que hago es organizarlos en lo que se conocen como tablas de frecuencias. 28 00:03:10,740 --> 00:03:14,340 Vamos a definir los distintos tipos de frecuencias que tenemos. 29 00:03:14,680 --> 00:03:21,819 Tenemos la frecuencia absoluta, que es el número total de veces que se repite un dato. 30 00:03:22,439 --> 00:03:29,620 La frecuencia relativa es el cociente entre la frecuencia absoluta y el número total de datos 31 00:03:29,620 --> 00:03:32,340 y cuya suma tiene que ser 1. 32 00:03:33,240 --> 00:03:39,520 La frecuencia absoluta acumulada es la suma de las frecuencias absolutas correspondientes 33 00:03:39,520 --> 00:03:47,539 a los datos menores o iguales y la frecuencia relativa acumulada de un dato es la suma de las 34 00:03:47,539 --> 00:03:59,280 frecuencias relativas correspondientes a los datos menores o iguales. Lo organizaría en una tabla 35 00:03:59,280 --> 00:04:10,539 donde pongo en la primera columna los diferentes datos. Por ejemplo, si estoy estudiando el color 36 00:04:10,539 --> 00:04:16,720 de los coches que se venden en un concesionario, pues pondría color rojo, color azul, color verde, 37 00:04:17,019 --> 00:04:23,920 color gris... A continuación pondría la frecuencia absoluta, es decir, el número de coches que se han 38 00:04:23,920 --> 00:04:29,439 vendido que son rojos, el número de coches que se han vendido que son azules, el número de coches 39 00:04:29,439 --> 00:04:34,540 que se han vendido que son verdes, el número de coches que se han vendido que son grises... 40 00:04:34,540 --> 00:04:56,319 Entonces, luego colocaría la frecuencia relativa, que es la absoluta dividida entre el total de datos, para cada uno de los datos, la frecuencia absoluta acumulada, en el primer dato coincide con la frecuencia absoluta y luego siempre voy sumando la anterior, ¿vale? 41 00:04:56,319 --> 00:05:00,620 y lo mismo ocurre con la frecuencia relativa acumulada. 42 00:05:01,399 --> 00:05:09,319 Una vez que yo ya tengo mi encuesta, he organizado mis datos en una tabla de frecuencias, 43 00:05:10,300 --> 00:05:16,560 ahora voy a proceder a organizar los datos a través de gráficos estadísticos. 44 00:05:17,300 --> 00:05:20,560 Existen distintos tipos de gráficos estadísticos. 45 00:05:20,560 --> 00:05:29,939 Tenemos el diagrama de barras, tenemos el diagrama de sectores y tenemos el histograma. 46 00:05:29,939 --> 00:05:41,639 El diagrama de barras es muy fácil de realizar. Lo único que tengo que hacer es colocar sobre el eje horizontal todos los datos. 47 00:05:41,639 --> 00:05:45,579 En este caso tengo 2, 4, 6, 8 y 10. 48 00:05:46,439 --> 00:05:51,480 Y luego levanto una barra vertical sobre cada uno de los datos 49 00:05:51,480 --> 00:06:00,379 de forma que la altura de dicha barra coincida exactamente con la frecuencia absoluta. 50 00:06:03,209 --> 00:06:11,189 En el caso del diagrama de sectores, yo lo que pretendo hacer es repartir un círculo 51 00:06:11,189 --> 00:06:16,350 de forma proporcional a las frecuencias absolutas. 52 00:06:16,670 --> 00:06:23,550 Es decir, yo en este círculo tengo que repartir rojo, azul, verde, blanco y negro 53 00:06:23,550 --> 00:06:29,230 de forma proporcional a 5, 3, 10, 12 y 6. 54 00:06:29,230 --> 00:06:36,889 Entonces lo que tengo que hacer es averiguar qué proporción de círculo 55 00:06:36,889 --> 00:06:40,889 le corresponde a cada frecuencia relativa. 56 00:06:41,189 --> 00:07:00,089 Perdón, a cada frecuencia absoluta y eso lo hago con ayuda de esta regla de tres, donde me relaciona el total de datos con los 360 grados que tiene la circunferencia y cada frecuencia absoluta con el número de grados que le corresponde en el círculo. 57 00:07:00,089 --> 00:07:10,800 Y por último, el último tipo de gráfico es el histograma. 58 00:07:10,800 --> 00:07:15,819 El histograma es de apariencia algo similar al diagrama de Valls, 59 00:07:16,560 --> 00:07:23,860 pero este tipo de gráfico se suele utilizar cuando tratamos con una variable cualitativa continua. 60 00:07:24,779 --> 00:07:32,439 Sobre el eje horizontal colocaremos los intervalos en los que está dividida esa variable 61 00:07:32,439 --> 00:07:40,860 y la altura del rectángulo no es en este caso la frecuencia absoluta, 62 00:07:41,899 --> 00:07:51,060 sino que es el cociente entre la frecuencia absoluta y la amplitud del intervalo. 63 00:07:51,060 --> 00:08:02,360 ¿Esto por qué es así? Porque el área de cada uno de los rectángulos es la que tiene que coincidir exactamente con la frecuencia absoluta. 64 00:08:08,759 --> 00:08:15,560 Ahora vamos a comenzar a hacer cálculos con esos datos que hemos obtenido. 65 00:08:16,860 --> 00:08:20,019 Los cálculos que vamos a hacer van a ser de dos tipos. 66 00:08:20,019 --> 00:08:25,899 Yo voy a calcular lo que se conoce con el nombre de medidas de centralización 67 00:08:25,899 --> 00:08:32,460 y lo que se conoce con el nombre de medidas de dispersión. 68 00:08:32,779 --> 00:08:36,649 ¿Qué nos van a dar estos datos? 69 00:08:37,269 --> 00:08:45,389 Pues las medidas de centralización nos va a decir cómo descentrada está nuestra variable estadística. 70 00:08:45,389 --> 00:08:52,210 Es decir, si existe algún dato alrededor del cual se van a situar el resto de datos. 71 00:08:52,970 --> 00:09:05,990 Y las medidas de dispersión, como su propio nombre indica, nos van a explicar si esa variable estadística es muy dispersa o está muy concentrada. 72 00:09:05,990 --> 00:09:22,100 Medidas de centralización tenemos tres, que son la media aritmética, la moda y la mediana 73 00:09:22,100 --> 00:09:37,700 Y medidas de dispersión tenemos cinco, que son la desviación mediana, el rango, la varianza, la desviación típica 74 00:09:37,700 --> 00:09:40,919 y el coeficiente de variación. 75 00:09:42,220 --> 00:09:45,919 Vamos a ver un poquito cómo se calculan cada una de ellas. 76 00:09:46,539 --> 00:09:52,980 La media aritmética, aquí tenemos la fórmula que recoge la forma de calcular la media aritmética, 77 00:09:53,960 --> 00:10:02,919 que sería la suma del producto de cada dato por su frecuencia dividido entre el total de datos. 78 00:10:03,860 --> 00:10:09,200 Es decir, yo tengo que he hecho un estudio sobre el número de móviles 79 00:10:09,200 --> 00:10:13,460 y las posibles respuestas han sido 1, 2, 3, 4 y 5. 80 00:10:15,600 --> 00:10:18,740 Personas que han respondido que tienen un móvil han sido 15, 81 00:10:19,539 --> 00:10:21,639 que han respondido que tienen 2 ha sido 8, 82 00:10:22,139 --> 00:10:24,320 que han respondido que tienen 3 ha sido 4, 83 00:10:25,399 --> 00:10:27,799 que han respondido que tienen 4 ha sido 1 84 00:10:27,799 --> 00:10:31,240 y que han respondido que tienen 5 ha sido 2. 85 00:10:31,240 --> 00:10:36,940 Pues ahora lo que tengo que hacer es multiplicar cada dato por su frecuencia relativa 86 00:10:36,940 --> 00:10:39,960 Perdón, por su frecuencia absoluta 87 00:10:39,960 --> 00:10:45,860 1 por 15, 2 por 8, 3 por 4, 4 por 1 y 5 por 2 88 00:10:45,860 --> 00:10:51,799 Tengo que sumar todas esas cantidades y dividirla entre el total de datos que son 30 89 00:10:51,799 --> 00:10:56,679 Por tanto, la media aritmética de estos datos es 1,9 90 00:10:56,679 --> 00:11:23,320 La moda. La moda es el valor con mayor frecuencia absoluta. En este caso la moda sería 1, es decir, la respuesta que más se ha dado ha sido un móvil y la mediana es el dato que está justo situado en medio. 91 00:11:23,320 --> 00:11:33,980 Yo tengo todas las respuestas, las ordeno de menor a mayor y localizo el dato que está justo situado en medio. 92 00:11:34,759 --> 00:11:50,929 En este caso, como tengo, pues, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 y 15, 93 00:11:50,929 --> 00:12:01,470 y por aquí otros 15, 30 datos, pues el que está justo en medio estaría entre 1 y 2 que es 1,5 94 00:12:01,470 --> 00:12:09,210 y eso es lo que conocemos como mediana, es decir, el valor que deja la mitad de la población a la izquierda 95 00:12:09,210 --> 00:12:11,610 y la mitad de la población a la derecha. 96 00:12:14,000 --> 00:12:17,860 Pasamos ahora a calcular las medidas de dispersión. 97 00:12:17,860 --> 00:12:34,360 Las medidas de dispersión son la desviación mediana, el rango, que es la diferencia entre el dato mayor y el dato menor, la varianza, la desviación típica y el coeficiente de variación. 98 00:12:35,100 --> 00:12:47,419 Para calcular todas estas medidas, lo que hago es que realizo los cálculos sobre una tabla. 99 00:12:47,419 --> 00:12:51,379 Es decir, a mí me dan de partida estos datos, ¿vale? 100 00:12:51,539 --> 00:12:56,100 Estos serían los x sub i y estas son sus frecuencias absolutas y los pongo en mi tabla. 101 00:12:56,500 --> 00:12:57,779 x sub i, n sub i. 102 00:12:58,639 --> 00:13:01,000 Luego calculo la x por la n. 103 00:13:01,840 --> 00:13:04,559 ¿Esto para qué me hace falta? Para calcular la media. 104 00:13:05,759 --> 00:13:08,860 Luego calculo el x sub i al cuadrado por n sub i. 105 00:13:09,360 --> 00:13:12,039 Esto me hace falta para calcular la varianza. 106 00:13:12,899 --> 00:13:17,960 Luego calculo cada dato menos la media en valor absoluto y lo multiplico por n. 107 00:13:18,440 --> 00:13:22,000 ¿Y esto para qué me hace falta? Para la desviación medial. 108 00:13:22,000 --> 00:13:31,100 Una vez que tengo construida esta tabla, ya solo me quedaría sustituir cada uno de los datos en las fórmulas que hemos visto anteriormente 109 00:13:31,100 --> 00:13:36,000 y así podríamos calcular todas las medidas de dispersión.