1
00:00:00,620 --> 00:00:04,960
Buenas tardes, esta es la clase de matemáticas del día 6 de mayo.

2
00:00:06,080 --> 00:00:08,519
Estamos con el tema de estadística.

3
00:00:09,160 --> 00:00:17,280
En la última clase estuvimos viendo los tipos de variables que teníamos en los estudios estadísticos

4
00:00:17,280 --> 00:00:26,199
que eran variables cualitativas, cuando expresaban cualidades que no se iban a poder medir numéricamente

5
00:00:26,199 --> 00:00:32,820
y variables cuantitativas, que es cuando se expresan cantidades que sí que puedo medir numéricamente.

6
00:00:33,939 --> 00:00:40,640
Cuando estábamos estas variables cuantitativas, podíamos encontrarnos dos tipos distintos,

7
00:00:41,380 --> 00:00:45,679
que eran las discretas, que eran aquellas que tomaban valores puntuales,

8
00:00:46,119 --> 00:00:50,340
decíamos que no había decimales, y variables continuas,

9
00:00:50,340 --> 00:00:55,840
que eran las que tomaban valores dentro de intervalos, y entonces sí que podía haber decimales.

10
00:00:56,200 --> 00:01:04,079
Como iba a haber muchísimos datos, pues los agrupábamos en intervalos para poder representarlos mejor.

11
00:01:04,840 --> 00:01:11,260
Estuvimos viendo cómo hacer las tablas de frecuencia de los recuentos de los datos de estas variables,

12
00:01:11,859 --> 00:01:18,260
viendo esa frecuencia absoluta, la frecuencia acumulada, la relativa, la relativa acumulada.

13
00:01:19,980 --> 00:01:25,719
Vimos también los tipos de representación que podíamos utilizar para cada tipo de variable

14
00:01:25,719 --> 00:01:30,120
estábamos por ejemplo diciendo que utilizábamos diagrama de sectores

15
00:01:30,120 --> 00:01:35,099
cuando la variable era cualitativa o cuando era cuantitativa

16
00:01:35,099 --> 00:01:40,560
y esa representación era simplemente llevar a porciones de un círculo

17
00:01:40,560 --> 00:01:46,620
el número de datos que correspondía a cada una de las variables

18
00:01:46,620 --> 00:01:51,420
teníamos otro tipo de representación que era el diagrama de barras

19
00:01:51,420 --> 00:02:06,939
que se utilizaba o en variables cualitativas o en cuantitativas discretas, que eran barritas que me decían con su altura la frecuencia de aparición de cada uno de los datos.

20
00:02:09,439 --> 00:02:18,500
Por otra parte, teníamos otras barras, pero que eran distintas, que eran barras pegadas, y se llamaba entonces histograma, la representación,

21
00:02:18,500 --> 00:02:22,439
que lo utilizábamos para las variables cuantitativas continuas.

22
00:02:23,439 --> 00:02:31,360
Estas barras eran de anchas como la longitud del intervalo que estábamos intentando representar

23
00:02:31,360 --> 00:02:37,400
y de altas como la frecuencia de los datos que caían dentro de ese intervalo,

24
00:02:37,439 --> 00:02:39,039
el número de datos que caían en ese intervalo.

25
00:02:39,280 --> 00:02:46,460
Y por último teníamos el polígono de frecuencias que se utilizaba tanto con diagrama de barras

26
00:02:46,460 --> 00:02:53,139
como con histograma que lo que hacía era unirme los puntos más altos de cada una de estas barras

27
00:02:53,139 --> 00:03:00,319
y de otra forma de representar más esquemáticamente esas frecuencias de aparición de esos datos.

28
00:03:01,080 --> 00:03:06,900
Bueno, pues visto cómo hacer el recuento de datos con esas tablas de frecuencias

29
00:03:06,900 --> 00:03:12,819
y cómo poder representarlo gráficamente para ver los datos de una forma más rápida

30
00:03:12,819 --> 00:03:27,919
Y con un formato más visual, que nos llame más la atención, vamos a ver qué otros estudios podemos hacer sobre esas series de datos que habíamos encontrado en nuestra estadística, en nuestro estudio estadístico.

31
00:03:27,919 --> 00:03:38,139
Y vamos a empezar primero viendo lo que son las medidas de centralización, también llamadas medidas de posición, ¿vale?

32
00:03:38,180 --> 00:03:48,860
Que lo que me van a decir es cómo se ordenan estos datos dentro de mi estudio estadístico, ¿vale?

33
00:03:48,860 --> 00:04:09,979
La primera de esas medidas de centralización sería la media. Todos hemos hecho alguna vez la media de nuestras notas en el instituto, o ahora mismo, este año. ¿Cómo hacemos la media de nuestras notas? Pues sumando las notas de todas las asignaturas y dividiendo entre el número de asignaturas.

34
00:04:09,979 --> 00:04:19,399
Bueno, pues eso cuando estoy con una serie de datos más grande, ir sumando uno a uno no es práctico.

35
00:04:19,759 --> 00:04:21,079
Entonces, ¿qué es lo que vamos a hacer?

36
00:04:21,519 --> 00:04:28,040
Vamos a aprovecharnos de la tabla de frecuencias con la que habíamos registrado el recuento de nuestros datos

37
00:04:28,040 --> 00:04:33,339
para poder calcular esta media de una forma más rápida.

38
00:04:34,079 --> 00:04:41,600
Vemos aquí en el ejemplo que dice, si yo tengo que he hecho un estudio, por ejemplo,

39
00:04:41,860 --> 00:04:49,980
del número de días que faltó al trabajo en un año y tengo dos personas que han faltado 10 días,

40
00:04:50,339 --> 00:04:56,500
una persona que ha faltado 12, una persona que ha faltado 14 y una que ha faltado 13.

41
00:04:56,500 --> 00:05:25,879
Yo podría sumar todas esas faltas y dividirlo entre el total de dos datos que sería la suma de todos que es 52 o puedo hacer una tabla de frecuencias para el ejemplo 2 en el que digo si hay que hayan faltado 5 días 4 personas, que hayan faltado 10 días 6 personas, 15 días 7 personas, 20 días 9 personas, 25 días 4 personas,

42
00:05:25,879 --> 00:05:30,019
30 días, 6 personas, pues si me genero una columna

43
00:05:30,019 --> 00:05:33,300
en la que haga la multiplicación

44
00:05:33,300 --> 00:05:38,100
de los días faltados por la frecuencia

45
00:05:38,100 --> 00:05:41,779
que se ha repetido ese número de faltas, en ese caso

46
00:05:41,779 --> 00:05:46,279
estas 4 personas, pues me dará que en total se han faltado

47
00:05:46,279 --> 00:05:50,339
20 días, lo mismo para todos los demás, o sea voy multiplicando

48
00:05:50,339 --> 00:05:54,560
el valor de la variable, que es el número de días que se ha faltado

49
00:05:54,560 --> 00:06:02,839
nuestro ejemplo, por la frecuencia de aparición de ese valor, que sería el número de personas

50
00:06:02,839 --> 00:06:12,560
que han faltado 5 días, 10 días, 15 días, y sumo esa columna de variable por su frecuencia.

51
00:06:13,620 --> 00:06:19,000
Si el total de esa suma lo divido entre el total de personas a las que había hecho la encuesta,

52
00:06:19,000 --> 00:06:23,680
que será la suma de estas frecuencias absolutas que en este caso es 36

53
00:06:23,680 --> 00:06:30,279
y hago el cociente entre la suma de la aparición de cada uno de los datos

54
00:06:30,279 --> 00:06:32,500
y el total de personas a las que he preguntado

55
00:06:32,500 --> 00:06:36,379
me saldrá la media aritmética que estábamos buscando

56
00:06:36,379 --> 00:06:40,000
entonces resumiendo lo que estamos haciendo aquí

57
00:06:40,000 --> 00:06:44,740
cuando tengo muchísimos datos y lo hago desde la tabla de frecuencias

58
00:06:44,740 --> 00:06:49,819
es multiplicar cada valor de la variable por su frecuencia

59
00:06:49,819 --> 00:06:54,860
y sumárselo al resto de variables por sus frecuencias

60
00:06:54,860 --> 00:07:01,819
y dividirlo en el resultado final, esta e rara significa sumatorio de todo,

61
00:07:01,920 --> 00:07:06,920
suma de todos estos términos, dividirlo entre el número total de datos que tenía,

62
00:07:07,079 --> 00:07:11,500
entre el número total de personas a las que hice la encuesta,

63
00:07:11,500 --> 00:07:19,879
que sería igual que la suma de la frecuencia, este 36, y esa sería mi forma de hacer la media aritmética.

64
00:07:20,540 --> 00:07:27,680
Si tengo pocos datos los puedo sumar directamente, pero cuando tengo muchos me es más práctico utilizar esta pequeña fórmula.

65
00:07:30,519 --> 00:07:36,160
Otro parámetro de centralización es la moda.

66
00:07:36,160 --> 00:07:44,920
todos sabemos de nuestro día a día que decimos que algo está de moda cuando lo lleva o lo hace mucha gente

67
00:07:44,920 --> 00:07:53,319
pues aquí en estadística es lo mismo, la moda vamos a llamarla aquel valor que se repita más asiduamente

68
00:07:53,319 --> 00:07:59,139
o sea que la forma de encontrar la moda mirando una tabla de datos estadísticos de frecuencias

69
00:07:59,139 --> 00:08:04,540
es buscar aquel o aquellos datos que tienen la frecuencia más alta

70
00:08:04,540 --> 00:08:08,259
entonces en el ejemplo que vimos anterior

71
00:08:08,259 --> 00:08:10,379
lo que tengo que hacer es buscar

72
00:08:10,379 --> 00:08:13,240
qué dato, qué valor de la variable

73
00:08:13,240 --> 00:08:15,939
tiene la frecuencia más alta

74
00:08:15,939 --> 00:08:18,600
en el primer ejemplo veo que

75
00:08:18,600 --> 00:08:20,879
los que tienen frecuencia más alta son el 5

76
00:08:20,879 --> 00:08:22,240
que aparece 8 veces

77
00:08:22,240 --> 00:08:24,779
y el 20 que aparece 8 veces

78
00:08:24,779 --> 00:08:27,620
pues entonces diremos que la moda

79
00:08:27,620 --> 00:08:30,779
en este primer ejemplo son el 5 y el 20

80
00:08:30,779 --> 00:08:35,639
puede haber más de una cosa dentro de la moda

81
00:08:35,639 --> 00:08:38,440
yo por ejemplo si hablo de ropa pues puede ser que la moda sea

82
00:08:38,440 --> 00:08:41,299
llevar pantalones vaqueros o que la moda sea

83
00:08:41,299 --> 00:08:44,120
llevar pantalones vaqueros con una camiseta blanca

84
00:08:44,120 --> 00:08:47,539
o sea que puede haber más de un elemento dentro de la moda

85
00:08:47,539 --> 00:08:48,919
más de un valor de la variable

86
00:08:48,919 --> 00:08:52,139
en el segundo ejemplo pues hago lo mismo

87
00:08:52,139 --> 00:08:54,679
ordeno los valores de la variable

88
00:08:54,679 --> 00:08:58,720
miro sus frecuencias y veo que en este caso

89
00:08:58,720 --> 00:09:02,580
quien tiene la frecuencia más alta es el 600

90
00:09:02,580 --> 00:09:06,679
que tiene frecuencia 9, pues diré que en este segundo caso la moda

91
00:09:06,679 --> 00:09:11,059
solo es el 600, entonces nos quedamos con esa idea

92
00:09:11,059 --> 00:09:15,100
que la moda mirada dentro de una distribución estadística

93
00:09:15,100 --> 00:09:18,559
es el valor de la variable que más se repite

94
00:09:18,559 --> 00:09:23,120
y eso lo veo en la tabla de frecuencias buscando el valor

95
00:09:23,120 --> 00:09:26,919
o valores que tenga la frecuencia absoluta más alta

96
00:09:26,919 --> 00:09:30,799
bueno, seguimos con otra medida

97
00:09:30,799 --> 00:09:33,720
de posición, que sería

98
00:09:33,720 --> 00:09:36,419
a ver, un segundito

99
00:09:36,419 --> 00:09:41,669
sería la mediana

100
00:09:41,669 --> 00:09:45,470
y la mediana, si nosotros pensamos

101
00:09:45,470 --> 00:09:48,350
la medida que tenemos nosotros de mediana es

102
00:09:48,350 --> 00:09:50,509
pues una carretera o una calle

103
00:09:50,509 --> 00:09:52,870
que tiene un muro que me divide

104
00:09:52,870 --> 00:09:56,450
los carriles del lado izquierdo y los carriles del lado derecho

105
00:09:57,149 --> 00:10:06,129
Cuando yo voy pensando en una carretera, la mediana es esa franja de terreno que hay entre unos carriles y otros que me separan la carretera en dos partes iguales.

106
00:10:06,129 --> 00:10:20,230
Bueno, pues aquí va a ser la misma idea. La mediana es el valor que ocupa la posición central de todos los datos que tengo yo en mi estadística cuando están ordenados.

107
00:10:20,230 --> 00:10:35,110
O sea que si yo quisiese hacerlo por el camino largo lo que haría es ordenar todos los datos, ponerlos de menor a mayor y luego buscar qué dato es el que me deja la misma cantidad de datos por debajo que por encima.

108
00:10:35,110 --> 00:10:41,389
Claro, eso lo puedo hacer cuando tenga estudios estadísticos con poquitos datos

109
00:10:41,389 --> 00:10:44,889
Pero si tengo muchos, no es práctico ordenar todos los datos uno por uno

110
00:10:44,889 --> 00:10:50,629
Vuelvo una vez más a valerme de la tabla de frecuencias para poder hacer este cálculo

111
00:10:50,629 --> 00:10:54,529
Entonces, vemos por ejemplo, aquí en el ejemplo

112
00:10:54,529 --> 00:10:57,450
Que los valores distintos que me han salido son del 1 al 5

113
00:10:57,450 --> 00:11:00,250
Y aquí tengo sus frecuencias absolutas

114
00:11:00,250 --> 00:11:04,090
El 1 ha aparecido 10 veces, el 2 20 veces, el 3 17

115
00:11:04,090 --> 00:11:07,850
el 4 doce veces y el 5 diecisiete

116
00:11:07,850 --> 00:11:11,830
o sea que en total tengo 10, 20

117
00:11:11,830 --> 00:11:15,509
37, 49 y

118
00:11:15,509 --> 00:11:19,649
66 datos, ¿vale? que era

119
00:11:19,649 --> 00:11:23,710
el último valor de la frecuencia absoluta acumulada, entonces hay

120
00:11:23,710 --> 00:11:27,850
66 datos, tengo que buscar cuál de esos

121
00:11:27,850 --> 00:11:31,870
66 datos me deja la mitad por debajo y la mitad por encima

122
00:11:31,870 --> 00:11:37,710
O sea, ¿cuál me deja 33 datos por debajo y cuál me deja 33 datos por encima?

123
00:11:38,429 --> 00:11:44,389
Otra forma de verlo, ¿cuál me deja el 50% de los datos por debajo y el 50% por encima?

124
00:11:44,990 --> 00:11:55,250
Pues lo que vamos a hacer es mirar en la tabla de frecuencias quién es el dato que ocuparía esa posición 33, que es la mitad de ese 66.

125
00:11:55,250 --> 00:12:22,429
Bueno, los 10 primeros números eran 1. Los 10 números siguientes eran 2. O sea, ya he colocado los 20 primeros datos. Y ahora, de ese dato 20, que era un 2, al dato 37, lo que hay son 3. Pero yo no quería llegar tan lejos. Yo solo quería llegar a la posición 33, que era la mitad de este 66, que era el número total de datos que había en mi tabla estadística.

126
00:12:22,429 --> 00:12:48,070
Pues si yo pienso en qué dato está en esa posición 33, me encuentro que en la posición 33 habrá un 3, porque tenía 10 unos, 10 doses, 10 treses, el 11, la posición 31 será también un 3, la 32 será un 3, la 33 será un 3, la 34 será un 3.

127
00:12:48,070 --> 00:13:00,029
Así está la posición 37, entonces, en la posición 33, que es la que yo quería controlar, hay un 3, si yo los hubiese puesto todos en fila y ordenaditos.

128
00:13:01,250 --> 00:13:11,850
Esta misma idea la vamos a utilizar para el siguiente parámetro de centralización, que son los cuartiles, que es la misma idea que en la mediana.

129
00:13:11,850 --> 00:13:30,629
Ahora, los cuartiles son tres, y son como tres, digamos, paredes que me dividen mi distribución de datos estadísticos en cuatro cajitas igual de grandes, fijaos aquí en el dibujo, entonces, ¿qué ocurrirá?

130
00:13:30,629 --> 00:13:34,750
que el primer cuartil me va a dejar un cuarto de los datos

131
00:13:34,750 --> 00:13:38,789
por debajo, o sea, el 25% de los datos por debajo. El segundo

132
00:13:38,789 --> 00:13:42,730
cuartil me va a dejar la mitad de los datos por debajo, o sea, el 50%

133
00:13:42,730 --> 00:13:46,669
de los datos. Luego el segundo cuartil siempre va a

134
00:13:46,669 --> 00:13:50,769
coincidir con el valor de la mediana. Y el tercer cuartil

135
00:13:50,769 --> 00:13:54,909
es el que me deja el 75% de los datos por debajo, o sea, tres cuartas

136
00:13:54,909 --> 00:13:59,110
partes, ¿vale? Por eso se llaman cuartiles, porque divido

137
00:13:59,110 --> 00:14:03,629
mi distribución de datos en cuartos, ¿vale?

138
00:14:04,330 --> 00:14:06,850
Primer cuarto, llego al primer cuartil.

139
00:14:07,350 --> 00:14:09,570
Segundo cuarto, cuando he cogido la mitad de los datos,

140
00:14:09,730 --> 00:14:10,750
llego al segundo cuartil.

141
00:14:11,350 --> 00:14:14,049
Tercer cuartil, cuando llego al tercer cuarto.

142
00:14:14,570 --> 00:14:16,889
Entonces, vuelvo a hacer la misma historia de antes.

143
00:14:17,470 --> 00:14:20,570
Aquí en la tabla me lo he hecho calculando los porcentajes.

144
00:14:20,730 --> 00:14:21,570
Es una forma de hacerlo.

145
00:14:22,070 --> 00:14:24,570
O puedo hacer el mismo recuento que antes.

146
00:14:24,570 --> 00:14:41,570
Bueno, la cuarta parte de 66, perdón, la mitad de 66 era 33 y en la posición 33 vimos que había un 3, o sea que el cuartil 2 va a ser igual que la mediana que es un 3.

147
00:14:41,570 --> 00:15:02,230
Ahora digo, ¿quién es la mitad de ese 33? ¿Quién es la mitad de esa mitad que hemos visto con la mediana? Pues será el dato que esté en la posición 16 y medio, digamos, 16 por abajo y 16 por arriba, para llegar a esos 33 datos que juntaba con la mediana.

148
00:15:02,230 --> 00:15:06,230
Pues voy a ver, a contar hasta que llegue ese dato 16.

149
00:15:07,629 --> 00:15:18,149
10 unos y ahora 10 doses, pues la posición 16 la ocupará uno de esos doses, pues el cuartil 1 es un 2.

150
00:15:18,889 --> 00:15:22,549
Si quiero calcular el cuartil 3, lo puedo hacer de dos formas.

151
00:15:23,490 --> 00:15:25,889
Creo que la segunda que os voy a hacer va a ser más cómoda.

152
00:15:26,230 --> 00:15:32,169
Puedo decir, buscar cuál es el dato que me deja tres cuartas partes por debajo.

153
00:15:32,230 --> 00:15:37,190
que es el 75%, o hacer la misma cuenta que he hecho para el cuartil 1

154
00:15:37,190 --> 00:15:41,730
pensando en qué dato es el que me deja un cuarto de los datos por encima.

155
00:15:42,190 --> 00:15:45,370
¿Cuál es el que me deja por encima el 25% de los datos?

156
00:15:46,250 --> 00:15:50,970
Pues como hemos dicho que la mediana está en la posición 33,

157
00:15:50,970 --> 00:15:56,470
que la mitad es el 66, pues si yo pienso el mismo razonamiento

158
00:15:56,470 --> 00:16:01,029
que hice para el cuartil 1, pero pensando desde el último dato hacia atrás,

159
00:16:01,029 --> 00:16:06,529
lo que necesito es saber qué dato hay en la posición 16,5

160
00:16:06,529 --> 00:16:08,370
que decíamos que es la mitad del 33

161
00:16:08,370 --> 00:16:11,610
y entonces me fijaría en mi tabla de frecuencias

162
00:16:11,610 --> 00:16:12,929
pero empezando por el final

163
00:16:12,929 --> 00:16:17,590
digo, los 17 últimos datos son 5

164
00:16:17,590 --> 00:16:20,110
pero yo no quería los 17 últimos datos

165
00:16:20,110 --> 00:16:22,529
me bastaba con los 16 últimos datos

166
00:16:22,529 --> 00:16:26,710
¿qué hay en la posición 16 empezando por el final?

167
00:16:27,230 --> 00:16:27,909
pues un 5

168
00:16:27,909 --> 00:16:32,289
pues mi cuartil tercero es ese 5

169
00:16:32,289 --> 00:16:35,889
¿vale? si lo pensamos de

170
00:16:35,889 --> 00:16:39,769
la forma de utilizar los porcentajes

171
00:16:39,769 --> 00:16:44,590
lo que tengo que ir es calculando que porcentaje

172
00:16:44,590 --> 00:16:48,610
de repetición tiene cada uno de esos datos que he estado mirando

173
00:16:48,610 --> 00:16:52,629
y digo, sería hacer una regla de 3, si 66

174
00:16:52,629 --> 00:16:57,090
datos es el 100%, pues 10 datos sería un 15%

175
00:16:57,090 --> 00:17:06,549
El 2, que sería el dato 20, 10 y 10, 20, pues los 20 primeros datos serían el 30%, que es el doble que es el 15.

176
00:17:07,470 --> 00:17:14,589
Los 20 más los 17, 37 datos serían el 56%, el 56%.

177
00:17:14,589 --> 00:17:20,869
Esos 17 más estos otros 12, los 49 primeros datos serían el 74%.

178
00:17:20,869 --> 00:17:26,170
Y los últimos 16 datos serían ya completar el 100%.

179
00:17:26,170 --> 00:17:43,690
Pues la forma de buscar la mediana es buscar qué dato está dentro del 50%, que sería un 3, qué dato estaría dentro de la posición del 25%, que sería un 2, y qué dato estaría en la posición del 75%, que sería un 5.

180
00:17:44,230 --> 00:17:55,730
Como mejor lo veáis, con los porcentajes corro el riesgo de que si calculo mal el porcentaje, pues ponga ya mal esta columna y todo me salga mal.

181
00:17:56,170 --> 00:18:13,690
¿Con el recuento de la frecuencia absoluta? Pues me es más cómodo, creo yo, a mí me gusta más porque solo es contar hasta llegar al dato que yo quiero llegar y ver, hasta llegar a la posición, perdón, que quiero llegar y ver luego qué dato ocupa esa posición.

182
00:18:13,690 --> 00:18:17,349
pero lo podéis hacer de la forma que queráis

183
00:18:17,349 --> 00:18:20,130
como os resulte más cómodo y lo veáis mejor

184
00:18:20,130 --> 00:18:29,579
bueno, vistas estas medidas o parámetros de centralización

185
00:18:29,579 --> 00:18:33,140
el diagrama de carga y bigotes

186
00:18:33,140 --> 00:18:36,240
este no lo vamos a ver porque sería una forma de representar los cuartiles

187
00:18:36,240 --> 00:18:38,380
pero no lo vamos a utilizar luego en los ejercicios

188
00:18:38,380 --> 00:18:41,119
entonces que quede así solo como curiosidad

189
00:18:41,119 --> 00:18:43,099
de cómo se representa esto gráficamente

190
00:18:43,099 --> 00:18:46,380
igual que vimos la representación de los distintos tipos de variables

191
00:18:46,380 --> 00:19:09,119
Pero no os lo voy a pedir, ¿vale? Ahora lo que sí que os voy a pedir es que sepáis calcular las medidas de dispersión. ¿Qué es esto de las medidas de dispersión? Pues las medidas de dispersión lo que me van a hacer es ver cómo de agrupados o separados están los datos de mi estudio estadístico, ¿vale?

192
00:19:09,700 --> 00:19:16,240
Si los datos están muy agrupaditos, pues será un estudio muy homogéneo, una población muy homogénea a la que he estudiado, la gente es muy parecida.

193
00:19:16,799 --> 00:19:27,700
Si los datos están muy dispersos, pues la población será muy heterogénea y, por decirlo de alguna manera, si estamos controlando los gustos que tienen, pues va a haber gustos muy dispares.

194
00:19:28,319 --> 00:19:37,539
Si las medidas de dispersión están muy centralizadas, pues serán datos muy parejos y gustos muy parejos los que tendrá la gente.

195
00:19:37,539 --> 00:19:39,880
bueno, vamos a ver quiénes son estos

196
00:19:39,880 --> 00:19:43,619
medidas de dispersión o parámetros de dispersión

197
00:19:43,619 --> 00:19:46,559
empezamos de más fáciles a más difíciles

198
00:19:46,559 --> 00:19:47,500
por decirlo de alguna manera

199
00:19:47,500 --> 00:19:50,519
la primera sería el rango recorrido

200
00:19:50,519 --> 00:19:55,000
y el rango recorrido simplemente lo que me va a indicar

201
00:19:55,000 --> 00:19:57,460
es entre qué valores me voy a mover

202
00:19:57,460 --> 00:20:00,400
entonces el rango es

203
00:20:00,400 --> 00:20:03,200
la diferencia entre el valor más alto

204
00:20:03,200 --> 00:20:05,240
que me voy a encontrar en mi variable

205
00:20:05,240 --> 00:20:09,900
y el valor más pequeño, o sea que lo que me va a indicar es la longitud

206
00:20:09,900 --> 00:20:14,059
del intervalo en la que se están moviendo mis datos

207
00:20:14,059 --> 00:20:17,940
¿vale? en este ejemplo que me dicen aquí, pues el dato

208
00:20:17,940 --> 00:20:21,859
más pequeño, el valor más pequeño de mi variable era 5 y el más alto

209
00:20:21,859 --> 00:20:25,759
era 30, pues el rango de mi estudio va a ser

210
00:20:25,759 --> 00:20:29,960
30 menos 5, 25, o sea que estaré

211
00:20:29,960 --> 00:20:32,880
diciendo con esta medida

212
00:20:32,880 --> 00:20:35,700
que mis datos están

213
00:20:35,700 --> 00:20:38,839
separados

214
00:20:38,839 --> 00:20:41,299
25 unidades

215
00:20:41,299 --> 00:20:44,339
entre el más pequeño y más grande, o sea que

216
00:20:44,339 --> 00:20:47,279
el recorrido por el que me muevo

217
00:20:47,279 --> 00:20:51,160
tiene una longitud, por así decirlo, de 25 unidades

218
00:20:51,160 --> 00:20:53,660
en este caso, ¿vale? Entonces

219
00:20:53,660 --> 00:20:57,180
no me da una información muy importante

220
00:20:57,180 --> 00:20:59,559
pero ya me ayuda a ir

221
00:20:59,559 --> 00:21:02,599
centrándome sobre qué valores

222
00:21:02,599 --> 00:21:09,200
me estoy moviendo, ¿vale? Bueno, siguiente medida de dispersión sería lo que se llama

223
00:21:09,200 --> 00:21:15,160
la desviación media. ¿Y en qué consiste la desviación media? Pues en hacer la media

224
00:21:15,160 --> 00:21:21,880
que hay entre los valores absolutos de la diferencia entre la media aritmética y los

225
00:21:21,880 --> 00:21:27,500
distintos datos que me he encontrado. Entonces, lo que estoy viendo aquí es cómo de separados

226
00:21:27,500 --> 00:21:32,460
en valor medio están mis datos de esa media aritmética

227
00:21:32,460 --> 00:21:35,579
¿Cómo haré para calcularlos?

228
00:21:36,039 --> 00:21:39,619
Me puedo generar una nueva columna

229
00:21:39,619 --> 00:21:42,480
que me diga, voy a ver cuánto vale

230
00:21:42,480 --> 00:21:47,640
cada diferencia de el dato

231
00:21:47,640 --> 00:21:52,039
que estoy mirando con la media, como los datos se están repitiendo

232
00:21:52,039 --> 00:21:55,460
esta cuentecita la tendré que multiplicar

233
00:21:55,460 --> 00:21:59,740
Por la frecuencia absoluta de las veces que se ha repetido el dato que estoy mirando.

234
00:22:00,400 --> 00:22:00,579
¿Vale?

235
00:22:00,900 --> 00:22:07,779
Entonces, lo pongo en valor absoluto porque me da igual que el dato esté por encima de la media que esté por debajo.

236
00:22:07,779 --> 00:22:11,119
Yo solo quiero ver lo que me he separado de él.

237
00:22:11,599 --> 00:22:13,460
Me da igual hacia adelante o hacia atrás.

238
00:22:14,000 --> 00:22:20,440
Entonces, lo que diríamos si en nuestro ejercicio vamos a poner que la media salió que era el 3,

239
00:22:20,819 --> 00:22:24,640
pues diríamos 3 menos 5, que sería menos 2.

240
00:22:24,640 --> 00:22:28,319
como quiero valor absoluto, lo pongo en positivo, más 2

241
00:22:28,319 --> 00:22:31,839
multiplicado por las dos veces que salió el 5

242
00:22:31,839 --> 00:22:37,019
ese resultado me lo pongo en esta columna nueva que me he creado

243
00:22:37,019 --> 00:22:40,160
y voy haciendo esa misma cuenta con todos los demás

244
00:22:40,160 --> 00:22:45,039
3 menos 10, menos 7, al ponerlo en valor absoluto, más 7

245
00:22:45,039 --> 00:22:48,039
pero como apareció una vez, pues menos 7 por 1

246
00:22:48,039 --> 00:22:53,220
y sería ir haciendo esa cuenta todo el rato 1 por 1

247
00:22:53,920 --> 00:23:05,299
Cuando tenga cada uno de los valores de cada una de las filas de los datos que he ido contrastando con la media aritmética, lo que hago es sumarlos, ¿vale?

248
00:23:05,740 --> 00:23:10,259
Sumo todos los valores de esta columna y me da este 106,66.

249
00:23:10,259 --> 00:23:15,579
como yo quiero compararlo con el total de datos que tenía

250
00:23:15,579 --> 00:23:19,880
pues digo, esa desviación que se llama respecto a la media

251
00:23:19,880 --> 00:23:23,619
la divido entre los 18 datos que tenía

252
00:23:23,619 --> 00:23:26,380
que era la suma de las frecuencias absolutas

253
00:23:26,380 --> 00:23:29,779
y el resultado de esta división

254
00:23:29,779 --> 00:23:33,859
me da este 5,92 que es la desviación media

255
00:23:33,859 --> 00:23:37,819
la media aritmética de lo que me he desviado

256
00:23:37,819 --> 00:23:41,759
con respecto a la media en todo mi estudio estadístico

257
00:23:41,759 --> 00:23:45,279
es un poco trabalenguas esto, pero bueno

258
00:23:45,279 --> 00:23:49,920
no es difícil la cuenta, siempre va a ser la misma cuenta y os aconsejo

259
00:23:49,920 --> 00:23:54,200
que en vez de irla haciendo por separado, os escribáis la columna

260
00:23:54,200 --> 00:23:57,000
entera, haciendo uno para uno

261
00:23:57,000 --> 00:24:01,980
la operación que hemos dicho, cuando la tenga entera hago la suma, divido entre el número total

262
00:24:01,980 --> 00:24:05,700
de datos y ya está, que no hagáis cuentas parciales porque si no

263
00:24:05,700 --> 00:24:10,880
Es muy fácil que me deje un dato atrás, que uno le ponga dos veces y ya la iría.

264
00:24:11,039 --> 00:24:18,240
O cuando me confunda en uno de los operadores de esta suma que estoy haciendo en el numerador, me he cargado la operación.

265
00:24:18,700 --> 00:24:25,640
Entonces mejor vamos completando la tabla, que ya veremos que nos va a hacer falta luego completarla más para mirar otros parámetros.

266
00:24:27,019 --> 00:24:30,680
Y así me va a ser más cómodo luego aplicar las fórmulas finales.

267
00:24:31,279 --> 00:24:33,279
Bueno, esa sería la desviación media.

268
00:24:33,279 --> 00:24:35,400
después de la desviación media

269
00:24:35,400 --> 00:24:37,440
tenemos una cosa que se llama varianza

270
00:24:37,440 --> 00:24:41,819
y la varianza es algo parecido a la desviación media

271
00:24:41,819 --> 00:24:44,200
pero lo que estoy haciendo es mirar

272
00:24:44,200 --> 00:24:47,500
cómo se desvían en media los cuadrados

273
00:24:47,500 --> 00:24:49,440
de estas desviaciones medias

274
00:24:49,440 --> 00:24:51,940
es como rizar un poco el rizo

275
00:24:51,940 --> 00:24:55,140
y bueno, voy a hacer otra vez la misma historia

276
00:24:55,140 --> 00:24:59,980
la fórmula de la varianza sería lo que hay dentro aquí

277
00:24:59,980 --> 00:25:01,000
de la raíz cuadrada

278
00:25:01,000 --> 00:25:04,900
puesto que la desviación típica que es el siguiente parámetro

279
00:25:04,900 --> 00:25:08,000
es hacer la raíz cuadrada de lo que me salió en la variada

280
00:25:08,000 --> 00:25:12,240
lo puedo calcular de dos formas distintas

281
00:25:12,240 --> 00:25:14,380
como resulte más cómodo, yo os cuento las dos

282
00:25:14,380 --> 00:25:15,740
aquí en el ejemplo vienen las dos

283
00:25:15,740 --> 00:25:18,859
la fórmula que más cómoda os sea de utilizar

284
00:25:18,859 --> 00:25:21,460
hay quien le gusta más esta, quien le gusta más esta

285
00:25:21,460 --> 00:25:23,759
en la primera lo que está haciendo es

286
00:25:23,759 --> 00:25:26,319
lo mismo que hemos hecho antes con la desviación media

287
00:25:26,319 --> 00:25:30,539
pero en vez de hacer el valor absoluto de la diferencia que había entre cada dato

288
00:25:30,539 --> 00:25:34,500
y la media aritmética lo que hace es el cuadrado de esas diferencias

289
00:25:34,500 --> 00:25:37,619
luego lo multiplica por las veces que se ha repetido ese dato

290
00:25:37,619 --> 00:25:39,559
o sea, por su frecuencia absoluta

291
00:25:39,559 --> 00:25:42,319
y al final la suma de todos ellos

292
00:25:42,319 --> 00:25:44,420
lo divide entre el número total de datos

293
00:25:44,420 --> 00:25:48,539
entonces, una vez más, consejo que os digo

294
00:25:48,539 --> 00:25:53,420
que os hagáis la columna de todas esas cuentas

295
00:25:53,420 --> 00:25:55,519
en vez de ir haciendo toda la fórmula entera

296
00:25:55,519 --> 00:26:00,579
me hago la columna de lo que correspondería

297
00:26:00,579 --> 00:26:04,000
a cada uno de los datos en su fila, digo el 5

298
00:26:04,000 --> 00:26:07,819
menos la media, que era el 9 no sé cuánto

299
00:26:07,819 --> 00:26:11,480
el resultado de esa resta le hago al cuadrado

300
00:26:11,480 --> 00:26:16,279
y luego multiplico por 5, que eran las veces que se había repetido

301
00:26:16,279 --> 00:26:19,859
ese 5, y lo pongo en su fila

302
00:26:19,859 --> 00:26:24,000
hago la misma historia para el siguiente, para el siguiente, para el siguiente, cuando tenga todos

303
00:26:24,000 --> 00:26:27,660
calculados, hago su suma y lo que me salga

304
00:26:27,660 --> 00:26:32,119
lo divido entre los 19 datos que había y ya tendría calculada

305
00:26:32,119 --> 00:26:36,140
la varianza, que luego quiero saber la desviación típica

306
00:26:36,140 --> 00:26:40,220
pues simplemente hago la raíz cuadrada de lo que me hubiese

307
00:26:40,220 --> 00:26:44,079
salido en la cuenta de la varianza, o sea la raíz cuadrada de lo que me salió

308
00:26:44,079 --> 00:26:47,119
de dividir esto entre 19

309
00:26:47,119 --> 00:26:52,539
otra opción que hay a quien le parece más cómoda

310
00:26:52,539 --> 00:26:54,059
Que es usar esta segunda fórmula.

311
00:26:54,640 --> 00:27:01,240
Y esta segunda fórmula puede ser más cómoda porque es más rápida de calcular en principio.

312
00:27:02,059 --> 00:27:05,799
Porque no tengo que pensar en la media aritmética hasta el final.

313
00:27:05,799 --> 00:27:11,539
Y es que vaya multiplicando la frecuencia de cada dato por el cuadrado del dato.

314
00:27:11,779 --> 00:27:13,619
O sea, digo, 5 por 5, 25.

315
00:27:14,160 --> 00:27:15,440
5 veces, 125.

316
00:27:17,200 --> 00:27:20,000
10 al cuadrado, 100 por 1, 100.

317
00:27:20,000 --> 00:27:24,200
15 al cuadrado, 225, por una vez que se repetía

318
00:27:24,200 --> 00:27:28,539
225, entonces hago frecuencia por el cuadrado

319
00:27:28,539 --> 00:27:32,359
del valor de la variable, sumo todo lo que me sale

320
00:27:32,359 --> 00:27:36,839
en la columna esa, y a este 9975

321
00:27:36,839 --> 00:27:39,480
le divido

322
00:27:39,480 --> 00:27:44,480
primero entre los 19 datos que había

323
00:27:44,480 --> 00:27:48,680
en mi estadística, y al resultado de esta división

324
00:27:48,680 --> 00:27:53,500
le resto el cuadrado de lo que valiese la media aritmética

325
00:27:53,500 --> 00:27:57,259
que ya había calculado previamente y voy a llegar al mismo resultado

326
00:27:57,259 --> 00:28:01,599
fijaos que aquí ha hecho la cuenta con esta

327
00:28:01,599 --> 00:28:04,759
primera modalidad, utilizando esta primera columna

328
00:28:04,759 --> 00:28:09,640
aquí ha hecho la cuenta, utilizando las cuentas de esta segunda columna, de esta segunda fórmula

329
00:28:09,640 --> 00:28:12,359
y llega exactamente al mismo resultado

330
00:28:12,359 --> 00:28:17,339
lo que os resulte más cómodo, para hacerlo

331
00:28:17,339 --> 00:28:21,859
sin calculadora, digamos, es más cómoda esta, para hacerlo con calculadora

332
00:28:21,859 --> 00:28:25,460
pues la que me dé la gana, eso sí, si lo hago con calculadora

333
00:28:25,460 --> 00:28:29,680
pues aún así yo me iría haciendo esas cuentas parciales

334
00:28:29,680 --> 00:28:33,500
y poniéndolas aquí, para no perderme ninguna ni saltarme ningún

335
00:28:33,500 --> 00:28:36,900
dato, aunque se podría escribir en la calculadora todo del tirón

336
00:28:36,900 --> 00:28:41,099
como queráis, eso dependerá de la soltura que tengáis a la hora de

337
00:28:41,099 --> 00:28:45,180
manejar la calculadora, bueno, lo haga como lo haga

338
00:28:45,180 --> 00:28:52,579
sé que la desviación típica sale de hacer la raíz cuadrada de lo que me dio la varianza, ¿vale?

339
00:28:52,720 --> 00:28:58,579
Y que para poder hacer la varianza necesito primero haber sabido la media aritmética.

340
00:28:59,240 --> 00:29:01,299
¿Qué ocurrirán los ejercicios?

341
00:29:01,900 --> 00:29:06,500
Que me darán mis numeritos, ahora volveremos haciendo uno paso a paso,

342
00:29:07,359 --> 00:29:13,279
y me pedirán que calcule esta desviación típica y no me dirán nada más.

343
00:29:13,279 --> 00:29:16,420
pero claro, para poder calcular esta desviación típica

344
00:29:16,420 --> 00:29:18,599
me están obligando a que haga la tabla de frecuencias

345
00:29:18,599 --> 00:29:22,240
a que calcule la media aritmética, a que calcule la varianza

346
00:29:22,240 --> 00:29:25,500
y que por último llegue a la desviación típica

347
00:29:25,500 --> 00:29:28,380
o sea, que preguntándome sólo una cosa

348
00:29:28,380 --> 00:29:31,299
me están obligando a hacer todas las demás

349
00:29:31,299 --> 00:29:34,519
porque las necesito para poder aplicar la fórmula

350
00:29:34,519 --> 00:29:37,960
de esta desviación típica que me estarían pidiendo

351
00:29:37,960 --> 00:29:40,500
o sea que yo lo hago tranquilamente

352
00:29:41,140 --> 00:29:43,200
despacito y ya está

353
00:29:43,200 --> 00:30:02,960
Y el último parámetro de dispersión es el coeficiente de variación, que como cuando hacía esta desviación típica iban a depender los resultados de unas unidades que medían la variable que yo estaba estudiando,

354
00:30:02,960 --> 00:30:06,579
Si yo quisiese comparar dos estadísticas distintas

355
00:30:06,579 --> 00:30:07,819
No podría hacerlo

356
00:30:07,819 --> 00:30:12,000
Si yo quiero comparar los colores que le gusta a la gente

357
00:30:12,000 --> 00:30:13,700
Con la edad que tienen

358
00:30:13,700 --> 00:30:16,279
Pues no me permitiría hacer la comparación

359
00:30:16,279 --> 00:30:19,299
Ahora, si yo utilizo este último coeficiente

360
00:30:19,299 --> 00:30:20,819
Que es el coeficiente de variación

361
00:30:20,819 --> 00:30:22,240
Si lo voy a poder hacer

362
00:30:22,240 --> 00:30:25,539
Porque el coeficiente de variación no tiene unidades de medida

363
00:30:25,539 --> 00:30:28,460
Porque el coeficiente de variación lo que hace es

364
00:30:28,460 --> 00:30:32,579
Ver la relación entre la desviación típica

365
00:30:32,579 --> 00:30:37,579
y la media aritmética, o sea, el coeficiente de variación es

366
00:30:37,579 --> 00:30:42,740
dividir la desviación típica entre la media aritmética

367
00:30:42,740 --> 00:30:47,339
y luego, pues, hay quien lo deja así, escrito como fracción

368
00:30:47,339 --> 00:30:51,680
como decimales no me interesa nunca, o quien lo pone en porcentaje

369
00:30:51,680 --> 00:30:56,319
pero, como he dividido unidades de desviación típica, que por ejemplo

370
00:30:56,319 --> 00:31:01,940
serían edades entre unidades de la media que volverían a ser edades

371
00:31:01,940 --> 00:31:07,240
pues edad entre edad desaparecería y se queda sin unidades de medida

372
00:31:07,240 --> 00:31:08,539
y coeficiente de variación.

373
00:31:09,240 --> 00:31:13,720
Y eso lo que me permite es comparar estudios estadísticos

374
00:31:13,720 --> 00:31:17,180
que no tengan en principio nada que ver, como decíamos,

375
00:31:17,819 --> 00:31:23,259
del gusto de los colores para vestir, con la edad de la gente,

376
00:31:23,759 --> 00:31:29,460
simplemente viendo qué porcentaje me sale en esa comparación

377
00:31:29,460 --> 00:31:36,180
de desviación típica contra media y el que tenga el porcentaje más alto

378
00:31:36,180 --> 00:31:43,480
pues será el que corresponda a una población más heterogénea

379
00:31:43,480 --> 00:31:46,299
y el que tenga el porcentaje de coeficiente de variación más bajo

380
00:31:46,299 --> 00:31:51,599
me estará diciendo que los datos están más concentrados respecto a la media

381
00:31:51,599 --> 00:31:56,240
y que esa gente tiene gustos más parecidos y entonces sí que podría

382
00:31:56,240 --> 00:32:01,000
comparar ese gusto de colores con las edades

383
00:32:01,000 --> 00:32:05,359
de la gente a las que le he hecho la encuesta. Esto es un poco

384
00:32:05,359 --> 00:32:09,079
complicado a lo mejor de entender así, pero bueno

385
00:32:09,079 --> 00:32:12,779
nosotros nos quedamos con que este último coeficiente de variación

386
00:32:12,779 --> 00:32:17,180
lo que me hace es dividir la desviación típica entre la media

387
00:32:17,180 --> 00:32:20,599
dinética, ya está. Si quiero el resultado de esa división

388
00:32:20,599 --> 00:32:25,240
para verlo un poco más gráficamente, lo paso a porcentaje haciendo una regla

389
00:32:25,240 --> 00:32:30,640
de 3. Si no quiero, pues no hace falta. Me da igual. Viéndolo simplemente como fracción

390
00:32:30,640 --> 00:32:37,059
o como número decimal, voy a poder compararlos también perfectamente, porque sabemos ordenar

391
00:32:37,059 --> 00:32:40,759
los números decimales y también sabemos ordenar fracciones. O sea que si yo quiero

392
00:32:40,759 --> 00:32:46,200
comparar dos números decimales o quiero comparar dos fracciones, a estas alturas lo sabemos

393
00:32:46,200 --> 00:32:50,579
hacer. ¿Qué me es más cómodo hacerlo con porcentaje? Pues lo pasáis a porcentaje con

394
00:32:50,579 --> 00:32:57,400
esa regla de tres y se ve aún mejor y más rápido, bien es verdad, ¿vale? Bueno, lo

395
00:32:57,400 --> 00:33:04,099
que voy a hacer ahora es irnos a un ejercicio en el que hagamos todo lo que hemos visto

396
00:33:04,099 --> 00:33:09,960
en este tema, desde representación a medidas de descentralización, medidas de dispersión,

397
00:33:10,619 --> 00:33:16,000
todo lo que me podrían preguntar un ejercicio visto sobre un ejemplo, para que veáis que

398
00:33:16,000 --> 00:33:19,539
todo va como encadenado. Ese ejercicio

399
00:33:19,539 --> 00:33:23,019
le vamos a hacer sobre uno de los resueltos que se da

400
00:33:23,019 --> 00:33:27,660
en los ejercicios aquí resueltos y los que tenéis para practicar

401
00:33:27,660 --> 00:33:31,079
para que así tengamos las cuentas hechas y pueda tardar un poco menos, pero

402
00:33:31,079 --> 00:33:35,500
voy a ir explicando paso a paso que hago en cada cuenta de lo que

403
00:33:35,500 --> 00:33:41,640
vamos haciendo. Bueno, pues imaginaos

404
00:33:41,640 --> 00:33:45,759
me dicen que tengo este

405
00:33:45,759 --> 00:33:53,259
estudio estadístico, que será de lo que Dios quiera que sea, me da igual. Los valores

406
00:33:53,259 --> 00:33:57,019
que ha tomado la variable en ese estudio estadístico, los distintos valores que tenía la variable

407
00:33:57,019 --> 00:34:06,900
eran 5, 10, 15, 20, 25 y 30. Y me dicen las frecuencias con las que ha aparecido cada

408
00:34:06,900 --> 00:34:14,880
uno de estos datos. Me dice que el 5 ha aparecido 9 veces, el 10 2, el 15 3, el 25, el 25 9

409
00:34:14,880 --> 00:34:37,260
y el 34. Luego, ya sé aquí de entrada que el número de datos que había en mi estadística es 32, que sería 9 más 2, 11, más 3, 14, 19, 28 y 32.

410
00:34:37,260 --> 00:34:45,260
Pues acordaos que el número de datos es la suma de todas las frecuencias absolutas, ¿vale?

411
00:34:46,800 --> 00:34:50,260
Que si yo lo pongo en forma de tabla, que es lo que a mí me va a interesar,

412
00:34:50,719 --> 00:34:55,260
pues sería mi primera columna, los distintos valores de la variable,

413
00:34:56,719 --> 00:35:00,639
sea lo que sea lo que esté estudiando, pues si pensamos en el de antes,

414
00:35:01,139 --> 00:35:05,179
días que he faltado a trabajar en un mes, por ejemplo,

415
00:35:05,179 --> 00:35:10,130
y personas que han faltado ese número de días

416
00:35:10,130 --> 00:35:11,690
en mi segunda columna

417
00:35:11,690 --> 00:35:13,889
la suma de todas esas frecuencias

418
00:35:13,889 --> 00:35:15,869
absolutas me dará el total

419
00:35:15,869 --> 00:35:16,590
de personas

420
00:35:16,590 --> 00:35:20,190
sobre las que estoy haciendo la encuesta

421
00:35:20,190 --> 00:35:21,610
sobre las que estoy haciendo el estudio

422
00:35:21,610 --> 00:35:24,010
¿vale? y fijaos

423
00:35:24,010 --> 00:35:27,599
me dice ¿cuál es

424
00:35:27,599 --> 00:35:29,460
la desviación

425
00:35:29,460 --> 00:35:30,159
típica?

426
00:35:31,519 --> 00:35:33,320
¿vale? pues es que para hacer

427
00:35:33,320 --> 00:35:35,639
la desviación típica necesito

428
00:35:35,639 --> 00:35:37,000
saber la media aritmética

429
00:35:37,000 --> 00:35:47,659
porque no necesitaba mi fórmula puesto que la desviación típica hemos dicho que era la raíz cuadrada de la varianza

430
00:35:47,659 --> 00:35:55,619
que lo podemos poner así o la podemos poner también como sigma al cuadrado y esto era igual a la raíz cuadrada

431
00:35:55,619 --> 00:36:00,920
vamos a utilizar la fórmula cortita puesto que tiene aquí la columna y es más rápida de ver las cuentas

432
00:36:00,920 --> 00:36:17,679
Que era la suma de fi por xi al cuadrado, que era cada uno de los datos distintos que aparecía, dividido entre el número total de datos y menos el cuadrado de la media, ¿vale?

433
00:36:17,679 --> 00:36:20,800
esa sería mi desviación típica

434
00:36:20,800 --> 00:36:23,500
y lo que hay aquí dentro

435
00:36:23,500 --> 00:36:25,820
si yo lo quisiese hacer en dos partes

436
00:36:25,820 --> 00:36:28,119
lo que hay aquí dentro

437
00:36:28,119 --> 00:36:31,639
¿vale? lo de dentro de la raíz

438
00:36:31,639 --> 00:36:37,449
sería el valor de mi varianza

439
00:36:37,449 --> 00:36:39,750
que hemos dicho que me pueden poner como var

440
00:36:39,750 --> 00:36:42,389
o como sigma al cuadrado, son las dos formas de

441
00:36:42,389 --> 00:36:44,690
representar la varianza

442
00:36:45,389 --> 00:36:53,389
Bueno, pues digo, bueno, si utilizo esta segunda fórmula, que hemos dicho que es la más corta, la de usar, pues ¿qué haré?

443
00:36:54,489 --> 00:36:58,170
Me olvido de esta columna. A ver, ¿por qué no me dejas escribir?

444
00:37:00,440 --> 00:37:09,699
Me olvido de esta columna y me quedo con esta, mi tabla de frecuencias, en la que yo decía que tenía que multiplicar la frecuencia,

445
00:37:10,019 --> 00:37:16,300
en este caso el 9, por el cuadrado del valor del dato que estaba mirando, por el cuadrado de 25.

446
00:37:16,699 --> 00:37:23,960
Pues 9 por 25, o digo, perdón, por el cuadrado de 5, perdón, que se me ha ido la pinta.

447
00:37:24,719 --> 00:37:28,239
5 al cuadrado, 25 por 9, 225.

448
00:37:28,320 --> 00:37:28,940
Voy al siguiente.

449
00:37:29,519 --> 00:37:32,079
10 al cuadrado, 100 por 2, 200.

450
00:37:32,239 --> 00:37:32,940
Voy al siguiente.

451
00:37:33,559 --> 00:37:37,679
15 al cuadrado, 225 por 3, 675.

452
00:37:38,579 --> 00:37:41,860
20 al cuadrado, 400 por 5, 2000.

453
00:37:42,380 --> 00:37:43,940
25 al cuadrado, pum, pum, pum.

454
00:37:43,940 --> 00:37:54,099
Voy haciendo por filas la cuenta esta de multiplicar frecuencia por cuadrado del valor de mi variable.

455
00:37:54,960 --> 00:38:02,739
Cuando tengo toda la columna hecha, sumo todos los resultados, que me dan en este caso 12.325,

456
00:38:03,739 --> 00:38:09,519
y me acuerdo que ese 12.325, como estoy usando esta segunda fórmula,

457
00:38:10,019 --> 00:38:12,500
lo tengo que dividir entre el número total de datos que tenía.

458
00:38:12,500 --> 00:38:16,380
pero el número total de datos lo tenía aquí como suma de las frecuencias absolutas

459
00:38:16,380 --> 00:38:19,280
o sea, 32 datos que ya lo vimos hacia arriba

460
00:38:19,280 --> 00:38:22,639
entonces digo, 1.012.325

461
00:38:22,639 --> 00:38:23,960
dividido entre 32

462
00:38:23,960 --> 00:38:28,679
menos, ¿cuánto era la media?

463
00:38:29,340 --> 00:38:30,059
no anda leches

464
00:38:30,059 --> 00:38:33,659
me hace falta la media para la fórmula y no la he calculado

465
00:38:33,659 --> 00:38:37,260
¿cómo se calculaba la media? pues si os acordáis

466
00:38:37,260 --> 00:38:40,219
la media la calculamos diciendo

467
00:38:40,219 --> 00:38:44,760
que mi media aritmética era la suma de

468
00:38:44,760 --> 00:38:49,079
las frecuencias por cada uno de los datos

469
00:38:49,079 --> 00:38:52,159
y dividido entre el total de datos

470
00:38:52,159 --> 00:38:56,619
o sea que lo que hago es esta columna para ayudarme, digo 5 por 9

471
00:38:56,619 --> 00:39:00,360
45, 10 por 2, 20, 15 por 3

472
00:39:00,360 --> 00:39:03,280
45, 20 por 5, 100, pa pa pa pa pa pa

473
00:39:03,280 --> 00:39:07,840
y la suma de todos, este 555

474
00:39:07,840 --> 00:39:12,420
sería esta parte del numerador, ¿qué hago con ese numerador?

475
00:39:12,639 --> 00:39:15,920
dividirlo entre 32 que era el número total de datos, pues

476
00:39:15,920 --> 00:39:20,300
555 dividido entre 32 me da que la media es 17

477
00:39:20,300 --> 00:39:23,860
con 34, pero bueno, pues si a ese

478
00:39:23,860 --> 00:39:28,199
12.325 dividido entre 32 le resto

479
00:39:28,199 --> 00:39:32,440
el cuadrado de ese 17 con 34, me estaría

480
00:39:32,440 --> 00:39:36,440
dando el valor de la varianza, pero no me pedían el valor de la varianza

481
00:39:36,440 --> 00:39:39,159
me pedían la desviación típica, no hay ningún problema

482
00:39:39,159 --> 00:39:41,940
pues al resultado de ese valor de la varianza

483
00:39:41,940 --> 00:39:45,400
le hago la raíz cuadrada y me sale la desviación

484
00:39:45,400 --> 00:39:48,119
típica que quería, 9 con 18

485
00:39:48,119 --> 00:39:51,340
y me dicen para rematar, bueno pero ese

486
00:39:51,340 --> 00:39:54,699
9 con 18, si le quisiese

487
00:39:54,699 --> 00:39:57,019
comparar con otro estudio estadístico

488
00:39:57,019 --> 00:40:00,699
de otra variable distinta, no puedo porque va a depender

489
00:40:00,699 --> 00:40:03,480
de las unidades de medida que tuviese la variable

490
00:40:03,480 --> 00:40:07,320
que estaba estudiando, bueno, pues vamos a pasar coeficiente de variación

491
00:40:07,320 --> 00:40:10,559
digo, ¿cómo se calculaba el coeficiente de variación?

492
00:40:11,079 --> 00:40:15,039
pues el coeficiente de variación dijimos que era coger

493
00:40:15,039 --> 00:40:19,559
esa desviación típica y dividirlo entre la media aritmética

494
00:40:19,559 --> 00:40:23,199
pues cojo ese 9,18 y lo divido entre el

495
00:40:23,199 --> 00:40:27,880
17,34 que es la media aritmética y me dará

496
00:40:27,880 --> 00:40:30,679
pues una fracción que yo la puedo poner en decimal

497
00:40:30,679 --> 00:40:32,840
dejarlo como fracción o

498
00:40:32,840 --> 00:40:35,920
si lo quiero pasar a porcentaje

499
00:40:35,920 --> 00:40:38,079
el resultado de esta división

500
00:40:38,079 --> 00:40:40,800
lo único que tengo que pasarle es multiplicarle por 100

501
00:40:40,800 --> 00:40:42,699
y me sale

502
00:40:42,699 --> 00:40:45,760
transformo ese número decimal

503
00:40:45,760 --> 00:40:46,940
del resultado de la división

504
00:40:46,940 --> 00:40:49,280
en un porcentaje, en un tanto por ciento

505
00:40:49,280 --> 00:40:52,679
me estaría diciendo que el coeficiente de variación aquí

506
00:40:52,679 --> 00:40:54,699
es de un 52%

507
00:40:54,699 --> 00:40:58,679
que el 52% de la gente está separado de la media

508
00:40:58,679 --> 00:41:27,079
Entonces, si yo quiero interpretar si esta estadística está representando a datos muy dispersos o a datos muy concentrados, al ver que me salió un coeficiente de variación tan alto, que hay tanta gente que está lejos de la media, digo, uy, pues es que el estudio este que he hecho ha sido sobre una población tan sumamente heterogénea que aquí ha opinado la gente de forma muy, muy diversa.

509
00:41:27,079 --> 00:41:42,360
No es una buena población si yo quiero sacar conclusiones de ella y hacer cosas con esas conclusiones porque son datos muy heterogéneos, ¿vale? Son datos muy dispersos.

510
00:41:42,360 --> 00:41:47,139
bueno, y diréis, bueno, pero es que nos hemos dejado cosas sin hacer

511
00:41:47,139 --> 00:41:50,340
pues ya que hemos visto esta última parte, que era la difícil

512
00:41:50,340 --> 00:41:54,599
más despacito, vamos a hacer esas medidas de centralización

513
00:41:54,599 --> 00:41:58,800
que nos faltaban, y entre esas medidas de centralización

514
00:41:58,800 --> 00:42:02,480
teníamos que calcular la media aritmética

515
00:42:02,480 --> 00:42:05,340
que la tenemos, o sea que sé que la media aritmética

516
00:42:05,340 --> 00:42:09,780
nos salió 17,34, la tengo

517
00:42:09,780 --> 00:42:12,280
tengo que calcular la mediana

518
00:42:12,280 --> 00:42:15,679
y dijimos, la mediana era buscar

519
00:42:15,679 --> 00:42:19,119
qué dato es el que ocupa la posición central

520
00:42:19,119 --> 00:42:21,760
y os dije, solo es contar

521
00:42:21,760 --> 00:42:24,500
veo que tengo 32 datos en total

522
00:42:24,500 --> 00:42:27,179
entonces el dato que ocupe la posición central

523
00:42:27,179 --> 00:42:29,099
estará en la posición 16,5

524
00:42:29,099 --> 00:42:33,039
para dejarme 16 por abajo y 16 por arriba

525
00:42:33,039 --> 00:42:35,820
y bueno, pues vamos a ver, a contar

526
00:42:35,820 --> 00:42:38,579
los 5 primeros datos son 5

527
00:42:38,579 --> 00:42:42,619
los dos siguientes, 10, ya llevo 11 datos

528
00:42:42,619 --> 00:42:47,719
los tres siguientes son 15, 11 y 3, 14 datos

529
00:42:47,719 --> 00:42:50,079
y ahora los cinco siguientes son 20

530
00:42:50,079 --> 00:42:55,119
que con eso ya llegaría hasta la posición 19

531
00:42:55,119 --> 00:42:57,340
pero es que yo quería la posición 16

532
00:42:57,340 --> 00:43:03,780
¿quién va a ver en esa posición 16 si yo lo he puesto ordenados uno por uno?

533
00:43:03,780 --> 00:43:05,500
pues lo que va a ver es un 20

534
00:43:05,500 --> 00:43:33,059
Entonces, uno de esos 20 son los que me dejan 16 datos por debajo y 16 datos por encima. Vale, si sé la mediana, sé que cuando vaya a buscar los cuartiles, el cuartil 2, que era justo el que me dejaba el 50% de los datos por encima y el 50% de los datos por debajo, va a ser el mismo que la mediana, ¿vale?

535
00:43:33,059 --> 00:43:46,139
Porque acordaos que dijimos que los cuartiles eran dividir en cuatro partes iguales mi distribución de datos.

536
00:43:49,219 --> 00:43:59,440
Entonces, el cuartil 2, hemos dicho que es como la mediana, deja el 50% de datos por debajo y el otro 50% por arriba.

537
00:43:59,440 --> 00:44:03,019
el cuartil 1 lo que me hace es dejarme

538
00:44:03,019 --> 00:44:06,019
el 25% de los datos por debajo

539
00:44:06,019 --> 00:44:08,619
o sea, la cuarta parte, pues voy a ver

540
00:44:08,619 --> 00:44:12,000
¿quién sería la cuarta parte de 32? 8

541
00:44:12,000 --> 00:44:15,780
¿qué dato estaría en esa posición 8?

542
00:44:16,119 --> 00:44:19,159
bueno, me vuelvo otra vez a mi tabla de frecuencias

543
00:44:19,159 --> 00:44:21,920
digo, los primeros 9 datos son 5

544
00:44:21,920 --> 00:44:25,119
hombre, pues yo no quiero los primeros 9, quiero los primeros

545
00:44:25,119 --> 00:44:27,159
quiero saber la posición 8

546
00:44:27,159 --> 00:44:46,900
Pues ¿quién va a ver en la posición 8? Uno de esos 5. Pues el cuartil 1 es un 5. Si hago lo mismo mirando por detrás, digo, quiero ver quién está en la posición 8, pero contando de adelante hacia atrás.

547
00:44:46,900 --> 00:44:49,900
digo, los primeros cuatro datos son treintas

548
00:44:49,900 --> 00:44:52,559
y los siguientes nueve datos son veinticinco

549
00:44:52,559 --> 00:44:55,639
o sea que el cuarto dato

550
00:44:55,639 --> 00:44:58,280
que yo tengo que sumar a esto para llegar a la posición ocho

551
00:44:58,280 --> 00:45:01,900
por detrás, ¿qué va a ser? un veinticinco

552
00:45:01,900 --> 00:45:05,219
pues el cuartil tres que me dejaba

553
00:45:05,219 --> 00:45:07,579
veinticinco por ciento

554
00:45:07,579 --> 00:45:10,880
por encima y setenta y cinco por ciento por debajo

555
00:45:10,880 --> 00:45:12,739
pues resulta que es

556
00:45:12,739 --> 00:45:15,280
uno de esos veinticinco

557
00:45:15,280 --> 00:45:18,659
¿vale? pues ya tengo

558
00:45:18,659 --> 00:45:21,679
todos mis parámetros de centralización

559
00:45:21,679 --> 00:45:26,340
media, mediana, cuartiles

560
00:45:26,340 --> 00:45:30,639
a falta de la moda, solo me falta calcular

561
00:45:30,639 --> 00:45:34,539
quién es la moda, la moda era el dato que más se repetía

562
00:45:34,539 --> 00:45:39,000
y el dato que más se repite es el que tenga la frecuencia absoluta más alta

563
00:45:39,000 --> 00:45:42,920
pues vengo otra vez a mi tabla y digo, bueno, las frecuencias absolutas

564
00:45:42,920 --> 00:45:51,800
más altas son el C9 y S9. ¿Quiénes tienen esa frecuencia? Pues los 5 y los 25. Pues

565
00:45:51,800 --> 00:46:00,119
la moda en este caso es 5 y 25. Hay dos datos que se repiten mucho más que los demás.

566
00:46:00,820 --> 00:46:10,139
Pues ya tengo todos mis parámetros de centralización, media, mediana, moda y cuartiles y los de

567
00:46:10,139 --> 00:46:12,920
dispersión, coeficiente de variación,

568
00:46:13,800 --> 00:46:15,900
varianza y desviación típica.

569
00:46:16,820 --> 00:46:19,739
Solo me faltaría el dato del rango,

570
00:46:20,860 --> 00:46:24,079
¿cuánto es el rango de mi distribución?

571
00:46:24,260 --> 00:46:27,139
Pues acordaos que el rango era la diferencia que había

572
00:46:27,139 --> 00:46:30,079
entre el valor más alto y el valor más bajo.

573
00:46:30,559 --> 00:46:33,159
Era la longitud que tenía mi distribución,

574
00:46:33,159 --> 00:46:36,099
pues el rango en este caso es 25,

575
00:46:36,280 --> 00:46:39,019
porque me he movido desde el 5 hasta el 30.

576
00:46:39,019 --> 00:46:43,719
y ya tenemos todos los parámetros que hemos estudiado hoy

577
00:46:43,719 --> 00:46:45,579
hechos en este ejemplo

578
00:46:45,579 --> 00:46:49,320
espero que os hayáis entendido más o menos bien

579
00:46:49,320 --> 00:46:51,739
con el resto de ejemplos que tengáis resueltos

580
00:46:51,739 --> 00:46:55,239
y los ejercicios que hagáis pues que os salga más o menos esto bien

581
00:46:55,239 --> 00:46:56,920
son muy pesadas las cuentas

582
00:46:56,920 --> 00:46:59,619
hay que repetir muchas veces la misma cuenta

583
00:46:59,619 --> 00:47:03,619
pero eso, por otro lado tengo la ventaja de que es siempre la misma cuenta

584
00:47:03,619 --> 00:47:05,679
entonces si me prendo las formulitas

585
00:47:05,679 --> 00:47:11,079
solo es tener paciencia para hacerme las tablitas despacio y con cuidado

586
00:47:11,079 --> 00:47:16,059
para que no me equivoque en ninguno de los cálculos y me cargue todas las cuentas, ¿vale?

587
00:47:16,719 --> 00:47:22,599
Bueno, pues lo dejamos aquí y habríamos terminado este tema de estadística, ¿vale?

588
00:47:23,320 --> 00:47:24,579
Que tengáis buena tarde.

589
00:47:25,400 --> 00:47:27,900
Si hay alguna duda, pues me contáis al próximo día, ¿vale?

590
00:47:28,519 --> 00:47:29,340
Venga, buena tarde.