1
00:00:01,710 --> 00:00:08,250
Bueno, pues vamos a hacer este ejercicio típico de elaboración y ordenación de datos, ¿vale?

2
00:00:08,589 --> 00:00:15,529
Elaboración de tablas de frecuencias y ordenación de datos, así como también identificar valores atípicos por el método de Takei.

3
00:00:16,870 --> 00:00:24,609
En este ejercicio, pues nos dicen que en un laboratorio de microbiología clínica se está estudiando el crecimiento bacteriano de un cultivo

4
00:00:24,609 --> 00:00:27,390
mediante la cuantificación de colonias bacterianas

5
00:00:27,390 --> 00:00:29,269
medidas en esta unidad,

6
00:00:29,649 --> 00:00:31,070
en unidades formadoras de colonias,

7
00:00:31,250 --> 00:00:32,789
por mililitro por 10 elevado a 3.

8
00:00:32,909 --> 00:00:33,590
Eso nos da igual.

9
00:00:34,490 --> 00:00:37,549
Obtenidas tras la incubación de 20 muestras de pacientes,

10
00:00:37,770 --> 00:00:39,210
todas ellas independientes, claro.

11
00:00:39,990 --> 00:00:42,570
Los resultados obtenidos fueron los que aparecen aquí, ¿vale?

12
00:00:42,810 --> 00:00:45,149
Yo estos resultados os los daría desordenados.

13
00:00:45,149 --> 00:00:47,170
Y vosotros los tendríais que ordenar, pues,

14
00:00:48,090 --> 00:00:50,070
de menor a mayor, ¿no?

15
00:00:50,409 --> 00:00:52,229
Para poder hacer los pasos siguientes.

16
00:00:52,409 --> 00:00:54,350
Yo ya los tengo ordenados para ahorrar tiempo.

17
00:00:54,609 --> 00:01:14,950
Entonces nos dan todos estos resultados. Hay que contarlos y sacamos que la N es de 20, ¿vale? Obviamente 20 muestras, una por paciente. Entonces organizar los datos determinando el número de clases y elaborar la tabla de frecuencias correspondiente.

18
00:01:14,950 --> 00:01:40,909
Bueno, pues lo primero de todo, por lo tanto, será determinar el número de clases que tendríamos que generar para este conjunto de datos. Tenemos que el conjunto de datos son 20, por lo tanto, el número de clases, la n minúscula, va a ser igual a 1 más 3,322 por el logaritmo de 20.

19
00:01:40,909 --> 00:01:57,269
Y eso nos sale en torno a 5, ¿vale? 5 con 30 y algo. Redondeamos a la baja, así que nos sale 5. Pues van a salir 5 clases, es decir, 5 intervalos, ¿vale?

20
00:01:57,450 --> 00:02:04,769
Que tendremos que ir organizando en la tabla de frecuencias. ¿Cómo vamos a establecer los rangos de estos intervalos?

21
00:02:04,769 --> 00:02:25,729
Bueno, pues lo primero que hay que hacer es, como bien hemos dicho, ver cuál es el rango de esta serie de datos, que es coger el valor más grande que aparece en nuestra distribución y el valor más chiquitito y restarlo, es decir, 95 menos 42.

22
00:02:25,729 --> 00:02:42,879
Nos da 53, ese es el rango. Y ahora tenemos que calcular la amplitud del intervalo que vamos a hallar, que es simplemente dividir el rango entre el número de clases, 53 entre 5.

23
00:02:42,879 --> 00:02:55,900
Y eso da 10,6. 10,6. Esa es la amplitud, ¿vale? Entonces, ahora, para construir cada uno de los intervalos, vamos a empezar con el primer intervalo.

24
00:02:56,639 --> 00:03:07,180
El primer intervalo será construirlo utilizando el valor más pequeño de todos, que es el de 42, ¿vale? Utilizaremos 42.

25
00:03:07,180 --> 00:03:33,500
Y como valor superior será 42 más la amplitud, es decir, más 10,6. Y cerramos con un paréntesis abierto. Esto al final, ¿qué nos va a salir? Pues del 42 hasta el 52,6.

26
00:03:33,500 --> 00:03:46,080
hasta 52,6. Este será el primer intervalo. El siguiente intervalo lo tendremos que construir poniendo como primer número que entra en este intervalo el anterior, ¿vale?

27
00:03:46,180 --> 00:04:01,259
El final del anterior, 52,6. Entonces ahora lo que tenemos que hacer es a 52,6 sumarle de nuevo nuestra amplitud, los 10,6 y nos sale 63,2.

28
00:04:01,259 --> 00:04:29,040
Ya tenemos establecido el segundo intervalo. Venga, tercero será del 63,2 hasta el 73,8. Luego después del 73,8 hasta el 84,4.

29
00:04:29,040 --> 00:04:44,259
Y finalmente del 84,4 lo podéis comprobar, pero si lo hacéis veréis que el último valor va a ser sí o sí 95, también cerrado, para incluirlo dentro de nuestros datos, ¿no?

30
00:04:44,259 --> 00:05:04,600
Bueno, y con esto ya podemos construir nuestra tablita de frecuencias. Recordad que la tablita de frecuencias es una tabla tal que así, ¿no? Tenemos que poner una fila por cada clase, por cada intervalo de nuestra distribución de datos, ¿vale?

31
00:05:04,600 --> 00:05:36,360
Y luego por cada columna tendremos que ir posicionando las frecuencias. No os olvidéis aquí de poner siempre el total. Entonces, lo primero de todo será la frecuencia absoluta, luego tendríamos que posicionar la frecuencia relativa y ya finalmente el porcentaje, ¿vale?

32
00:05:36,360 --> 00:05:56,439
Entonces, ¿cómo hacemos esto? Pues la frecuencia absoluta es el número de muestras que caen en nuestro intervalo. Vamos con el primer intervalo que va desde 42 hasta 52,6 y nos vamos aquí arriba a nuestras muestras y vamos contando cuántas de ellas entran dentro de ese intervalo.

33
00:05:56,439 --> 00:06:14,560
Que si nos fijamos son desde la 42 hasta la 51, que hay 1, 2, 3, 4, 5 y 6. O sea que aquí tendríamos una frecuencia absoluta de 6. 6 muestras entran dentro del primer intervalo.

34
00:06:14,560 --> 00:06:30,699
Dentro del segundo intervalo van a entrar desde la muestra 53 hasta la 63. Es decir, 1, 2, 3, 4, 5, 6, 7, 8 y 9 datos.

35
00:06:30,699 --> 00:06:46,379
Luego, desde la 63,2 a la 73,8 entran desde el 64 hasta el 72. Fijaos que vamos a tener intervalos de 0, ¿vale? Esto no pasa absolutamente nada.

36
00:06:47,220 --> 00:06:56,620
Entonces, aquí tendríamos 4. Aquí tendríamos de repente 0, ¿vale? Porque en el intervalo de 73,8 a 84,4 no hay ningún dato.

37
00:06:56,620 --> 00:07:11,920
Pero del 84,4 al 95 hay 1. Esto ya nos debería dar una idea de lo que está pasando aquí. Pero bueno, sumamos todo esto para comprobar que efectivamente da 20, que es el número de muestras,

38
00:07:11,920 --> 00:07:27,160
Y luego la frecuencia relativa, que la calculamos dividiendo la frecuencia absoluta entre el total. Aquí será 0,3. En porcentaje, pues es eso por 100, o sea, es el 30%, ¿vale?

39
00:07:27,160 --> 00:07:51,300
El 30% de nuestros datos están en el primer intervalo. Están todos metidos dentro del primer intervalo. Luego, hacemos lo mismo con el 9. Esto da 0,45. Es decir, que el 45% de los datos está en el segundo intervalo.

40
00:07:53,339 --> 00:08:19,019
Hacemos lo mismo con el siguiente, que nos sale 0,2, aquí ya vamos perdiendo, aquí directamente tenemos 0 y un 0%, en el cuarto intervalo no hay absolutamente ningún dato, no pasa nada, y en el último intervalo hay solo 1, o sea que tenemos un 0,05, es decir, un 5% de representatividad de este último dato en el último intervalo.

41
00:08:19,019 --> 00:08:38,100
Esto ya a priori, si sumamos esto nos da 1 y aquí nos daría 100%. A priori nos tiene que hacer darnos cuenta que muy probablemente este datito de aquí sea un outlier o un dato atípico, un valor atípico.

42
00:08:38,100 --> 00:08:44,299
sobre todo cuando hay una clase entre medias que da directamente 0

43
00:08:44,299 --> 00:08:49,259
o sea que no tenemos ningún valor y que todos más o menos se acumulan en torno a estos primeros

44
00:08:49,259 --> 00:08:53,820
si esto lo representásemos en un gráfico de histograma

45
00:08:53,820 --> 00:08:58,580
si esto lo representásemos en un histograma con cada una de las clases aquí

46
00:08:58,580 --> 00:09:06,639
podemos poner clase 1, clase 2, clase 3, clase 4 y la última clase que sería la clase 5

47
00:09:06,639 --> 00:09:23,700
Bueno, pues sería algo parecido a esto. Tendríamos que más o menos un 30% entrarían en el grupo 1, un 45% entraría en la clase 2, un 20% entraría en la clase 3.

48
00:09:23,700 --> 00:09:40,559
La clase 4 no tendría absolutamente nada y la clase 5 tendría solamente un datito, ¿vale? Veis que todo está más o menos distribuido aquí. Aquí no hay nada y aquí de repente hay un caso pequeñito, ¿vale?

49
00:09:40,559 --> 00:10:00,000
Bueno, pues entonces lo que tenemos que hacer a continuación es justamente identificar esos valores atípicos mediante ya un método más robusto, mediante un método que sea más objetivo, que es el método de Takei por los cuartiles, ¿vale?

50
00:10:00,000 --> 00:10:12,620
Entonces, en el segundo apartado de este ejercicio, simplemente por el método de Takei, que se basa en evaluar cuál es mi cuartil 1, mi cuartil 2 y mi cuartil 3,

51
00:10:12,620 --> 00:10:33,519
Y luego establecer cuál es el rango intercuartílico para finalmente establecer los límites inferior y el límite superior, ¿vale? De lo que consideramos datos típicos, ¿vale?

52
00:10:33,519 --> 00:10:41,519
Entonces, lo primero de todo es cómo sacamos cuál es la posición de estos cuartiles.

53
00:10:41,799 --> 00:11:02,460
Recordad que el cuartil 1, la fórmula general del cuartil, la fórmula general para evaluar el cuartil i, el que sea, va a ser multiplicar i por n, es decir, el tamaño de muestra, entre 4 cuartil cuartos.

54
00:11:02,460 --> 00:11:16,000
De aquí podemos sacar, por lo tanto, que el primer cuartil, esto nos da la posición, ojo, no nos da el valor, será 1 por 20 entre 4, pues 20 entre 4, 5.

55
00:11:16,000 --> 00:11:36,740
O sea, que tenemos que buscar en nuestros datos ordenados la quinta posición. Esta es la posición 1, 2, 3, 4 y 5, ¿vale? Pues la rodeamos. El 50, por lo tanto, es el dato asociado al cuartil 1, ¿vale?

56
00:11:36,740 --> 00:11:57,039
50 unidades formadoras de colonia por mililitro por 10 elevado a 3. Bueno, este sería el cuartil 1. Fijaos que es el dato, la posición que acumula el 25%, el 25% de los datos de esta distribución.

57
00:11:57,039 --> 00:12:16,639
Vamos con el cuartil 2, que el cuartil 2, recordad que es igual siempre a la mediana. En este caso, como son 20 datos número par, la mediana se calcula cogiendo la posición intermedia, ¿no?

58
00:12:17,580 --> 00:12:30,740
Digamos que haciendo la misma formulita, tú haces 2 por 20 entre 4, esto nos da 10, ¿no? La posición 10. Pero no va a ser la posición 10, va a ser la posición 10 con 5, ¿vale?

59
00:12:30,740 --> 00:12:39,240
¿Cuál es la posición 10 con 5? Bueno, pues si nos vamos aquí, tendríamos 5, ¿no? 6, 7, 8, 9 y 10.

60
00:12:39,980 --> 00:12:48,460
El siguiente valor es la posición 11, pues tenemos que encontrar la posición justo entre medias del 10 y el 11, que es la posición 10 con 5.

61
00:12:48,460 --> 00:13:17,100
Que es coger y realizar la media aritmética de estas dos posiciones, de la posición 10 y la posición 11. 56 más 57 entre 2, 56,5, ¿vale? Por lo tanto, la posición, ¿vale? El valor asociado a la posición del cuartil 2 es de 56,5 unidades formadoras de colonia por mililitro por 10 elevado a 3.

62
00:13:17,100 --> 00:13:28,070
Esta es la posición que acumula el 75% de los valores de esta distribución.

63
00:13:28,070 --> 00:13:56,019
Y finalmente, ya terminamos por calcular nuestro tercer cuartil. 3 por 20 entre 4 sale 15. La posición decimoquinta, nos vamos allí, la buscamos, hemos dicho 11, 12, 13, 14, mirad, y aquí la tenemos.

64
00:13:56,019 --> 00:14:18,450
La decimoquinta es la 63, que se corresponde al cuartil 3, es decir, el dato que acumula la posición. Ahí lo he hecho mal, chicos. La mediana acumula el 50%, ¿no? Mientras que el cuartil 3 acumula el 75%, ¿vale?

65
00:14:18,450 --> 00:14:29,649
No se pone el cuartil 4 porque el cuartil 4 ya sería el último dato de nuestra distribución, que es el que acumula el 100% al final de los datos de nuestra distribución.

66
00:14:31,590 --> 00:14:46,230
Entonces el cuartil 3 nos sale que es 63 unidades formadoras de colonia por mililitro por 10 elevado a 3.

67
00:14:46,230 --> 00:15:03,230
Ya tenemos todos los datos necesarios para calcular cuánto vale el rango intercuartílico, que es coger el mayor cuartil del cuartil 3 y restarle el cuartil 1.

68
00:15:03,230 --> 00:15:17,950
El dato del cuartil 3 salía 63 y a este le restamos 50. Pues 63 menos 50 sale 13. O sea, el rango intercuartílico tiene que valer 13.

69
00:15:17,950 --> 00:15:28,090
recordad que ahora el límite inferior del intervalo digamos de valores típicos de esta distribución

70
00:15:28,090 --> 00:15:38,330
se calcula cogiendo el cuartil 1 al que le vamos a restar 1,5 veces ese rango intercuartílico

71
00:15:38,330 --> 00:15:46,950
es decir el valor de 50 unidades formadoras de colonias menos 1,5 por 13

72
00:15:46,950 --> 00:16:02,110
Y esto sale 50 menos 1,5 por 13 nos sale 30 con 5 unidades formadoras de colonia por mililitro por 10 elevado a 3. Este sería el límite inferior.

73
00:16:02,110 --> 00:16:29,580
Y el límite superior sería coger el cuartil 3 y sumarle 1,5 veces el rango intercuartílico. 63 más 1,5 veces 13. Y esto nos sale 82,5 unidades formadoras de colonia por mililitro por 10 elevado a 3.

74
00:16:29,580 --> 00:16:47,679
Entonces al final nuestro intervalo que podemos asumir como valores típicos de esta distribución sería el intervalo de muestras que den de 30,5 a 82,5.

75
00:16:47,679 --> 00:17:10,519
Todo lo que esté por fuera de este intervalo, en principio y según los datos, el método de Takei, se considerarán outliers. Esto será out y out. Valores menores a 30,5 y superiores a 82,5 se considerarán valores atípicos.

76
00:17:10,519 --> 00:17:21,900
por esta misma razón el último valor de todos ahora es cuando ya sí que observamos nuestros datos y vemos el valor más pequeño de todos que es 42 está dentro de la distribución

77
00:17:21,900 --> 00:17:40,400
así que no se consideraría un outlier y observamos que tenemos el 95 aquí que es claramente superior al límite superior que es 82,5 o sea que 95 sería un outlier

78
00:17:40,400 --> 00:17:59,700
¿Esto qué significa? Pues significa que puede que en este caso esta persona, por el tipo de variable que es simplemente cuantificar cuántas bacterias le salen a esa persona, pues por probabilidad a lo mejor esa persona tiene más cantidad de bacterias que el resto porque está más infectada, por ejemplo.

79
00:17:59,700 --> 00:18:14,119
La otra sería algún error puntual, aleatorio, a la hora de medir estas colonias. Serían errores aleatorios los que causan este tipo de outliers.

80
00:18:14,119 --> 00:18:18,559
bueno pues ya estaría hecho entonces este ejercicio

81
00:18:18,559 --> 00:18:19,539
este tipo de ejercicio

82
00:18:19,539 --> 00:18:23,859
podemos incluso generar lo que se llama el boxplot

83
00:18:23,859 --> 00:18:31,269
o el gráfico de cajas y bigotes

84
00:18:31,269 --> 00:18:33,130
que es bastante sencillo

85
00:18:33,130 --> 00:18:35,849
es simplemente coger un cuadrado

86
00:18:35,849 --> 00:18:40,430
este cuadrado simula los datos que están contenidos

87
00:18:40,430 --> 00:18:45,390
entre el cuartil 1 y el cuartil 3

88
00:18:45,390 --> 00:19:00,049
¿Vale? Entre el cuartil 1 y el cuartil 3. Luego se coloca una línea entre medias, que es una línea que va a simular cuántos datos hay de nuestra distribución

89
00:19:00,049 --> 00:19:09,329
que están por encima y por debajo dentro del rango intercuartílico. ¿Vale? Ponemos aquí esto y más o menos aquí esto.

90
00:19:09,329 --> 00:19:30,950
Y luego, una línea entre los dos cuartiles, la línea media justo, que se correspondería con la mediana, ¿no? Con el cuartil 2. ¿Ok? Entonces, recordad que el cuartil 3, la posición del cuartil 3, nos daba un valor de 63.

91
00:19:30,950 --> 00:19:54,660
Este serían 63 unidades formadoras de colonia. La mediana eran 56,5 y el cuartil 1 era de 50. El valor inferior que está dentro del rango intercuartílico de aquí arriba es 42.

92
00:19:54,660 --> 00:20:13,119
Y el último dato que está dentro del rango intercuartílico, si nos fijamos en nuestros datos, es el 72, ¿vale? O sea que aquí estaría representado el 72. Y los outliers se ponen como puntitos, puntitos fuera de ese rango.

93
00:20:13,119 --> 00:20:35,400
Este sería el puntito del outlier correspondiente con la medida de 95 unidades formadoras de colonias. Y así tenemos nuestro boxplot ya realizado. Los ejes, pues es simplemente en el eje X, digamos, que solamente se pone la clase, o sea, el tipo de variable.

94
00:20:35,400 --> 00:20:40,640
En este caso, pues, estamos midiendo unidades, o sea, las 20 muestras, ¿no?

95
00:20:40,839 --> 00:20:47,160
Estaríamos midiendo, pues, las 20 muestras, ¿vale?

96
00:20:47,160 --> 00:21:00,079
Y en el eje Y, pues, ponemos nuestra variable, que son unidades formadoras de colonia por mililitro por 10 elevado a 3, ¿vale?

97
00:21:02,569 --> 00:21:10,710
Fijaos que esto salía 95, más o menos esto salía 72, esta posición se quedaría en 63.

98
00:21:11,509 --> 00:21:16,750
ésta sería la mediana 56,5 y ésta aproximadamente los 50

99
00:21:16,750 --> 00:21:19,170
y ésta finalmente los 42

100
00:21:19,170 --> 00:21:22,250
si hubiese algún valor, algún outlier por debajo

101
00:21:22,250 --> 00:21:24,069
de esta distribución

102
00:21:24,069 --> 00:21:33,299
por ejemplo un 20, pues el 20 se colocaría por aquí

103
00:21:33,299 --> 00:21:35,420
pues ya está

104
00:21:35,420 --> 00:21:37,200
es una forma visual

105
00:21:37,200 --> 00:21:42,599
de observar los outliers mediante este método de Takei