1 00:00:01,710 --> 00:00:08,250 Bueno, pues vamos a hacer este ejercicio típico de elaboración y ordenación de datos, ¿vale? 2 00:00:08,589 --> 00:00:15,529 Elaboración de tablas de frecuencias y ordenación de datos, así como también identificar valores atípicos por el método de Takei. 3 00:00:16,870 --> 00:00:24,609 En este ejercicio, pues nos dicen que en un laboratorio de microbiología clínica se está estudiando el crecimiento bacteriano de un cultivo 4 00:00:24,609 --> 00:00:27,390 mediante la cuantificación de colonias bacterianas 5 00:00:27,390 --> 00:00:29,269 medidas en esta unidad, 6 00:00:29,649 --> 00:00:31,070 en unidades formadoras de colonias, 7 00:00:31,250 --> 00:00:32,789 por mililitro por 10 elevado a 3. 8 00:00:32,909 --> 00:00:33,590 Eso nos da igual. 9 00:00:34,490 --> 00:00:37,549 Obtenidas tras la incubación de 20 muestras de pacientes, 10 00:00:37,770 --> 00:00:39,210 todas ellas independientes, claro. 11 00:00:39,990 --> 00:00:42,570 Los resultados obtenidos fueron los que aparecen aquí, ¿vale? 12 00:00:42,810 --> 00:00:45,149 Yo estos resultados os los daría desordenados. 13 00:00:45,149 --> 00:00:47,170 Y vosotros los tendríais que ordenar, pues, 14 00:00:48,090 --> 00:00:50,070 de menor a mayor, ¿no? 15 00:00:50,409 --> 00:00:52,229 Para poder hacer los pasos siguientes. 16 00:00:52,409 --> 00:00:54,350 Yo ya los tengo ordenados para ahorrar tiempo. 17 00:00:54,609 --> 00:01:14,950 Entonces nos dan todos estos resultados. Hay que contarlos y sacamos que la N es de 20, ¿vale? Obviamente 20 muestras, una por paciente. Entonces organizar los datos determinando el número de clases y elaborar la tabla de frecuencias correspondiente. 18 00:01:14,950 --> 00:01:40,909 Bueno, pues lo primero de todo, por lo tanto, será determinar el número de clases que tendríamos que generar para este conjunto de datos. Tenemos que el conjunto de datos son 20, por lo tanto, el número de clases, la n minúscula, va a ser igual a 1 más 3,322 por el logaritmo de 20. 19 00:01:40,909 --> 00:01:57,269 Y eso nos sale en torno a 5, ¿vale? 5 con 30 y algo. Redondeamos a la baja, así que nos sale 5. Pues van a salir 5 clases, es decir, 5 intervalos, ¿vale? 20 00:01:57,450 --> 00:02:04,769 Que tendremos que ir organizando en la tabla de frecuencias. ¿Cómo vamos a establecer los rangos de estos intervalos? 21 00:02:04,769 --> 00:02:25,729 Bueno, pues lo primero que hay que hacer es, como bien hemos dicho, ver cuál es el rango de esta serie de datos, que es coger el valor más grande que aparece en nuestra distribución y el valor más chiquitito y restarlo, es decir, 95 menos 42. 22 00:02:25,729 --> 00:02:42,879 Nos da 53, ese es el rango. Y ahora tenemos que calcular la amplitud del intervalo que vamos a hallar, que es simplemente dividir el rango entre el número de clases, 53 entre 5. 23 00:02:42,879 --> 00:02:55,900 Y eso da 10,6. 10,6. Esa es la amplitud, ¿vale? Entonces, ahora, para construir cada uno de los intervalos, vamos a empezar con el primer intervalo. 24 00:02:56,639 --> 00:03:07,180 El primer intervalo será construirlo utilizando el valor más pequeño de todos, que es el de 42, ¿vale? Utilizaremos 42. 25 00:03:07,180 --> 00:03:33,500 Y como valor superior será 42 más la amplitud, es decir, más 10,6. Y cerramos con un paréntesis abierto. Esto al final, ¿qué nos va a salir? Pues del 42 hasta el 52,6. 26 00:03:33,500 --> 00:03:46,080 hasta 52,6. Este será el primer intervalo. El siguiente intervalo lo tendremos que construir poniendo como primer número que entra en este intervalo el anterior, ¿vale? 27 00:03:46,180 --> 00:04:01,259 El final del anterior, 52,6. Entonces ahora lo que tenemos que hacer es a 52,6 sumarle de nuevo nuestra amplitud, los 10,6 y nos sale 63,2. 28 00:04:01,259 --> 00:04:29,040 Ya tenemos establecido el segundo intervalo. Venga, tercero será del 63,2 hasta el 73,8. Luego después del 73,8 hasta el 84,4. 29 00:04:29,040 --> 00:04:44,259 Y finalmente del 84,4 lo podéis comprobar, pero si lo hacéis veréis que el último valor va a ser sí o sí 95, también cerrado, para incluirlo dentro de nuestros datos, ¿no? 30 00:04:44,259 --> 00:05:04,600 Bueno, y con esto ya podemos construir nuestra tablita de frecuencias. Recordad que la tablita de frecuencias es una tabla tal que así, ¿no? Tenemos que poner una fila por cada clase, por cada intervalo de nuestra distribución de datos, ¿vale? 31 00:05:04,600 --> 00:05:36,360 Y luego por cada columna tendremos que ir posicionando las frecuencias. No os olvidéis aquí de poner siempre el total. Entonces, lo primero de todo será la frecuencia absoluta, luego tendríamos que posicionar la frecuencia relativa y ya finalmente el porcentaje, ¿vale? 32 00:05:36,360 --> 00:05:56,439 Entonces, ¿cómo hacemos esto? Pues la frecuencia absoluta es el número de muestras que caen en nuestro intervalo. Vamos con el primer intervalo que va desde 42 hasta 52,6 y nos vamos aquí arriba a nuestras muestras y vamos contando cuántas de ellas entran dentro de ese intervalo. 33 00:05:56,439 --> 00:06:14,560 Que si nos fijamos son desde la 42 hasta la 51, que hay 1, 2, 3, 4, 5 y 6. O sea que aquí tendríamos una frecuencia absoluta de 6. 6 muestras entran dentro del primer intervalo. 34 00:06:14,560 --> 00:06:30,699 Dentro del segundo intervalo van a entrar desde la muestra 53 hasta la 63. Es decir, 1, 2, 3, 4, 5, 6, 7, 8 y 9 datos. 35 00:06:30,699 --> 00:06:46,379 Luego, desde la 63,2 a la 73,8 entran desde el 64 hasta el 72. Fijaos que vamos a tener intervalos de 0, ¿vale? Esto no pasa absolutamente nada. 36 00:06:47,220 --> 00:06:56,620 Entonces, aquí tendríamos 4. Aquí tendríamos de repente 0, ¿vale? Porque en el intervalo de 73,8 a 84,4 no hay ningún dato. 37 00:06:56,620 --> 00:07:11,920 Pero del 84,4 al 95 hay 1. Esto ya nos debería dar una idea de lo que está pasando aquí. Pero bueno, sumamos todo esto para comprobar que efectivamente da 20, que es el número de muestras, 38 00:07:11,920 --> 00:07:27,160 Y luego la frecuencia relativa, que la calculamos dividiendo la frecuencia absoluta entre el total. Aquí será 0,3. En porcentaje, pues es eso por 100, o sea, es el 30%, ¿vale? 39 00:07:27,160 --> 00:07:51,300 El 30% de nuestros datos están en el primer intervalo. Están todos metidos dentro del primer intervalo. Luego, hacemos lo mismo con el 9. Esto da 0,45. Es decir, que el 45% de los datos está en el segundo intervalo. 40 00:07:53,339 --> 00:08:19,019 Hacemos lo mismo con el siguiente, que nos sale 0,2, aquí ya vamos perdiendo, aquí directamente tenemos 0 y un 0%, en el cuarto intervalo no hay absolutamente ningún dato, no pasa nada, y en el último intervalo hay solo 1, o sea que tenemos un 0,05, es decir, un 5% de representatividad de este último dato en el último intervalo. 41 00:08:19,019 --> 00:08:38,100 Esto ya a priori, si sumamos esto nos da 1 y aquí nos daría 100%. A priori nos tiene que hacer darnos cuenta que muy probablemente este datito de aquí sea un outlier o un dato atípico, un valor atípico. 42 00:08:38,100 --> 00:08:44,299 sobre todo cuando hay una clase entre medias que da directamente 0 43 00:08:44,299 --> 00:08:49,259 o sea que no tenemos ningún valor y que todos más o menos se acumulan en torno a estos primeros 44 00:08:49,259 --> 00:08:53,820 si esto lo representásemos en un gráfico de histograma 45 00:08:53,820 --> 00:08:58,580 si esto lo representásemos en un histograma con cada una de las clases aquí 46 00:08:58,580 --> 00:09:06,639 podemos poner clase 1, clase 2, clase 3, clase 4 y la última clase que sería la clase 5 47 00:09:06,639 --> 00:09:23,700 Bueno, pues sería algo parecido a esto. Tendríamos que más o menos un 30% entrarían en el grupo 1, un 45% entraría en la clase 2, un 20% entraría en la clase 3. 48 00:09:23,700 --> 00:09:40,559 La clase 4 no tendría absolutamente nada y la clase 5 tendría solamente un datito, ¿vale? Veis que todo está más o menos distribuido aquí. Aquí no hay nada y aquí de repente hay un caso pequeñito, ¿vale? 49 00:09:40,559 --> 00:10:00,000 Bueno, pues entonces lo que tenemos que hacer a continuación es justamente identificar esos valores atípicos mediante ya un método más robusto, mediante un método que sea más objetivo, que es el método de Takei por los cuartiles, ¿vale? 50 00:10:00,000 --> 00:10:12,620 Entonces, en el segundo apartado de este ejercicio, simplemente por el método de Takei, que se basa en evaluar cuál es mi cuartil 1, mi cuartil 2 y mi cuartil 3, 51 00:10:12,620 --> 00:10:33,519 Y luego establecer cuál es el rango intercuartílico para finalmente establecer los límites inferior y el límite superior, ¿vale? De lo que consideramos datos típicos, ¿vale? 52 00:10:33,519 --> 00:10:41,519 Entonces, lo primero de todo es cómo sacamos cuál es la posición de estos cuartiles. 53 00:10:41,799 --> 00:11:02,460 Recordad que el cuartil 1, la fórmula general del cuartil, la fórmula general para evaluar el cuartil i, el que sea, va a ser multiplicar i por n, es decir, el tamaño de muestra, entre 4 cuartil cuartos. 54 00:11:02,460 --> 00:11:16,000 De aquí podemos sacar, por lo tanto, que el primer cuartil, esto nos da la posición, ojo, no nos da el valor, será 1 por 20 entre 4, pues 20 entre 4, 5. 55 00:11:16,000 --> 00:11:36,740 O sea, que tenemos que buscar en nuestros datos ordenados la quinta posición. Esta es la posición 1, 2, 3, 4 y 5, ¿vale? Pues la rodeamos. El 50, por lo tanto, es el dato asociado al cuartil 1, ¿vale? 56 00:11:36,740 --> 00:11:57,039 50 unidades formadoras de colonia por mililitro por 10 elevado a 3. Bueno, este sería el cuartil 1. Fijaos que es el dato, la posición que acumula el 25%, el 25% de los datos de esta distribución. 57 00:11:57,039 --> 00:12:16,639 Vamos con el cuartil 2, que el cuartil 2, recordad que es igual siempre a la mediana. En este caso, como son 20 datos número par, la mediana se calcula cogiendo la posición intermedia, ¿no? 58 00:12:17,580 --> 00:12:30,740 Digamos que haciendo la misma formulita, tú haces 2 por 20 entre 4, esto nos da 10, ¿no? La posición 10. Pero no va a ser la posición 10, va a ser la posición 10 con 5, ¿vale? 59 00:12:30,740 --> 00:12:39,240 ¿Cuál es la posición 10 con 5? Bueno, pues si nos vamos aquí, tendríamos 5, ¿no? 6, 7, 8, 9 y 10. 60 00:12:39,980 --> 00:12:48,460 El siguiente valor es la posición 11, pues tenemos que encontrar la posición justo entre medias del 10 y el 11, que es la posición 10 con 5. 61 00:12:48,460 --> 00:13:17,100 Que es coger y realizar la media aritmética de estas dos posiciones, de la posición 10 y la posición 11. 56 más 57 entre 2, 56,5, ¿vale? Por lo tanto, la posición, ¿vale? El valor asociado a la posición del cuartil 2 es de 56,5 unidades formadoras de colonia por mililitro por 10 elevado a 3. 62 00:13:17,100 --> 00:13:28,070 Esta es la posición que acumula el 75% de los valores de esta distribución. 63 00:13:28,070 --> 00:13:56,019 Y finalmente, ya terminamos por calcular nuestro tercer cuartil. 3 por 20 entre 4 sale 15. La posición decimoquinta, nos vamos allí, la buscamos, hemos dicho 11, 12, 13, 14, mirad, y aquí la tenemos. 64 00:13:56,019 --> 00:14:18,450 La decimoquinta es la 63, que se corresponde al cuartil 3, es decir, el dato que acumula la posición. Ahí lo he hecho mal, chicos. La mediana acumula el 50%, ¿no? Mientras que el cuartil 3 acumula el 75%, ¿vale? 65 00:14:18,450 --> 00:14:29,649 No se pone el cuartil 4 porque el cuartil 4 ya sería el último dato de nuestra distribución, que es el que acumula el 100% al final de los datos de nuestra distribución. 66 00:14:31,590 --> 00:14:46,230 Entonces el cuartil 3 nos sale que es 63 unidades formadoras de colonia por mililitro por 10 elevado a 3. 67 00:14:46,230 --> 00:15:03,230 Ya tenemos todos los datos necesarios para calcular cuánto vale el rango intercuartílico, que es coger el mayor cuartil del cuartil 3 y restarle el cuartil 1. 68 00:15:03,230 --> 00:15:17,950 El dato del cuartil 3 salía 63 y a este le restamos 50. Pues 63 menos 50 sale 13. O sea, el rango intercuartílico tiene que valer 13. 69 00:15:17,950 --> 00:15:28,090 recordad que ahora el límite inferior del intervalo digamos de valores típicos de esta distribución 70 00:15:28,090 --> 00:15:38,330 se calcula cogiendo el cuartil 1 al que le vamos a restar 1,5 veces ese rango intercuartílico 71 00:15:38,330 --> 00:15:46,950 es decir el valor de 50 unidades formadoras de colonias menos 1,5 por 13 72 00:15:46,950 --> 00:16:02,110 Y esto sale 50 menos 1,5 por 13 nos sale 30 con 5 unidades formadoras de colonia por mililitro por 10 elevado a 3. Este sería el límite inferior. 73 00:16:02,110 --> 00:16:29,580 Y el límite superior sería coger el cuartil 3 y sumarle 1,5 veces el rango intercuartílico. 63 más 1,5 veces 13. Y esto nos sale 82,5 unidades formadoras de colonia por mililitro por 10 elevado a 3. 74 00:16:29,580 --> 00:16:47,679 Entonces al final nuestro intervalo que podemos asumir como valores típicos de esta distribución sería el intervalo de muestras que den de 30,5 a 82,5. 75 00:16:47,679 --> 00:17:10,519 Todo lo que esté por fuera de este intervalo, en principio y según los datos, el método de Takei, se considerarán outliers. Esto será out y out. Valores menores a 30,5 y superiores a 82,5 se considerarán valores atípicos. 76 00:17:10,519 --> 00:17:21,900 por esta misma razón el último valor de todos ahora es cuando ya sí que observamos nuestros datos y vemos el valor más pequeño de todos que es 42 está dentro de la distribución 77 00:17:21,900 --> 00:17:40,400 así que no se consideraría un outlier y observamos que tenemos el 95 aquí que es claramente superior al límite superior que es 82,5 o sea que 95 sería un outlier 78 00:17:40,400 --> 00:17:59,700 ¿Esto qué significa? Pues significa que puede que en este caso esta persona, por el tipo de variable que es simplemente cuantificar cuántas bacterias le salen a esa persona, pues por probabilidad a lo mejor esa persona tiene más cantidad de bacterias que el resto porque está más infectada, por ejemplo. 79 00:17:59,700 --> 00:18:14,119 La otra sería algún error puntual, aleatorio, a la hora de medir estas colonias. Serían errores aleatorios los que causan este tipo de outliers. 80 00:18:14,119 --> 00:18:18,559 bueno pues ya estaría hecho entonces este ejercicio 81 00:18:18,559 --> 00:18:19,539 este tipo de ejercicio 82 00:18:19,539 --> 00:18:23,859 podemos incluso generar lo que se llama el boxplot 83 00:18:23,859 --> 00:18:31,269 o el gráfico de cajas y bigotes 84 00:18:31,269 --> 00:18:33,130 que es bastante sencillo 85 00:18:33,130 --> 00:18:35,849 es simplemente coger un cuadrado 86 00:18:35,849 --> 00:18:40,430 este cuadrado simula los datos que están contenidos 87 00:18:40,430 --> 00:18:45,390 entre el cuartil 1 y el cuartil 3 88 00:18:45,390 --> 00:19:00,049 ¿Vale? Entre el cuartil 1 y el cuartil 3. Luego se coloca una línea entre medias, que es una línea que va a simular cuántos datos hay de nuestra distribución 89 00:19:00,049 --> 00:19:09,329 que están por encima y por debajo dentro del rango intercuartílico. ¿Vale? Ponemos aquí esto y más o menos aquí esto. 90 00:19:09,329 --> 00:19:30,950 Y luego, una línea entre los dos cuartiles, la línea media justo, que se correspondería con la mediana, ¿no? Con el cuartil 2. ¿Ok? Entonces, recordad que el cuartil 3, la posición del cuartil 3, nos daba un valor de 63. 91 00:19:30,950 --> 00:19:54,660 Este serían 63 unidades formadoras de colonia. La mediana eran 56,5 y el cuartil 1 era de 50. El valor inferior que está dentro del rango intercuartílico de aquí arriba es 42. 92 00:19:54,660 --> 00:20:13,119 Y el último dato que está dentro del rango intercuartílico, si nos fijamos en nuestros datos, es el 72, ¿vale? O sea que aquí estaría representado el 72. Y los outliers se ponen como puntitos, puntitos fuera de ese rango. 93 00:20:13,119 --> 00:20:35,400 Este sería el puntito del outlier correspondiente con la medida de 95 unidades formadoras de colonias. Y así tenemos nuestro boxplot ya realizado. Los ejes, pues es simplemente en el eje X, digamos, que solamente se pone la clase, o sea, el tipo de variable. 94 00:20:35,400 --> 00:20:40,640 En este caso, pues, estamos midiendo unidades, o sea, las 20 muestras, ¿no? 95 00:20:40,839 --> 00:20:47,160 Estaríamos midiendo, pues, las 20 muestras, ¿vale? 96 00:20:47,160 --> 00:21:00,079 Y en el eje Y, pues, ponemos nuestra variable, que son unidades formadoras de colonia por mililitro por 10 elevado a 3, ¿vale? 97 00:21:02,569 --> 00:21:10,710 Fijaos que esto salía 95, más o menos esto salía 72, esta posición se quedaría en 63. 98 00:21:11,509 --> 00:21:16,750 ésta sería la mediana 56,5 y ésta aproximadamente los 50 99 00:21:16,750 --> 00:21:19,170 y ésta finalmente los 42 100 00:21:19,170 --> 00:21:22,250 si hubiese algún valor, algún outlier por debajo 101 00:21:22,250 --> 00:21:24,069 de esta distribución 102 00:21:24,069 --> 00:21:33,299 por ejemplo un 20, pues el 20 se colocaría por aquí 103 00:21:33,299 --> 00:21:35,420 pues ya está 104 00:21:35,420 --> 00:21:37,200 es una forma visual 105 00:21:37,200 --> 00:21:42,599 de observar los outliers mediante este método de Takei