Clases, tabla de frecuencias y método Tukey - Contenido educativo

El ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:

Subido el 17 de mayo de 2026 por David S.

7 visualizaciones

Bueno, pues vamos a hacer este ejercicio típico de elaboración y ordenación de datos, ¿vale? 00:00:01

Elaboración de tablas de frecuencias y ordenación de datos, así como también identificar valores atípicos por el método de Takei. 00:00:08

En este ejercicio, pues nos dicen que en un laboratorio de microbiología clínica se está estudiando el crecimiento bacteriano de un cultivo 00:00:16

mediante la cuantificación de colonias bacterianas 00:00:24

medidas en esta unidad, 00:00:27

en unidades formadoras de colonias, 00:00:29

por mililitro por 10 elevado a 3. 00:00:31

Eso nos da igual. 00:00:32

Obtenidas tras la incubación de 20 muestras de pacientes, 00:00:34

todas ellas independientes, claro. 00:00:37

Los resultados obtenidos fueron los que aparecen aquí, ¿vale? 00:00:39

Yo estos resultados os los daría desordenados. 00:00:42

Y vosotros los tendríais que ordenar, pues, 00:00:45

de menor a mayor, ¿no? 00:00:48

Para poder hacer los pasos siguientes. 00:00:50

Yo ya los tengo ordenados para ahorrar tiempo. 00:00:52

Entonces nos dan todos estos resultados. Hay que contarlos y sacamos que la N es de 20, ¿vale? Obviamente 20 muestras, una por paciente. Entonces organizar los datos determinando el número de clases y elaborar la tabla de frecuencias correspondiente. 00:00:54

Bueno, pues lo primero de todo, por lo tanto, será determinar el número de clases que tendríamos que generar para este conjunto de datos. Tenemos que el conjunto de datos son 20, por lo tanto, el número de clases, la n minúscula, va a ser igual a 1 más 3,322 por el logaritmo de 20. 00:01:14

Y eso nos sale en torno a 5, ¿vale? 5 con 30 y algo. Redondeamos a la baja, así que nos sale 5. Pues van a salir 5 clases, es decir, 5 intervalos, ¿vale? 00:01:40

Que tendremos que ir organizando en la tabla de frecuencias. ¿Cómo vamos a establecer los rangos de estos intervalos? 00:01:57

Bueno, pues lo primero que hay que hacer es, como bien hemos dicho, ver cuál es el rango de esta serie de datos, que es coger el valor más grande que aparece en nuestra distribución y el valor más chiquitito y restarlo, es decir, 95 menos 42. 00:02:04

Nos da 53, ese es el rango. Y ahora tenemos que calcular la amplitud del intervalo que vamos a hallar, que es simplemente dividir el rango entre el número de clases, 53 entre 5. 00:02:25

Y eso da 10,6. 10,6. Esa es la amplitud, ¿vale? Entonces, ahora, para construir cada uno de los intervalos, vamos a empezar con el primer intervalo. 00:02:42

El primer intervalo será construirlo utilizando el valor más pequeño de todos, que es el de 42, ¿vale? Utilizaremos 42. 00:02:56

Y como valor superior será 42 más la amplitud, es decir, más 10,6. Y cerramos con un paréntesis abierto. Esto al final, ¿qué nos va a salir? Pues del 42 hasta el 52,6. 00:03:07

hasta 52,6. Este será el primer intervalo. El siguiente intervalo lo tendremos que construir poniendo como primer número que entra en este intervalo el anterior, ¿vale? 00:03:33

El final del anterior, 52,6. Entonces ahora lo que tenemos que hacer es a 52,6 sumarle de nuevo nuestra amplitud, los 10,6 y nos sale 63,2. 00:03:46

Ya tenemos establecido el segundo intervalo. Venga, tercero será del 63,2 hasta el 73,8. Luego después del 73,8 hasta el 84,4. 00:04:01

Y finalmente del 84,4 lo podéis comprobar, pero si lo hacéis veréis que el último valor va a ser sí o sí 95, también cerrado, para incluirlo dentro de nuestros datos, ¿no? 00:04:29

Bueno, y con esto ya podemos construir nuestra tablita de frecuencias. Recordad que la tablita de frecuencias es una tabla tal que así, ¿no? Tenemos que poner una fila por cada clase, por cada intervalo de nuestra distribución de datos, ¿vale? 00:04:44

Y luego por cada columna tendremos que ir posicionando las frecuencias. No os olvidéis aquí de poner siempre el total. Entonces, lo primero de todo será la frecuencia absoluta, luego tendríamos que posicionar la frecuencia relativa y ya finalmente el porcentaje, ¿vale? 00:05:04

Entonces, ¿cómo hacemos esto? Pues la frecuencia absoluta es el número de muestras que caen en nuestro intervalo. Vamos con el primer intervalo que va desde 42 hasta 52,6 y nos vamos aquí arriba a nuestras muestras y vamos contando cuántas de ellas entran dentro de ese intervalo. 00:05:36

Que si nos fijamos son desde la 42 hasta la 51, que hay 1, 2, 3, 4, 5 y 6. O sea que aquí tendríamos una frecuencia absoluta de 6. 6 muestras entran dentro del primer intervalo. 00:05:56

Dentro del segundo intervalo van a entrar desde la muestra 53 hasta la 63. Es decir, 1, 2, 3, 4, 5, 6, 7, 8 y 9 datos. 00:06:14

Luego, desde la 63,2 a la 73,8 entran desde el 64 hasta el 72. Fijaos que vamos a tener intervalos de 0, ¿vale? Esto no pasa absolutamente nada. 00:06:30

Entonces, aquí tendríamos 4. Aquí tendríamos de repente 0, ¿vale? Porque en el intervalo de 73,8 a 84,4 no hay ningún dato. 00:06:47

Pero del 84,4 al 95 hay 1. Esto ya nos debería dar una idea de lo que está pasando aquí. Pero bueno, sumamos todo esto para comprobar que efectivamente da 20, que es el número de muestras, 00:06:56

Y luego la frecuencia relativa, que la calculamos dividiendo la frecuencia absoluta entre el total. Aquí será 0,3. En porcentaje, pues es eso por 100, o sea, es el 30%, ¿vale? 00:07:11

El 30% de nuestros datos están en el primer intervalo. Están todos metidos dentro del primer intervalo. Luego, hacemos lo mismo con el 9. Esto da 0,45. Es decir, que el 45% de los datos está en el segundo intervalo. 00:07:27

Hacemos lo mismo con el siguiente, que nos sale 0,2, aquí ya vamos perdiendo, aquí directamente tenemos 0 y un 0%, en el cuarto intervalo no hay absolutamente ningún dato, no pasa nada, y en el último intervalo hay solo 1, o sea que tenemos un 0,05, es decir, un 5% de representatividad de este último dato en el último intervalo. 00:07:53

Esto ya a priori, si sumamos esto nos da 1 y aquí nos daría 100%. A priori nos tiene que hacer darnos cuenta que muy probablemente este datito de aquí sea un outlier o un dato atípico, un valor atípico. 00:08:19

sobre todo cuando hay una clase entre medias que da directamente 0 00:08:38

o sea que no tenemos ningún valor y que todos más o menos se acumulan en torno a estos primeros 00:08:44

si esto lo representásemos en un gráfico de histograma 00:08:49

si esto lo representásemos en un histograma con cada una de las clases aquí 00:08:53

podemos poner clase 1, clase 2, clase 3, clase 4 y la última clase que sería la clase 5 00:08:58

Bueno, pues sería algo parecido a esto. Tendríamos que más o menos un 30% entrarían en el grupo 1, un 45% entraría en la clase 2, un 20% entraría en la clase 3. 00:09:06

La clase 4 no tendría absolutamente nada y la clase 5 tendría solamente un datito, ¿vale? Veis que todo está más o menos distribuido aquí. Aquí no hay nada y aquí de repente hay un caso pequeñito, ¿vale? 00:09:23

Bueno, pues entonces lo que tenemos que hacer a continuación es justamente identificar esos valores atípicos mediante ya un método más robusto, mediante un método que sea más objetivo, que es el método de Takei por los cuartiles, ¿vale? 00:09:40

Entonces, en el segundo apartado de este ejercicio, simplemente por el método de Takei, que se basa en evaluar cuál es mi cuartil 1, mi cuartil 2 y mi cuartil 3, 00:10:00

Y luego establecer cuál es el rango intercuartílico para finalmente establecer los límites inferior y el límite superior, ¿vale? De lo que consideramos datos típicos, ¿vale? 00:10:12

Entonces, lo primero de todo es cómo sacamos cuál es la posición de estos cuartiles. 00:10:33

Recordad que el cuartil 1, la fórmula general del cuartil, la fórmula general para evaluar el cuartil i, el que sea, va a ser multiplicar i por n, es decir, el tamaño de muestra, entre 4 cuartil cuartos. 00:10:41

De aquí podemos sacar, por lo tanto, que el primer cuartil, esto nos da la posición, ojo, no nos da el valor, será 1 por 20 entre 4, pues 20 entre 4, 5. 00:11:02

O sea, que tenemos que buscar en nuestros datos ordenados la quinta posición. Esta es la posición 1, 2, 3, 4 y 5, ¿vale? Pues la rodeamos. El 50, por lo tanto, es el dato asociado al cuartil 1, ¿vale? 00:11:16

50 unidades formadoras de colonia por mililitro por 10 elevado a 3. Bueno, este sería el cuartil 1. Fijaos que es el dato, la posición que acumula el 25%, el 25% de los datos de esta distribución. 00:11:36

Vamos con el cuartil 2, que el cuartil 2, recordad que es igual siempre a la mediana. En este caso, como son 20 datos número par, la mediana se calcula cogiendo la posición intermedia, ¿no? 00:11:57

Digamos que haciendo la misma formulita, tú haces 2 por 20 entre 4, esto nos da 10, ¿no? La posición 10. Pero no va a ser la posición 10, va a ser la posición 10 con 5, ¿vale? 00:12:17

¿Cuál es la posición 10 con 5? Bueno, pues si nos vamos aquí, tendríamos 5, ¿no? 6, 7, 8, 9 y 10. 00:12:30

El siguiente valor es la posición 11, pues tenemos que encontrar la posición justo entre medias del 10 y el 11, que es la posición 10 con 5. 00:12:39

Que es coger y realizar la media aritmética de estas dos posiciones, de la posición 10 y la posición 11. 56 más 57 entre 2, 56,5, ¿vale? Por lo tanto, la posición, ¿vale? El valor asociado a la posición del cuartil 2 es de 56,5 unidades formadoras de colonia por mililitro por 10 elevado a 3. 00:12:48

Esta es la posición que acumula el 75% de los valores de esta distribución. 00:13:17

Y finalmente, ya terminamos por calcular nuestro tercer cuartil. 3 por 20 entre 4 sale 15. La posición decimoquinta, nos vamos allí, la buscamos, hemos dicho 11, 12, 13, 14, mirad, y aquí la tenemos. 00:13:28

La decimoquinta es la 63, que se corresponde al cuartil 3, es decir, el dato que acumula la posición. Ahí lo he hecho mal, chicos. La mediana acumula el 50%, ¿no? Mientras que el cuartil 3 acumula el 75%, ¿vale? 00:13:56

No se pone el cuartil 4 porque el cuartil 4 ya sería el último dato de nuestra distribución, que es el que acumula el 100% al final de los datos de nuestra distribución. 00:14:18

Entonces el cuartil 3 nos sale que es 63 unidades formadoras de colonia por mililitro por 10 elevado a 3. 00:14:31

Ya tenemos todos los datos necesarios para calcular cuánto vale el rango intercuartílico, que es coger el mayor cuartil del cuartil 3 y restarle el cuartil 1. 00:14:46

El dato del cuartil 3 salía 63 y a este le restamos 50. Pues 63 menos 50 sale 13. O sea, el rango intercuartílico tiene que valer 13. 00:15:03

recordad que ahora el límite inferior del intervalo digamos de valores típicos de esta distribución 00:15:17

se calcula cogiendo el cuartil 1 al que le vamos a restar 1,5 veces ese rango intercuartílico 00:15:28

es decir el valor de 50 unidades formadoras de colonias menos 1,5 por 13 00:15:38

Y esto sale 50 menos 1,5 por 13 nos sale 30 con 5 unidades formadoras de colonia por mililitro por 10 elevado a 3. Este sería el límite inferior. 00:15:46

Y el límite superior sería coger el cuartil 3 y sumarle 1,5 veces el rango intercuartílico. 63 más 1,5 veces 13. Y esto nos sale 82,5 unidades formadoras de colonia por mililitro por 10 elevado a 3. 00:16:02

Entonces al final nuestro intervalo que podemos asumir como valores típicos de esta distribución sería el intervalo de muestras que den de 30,5 a 82,5. 00:16:29

Todo lo que esté por fuera de este intervalo, en principio y según los datos, el método de Takei, se considerarán outliers. Esto será out y out. Valores menores a 30,5 y superiores a 82,5 se considerarán valores atípicos. 00:16:47

por esta misma razón el último valor de todos ahora es cuando ya sí que observamos nuestros datos y vemos el valor más pequeño de todos que es 42 está dentro de la distribución 00:17:10

así que no se consideraría un outlier y observamos que tenemos el 95 aquí que es claramente superior al límite superior que es 82,5 o sea que 95 sería un outlier 00:17:21

¿Esto qué significa? Pues significa que puede que en este caso esta persona, por el tipo de variable que es simplemente cuantificar cuántas bacterias le salen a esa persona, pues por probabilidad a lo mejor esa persona tiene más cantidad de bacterias que el resto porque está más infectada, por ejemplo. 00:17:40

La otra sería algún error puntual, aleatorio, a la hora de medir estas colonias. Serían errores aleatorios los que causan este tipo de outliers. 00:17:59

bueno pues ya estaría hecho entonces este ejercicio 00:18:14

este tipo de ejercicio 00:18:18

podemos incluso generar lo que se llama el boxplot 00:18:19

o el gráfico de cajas y bigotes 00:18:23

que es bastante sencillo 00:18:31

es simplemente coger un cuadrado 00:18:33

este cuadrado simula los datos que están contenidos 00:18:35

entre el cuartil 1 y el cuartil 3 00:18:40

¿Vale? Entre el cuartil 1 y el cuartil 3. Luego se coloca una línea entre medias, que es una línea que va a simular cuántos datos hay de nuestra distribución 00:18:45

que están por encima y por debajo dentro del rango intercuartílico. ¿Vale? Ponemos aquí esto y más o menos aquí esto. 00:19:00

Y luego, una línea entre los dos cuartiles, la línea media justo, que se correspondería con la mediana, ¿no? Con el cuartil 2. ¿Ok? Entonces, recordad que el cuartil 3, la posición del cuartil 3, nos daba un valor de 63. 00:19:09

Este serían 63 unidades formadoras de colonia. La mediana eran 56,5 y el cuartil 1 era de 50. El valor inferior que está dentro del rango intercuartílico de aquí arriba es 42. 00:19:30

Y el último dato que está dentro del rango intercuartílico, si nos fijamos en nuestros datos, es el 72, ¿vale? O sea que aquí estaría representado el 72. Y los outliers se ponen como puntitos, puntitos fuera de ese rango. 00:19:54

Este sería el puntito del outlier correspondiente con la medida de 95 unidades formadoras de colonias. Y así tenemos nuestro boxplot ya realizado. Los ejes, pues es simplemente en el eje X, digamos, que solamente se pone la clase, o sea, el tipo de variable. 00:20:13

En este caso, pues, estamos midiendo unidades, o sea, las 20 muestras, ¿no? 00:20:35

Estaríamos midiendo, pues, las 20 muestras, ¿vale? 00:20:40

Y en el eje Y, pues, ponemos nuestra variable, que son unidades formadoras de colonia por mililitro por 10 elevado a 3, ¿vale? 00:20:47

Fijaos que esto salía 95, más o menos esto salía 72, esta posición se quedaría en 63. 00:21:02

ésta sería la mediana 56,5 y ésta aproximadamente los 50 00:21:11

y ésta finalmente los 42 00:21:16

si hubiese algún valor, algún outlier por debajo 00:21:19

de esta distribución 00:21:22

por ejemplo un 20, pues el 20 se colocaría por aquí 00:21:24

pues ya está 00:21:33

es una forma visual 00:21:35

de observar los outliers mediante este método de Takei 00:21:37

Del mismo autor…

Acidimetría en Excel
Contenido educativo. subido por David S. 13′ 35″ - hace 4 meses - 10 visualizaciones
P6 bis - problema 10. Grado de disociación
Contenido educativo. subido por David S. 08′ 34″ - hace 6 meses - 5 visualizaciones
P6 bis - problema 9. Grado de disociación
Contenido educativo. subido por David S. 06′ 06″ - hace 6 meses - 6 visualizaciones
P6 bis - problema 9. Grado de disociación
Contenido educativo. subido por David S. 03′ 15″ - hace 6 meses - 2 visualizaciones
P6 bis - problema 7. Grado de disociación
Contenido educativo. subido por David S. 08′ 43″ - hace 6 meses - 8 visualizaciones
P6 bis - problema 6. Grado de disociación
Contenido educativo. subido por David S. 03′ 16″ - hace 6 meses - 4 visualizaciones
P6 bis - problema 5. Grado de disociación
Contenido educativo. subido por David S. 04′ 46″ - hace 6 meses - 6 visualizaciones