1 00:00:00,000 --> 00:00:16,100 Entonces, para detectar los datos anómalos en una serie de datos, que es también otra de las dudas que me habéis planteado, nosotros tenemos, digamos, dos tipos de métodos, digamos, fundamentales. 2 00:00:16,100 --> 00:00:32,000 El que más se utiliza es la Q de Dixon y es el que os he preguntado en los problemas y de preguntaros un método de detección de datos anómalos en el examen, pues os preguntaré la Q de Dixon. 3 00:00:32,460 --> 00:00:43,219 Pero quiero que sepáis que existen dos tipos de métodos, los que están basados en tablas o métodos estadísticos y los que están basados en el intervalo de confianza. 4 00:00:43,219 --> 00:01:08,900 Que en los métodos que están basados en el intervalo de confianza, yo voy a calcular la media aritmética y la desviación estándar de desviación media, tener cuidado que la desviación media es una cosa y la desviación estándar es otra, que yo no voy a utilizar ese resultado sospechoso en mis cálculos. 5 00:01:08,900 --> 00:01:15,500 y en la R de groups y en la Q de Dixon, aunque yo detecte el valor sospechoso, 6 00:01:15,959 --> 00:01:19,959 sí lo voy a meter dentro de mi cálculo de media y desviación estándar. 7 00:01:20,159 --> 00:01:24,340 Eso es uno de los principales aspectos que tenéis que tener en cuenta. 8 00:01:25,159 --> 00:01:27,019 Lo vamos a comentar la Q de Dixon. 9 00:01:27,019 --> 00:01:32,040 Yo lo que tengo que hacer cuando voy a determinar un resultado anómalo es, 10 00:01:32,219 --> 00:01:36,599 en primer lugar, tengo que detectar cuál es el valor sospechoso. 11 00:01:36,599 --> 00:01:47,040 Voy a coger un ejemplo de los que tenemos resuelto. Mirad este ejemplo de la diapositiva. 12 00:01:48,379 --> 00:01:59,959 Nosotros lo primero que tenemos que detectar es el valor sospechoso. Cuando tenéis una serie de datos, aquí se ve claramente el valor que a mí se me aleja de la tendencia es 70. 13 00:01:59,959 --> 00:02:11,699 Pero si, por ejemplo, tenéis un resultado sospechoso en una serie de valores, pues, por ejemplo, a ver si estoy buscando aquí que tengo yo algunos. 14 00:02:13,740 --> 00:02:26,000 Bueno, sí, sí lo tenéis, lo tenéis, pero no en los ejercicios de repaso. Perdonadme que me he cogido los ejercicios que tengo impresos, los tenéis aquí, lo tenéis aquí, sí, a ver, en los ejercicios para practicar. 15 00:02:28,780 --> 00:02:31,319 Lo tenemos en los ensayos de significación, aquí. 16 00:02:34,250 --> 00:02:58,229 Vale, ejercicio número 3. Aquí. Mirad, cuando vosotros tenéis aquí una serie de datos, yo lo que os aconsejo es que una cosa que se suele hacer cuando tenemos también más datos de los que tenéis aquí, que yo os he puesto los ejemplos entre 5 y 6 datos, es que lo ordenéis de menor a mayor o de mayor a menor. 17 00:02:58,229 --> 00:03:05,090 es indiferente como cada uno prefiera y una vez que los tenéis ordenados el valor sospechoso 18 00:03:05,090 --> 00:03:13,810 siempre suele ser aquel valor que se aleja, se aleja más de la tendencia que sigue la serie o 19 00:03:13,810 --> 00:03:20,710 una vez que los tenéis ordenados e intuís cuál es el valor central, el que se aleja más de ese 20 00:03:20,710 --> 00:03:28,449 valor central suele ser el dato anómalo o el valor sospechoso que yo voy a estudiar. Os podéis 21 00:03:28,449 --> 00:03:33,650 encontrar en una serie de datos que existan a lo mejor dos datos sospechosos, no tiene por 22 00:03:33,650 --> 00:03:38,569 cada uno. Yo os he puesto ejemplos de uno, pero puede existir una serie de datos en la que os 23 00:03:38,569 --> 00:03:44,810 encontréis que existen dos que se alejan de esa tendencia natural de la serie. En ese caso, ¿yo 24 00:03:44,810 --> 00:03:51,770 ¿qué haría? Pues tendría que, digamos, testear o evaluar los dos datos que a mí me han salido 25 00:03:51,770 --> 00:03:58,050 anómalos, ¿vale? Si lo acepto, lo considero dentro de mis datos posteriores, mis cálculos posteriores 26 00:03:58,050 --> 00:04:04,889 y si los rechazo uno o los dos, los elimino, ¿vale? Entonces, por ejemplo, si nosotros nos fijamos en 27 00:04:04,889 --> 00:04:14,129 el método de absorción, nosotros dijéramos de ordenarlos de menor a mayor, empezaríamos por el 28 00:04:14,129 --> 00:04:44,439 118. Seguiríamos por el 124. Ponemos el 118 de menor a mayor. Sigue con el 124. Luego seguiría, si no me equivoco, el 131. Estoy mirando entre los folios y el ordenador, así que si me equivoco, por favor, decírmelo. 29 00:04:47,839 --> 00:05:09,990 ay no, perdón, 127, perdonadme, 127, 131, 134, 136 y 139, creo que son todos. 30 00:05:15,660 --> 00:05:19,100 Estoy en este ejercicio de aquí que son 7 datos. 31 00:05:19,100 --> 00:05:40,959 Entonces, mirad, cuando yo los he ordenado, veo que tengo 124 a 127, 3, 131 hay 4 de diferencia, 134, 136, 139, siguen manteniendo todos una tendencia de 3, 4 y el que más se me aleja es el 118. 32 00:05:40,959 --> 00:06:00,870 Luego yo, en este caso, consideraría que mi valor sospechoso es el 118 y pasaría a, digamos, comprobarlo por el criterio de la Q de Dixon. 33 00:06:00,870 --> 00:06:11,449 El criterio de la Q de Dixon es el que más se utiliza, pero es cierto que es, digamos, el menos preciso. 34 00:06:11,949 --> 00:06:16,730 Son los criterios que están basados en el método del intervalo de confianza los más restrictivos. 35 00:06:17,350 --> 00:06:21,209 Pero el que más se suele utilizar es el criterio de la Q de Dixon. 36 00:06:24,920 --> 00:06:26,040 Mirad que lo he puesto aquí. 37 00:06:27,720 --> 00:06:29,139 A ver si no me paso de la tabla. 38 00:06:46,800 --> 00:06:51,399 ¿Veis? Que es el menos restrictivo, pero es el que más se utiliza. 39 00:06:51,399 --> 00:07:02,759 Entonces, una vez que yo ya he detectado el valor sospechoso, lo siguiente que yo voy a hacer es poner cuál es la fórmula por la cual yo calculo la Q de Dixon. 40 00:07:03,220 --> 00:07:10,540 Y la fórmula de cálculo de la Q de Dixon es igual al valor absoluto. 41 00:07:11,100 --> 00:07:14,600 El valor absoluto es siempre un valor positivo, no es un valor negativo. 42 00:07:14,600 --> 00:07:17,220 entonces, mirad, tengo que coger 43 00:07:17,220 --> 00:07:19,639 mi valor sospechoso 44 00:07:19,639 --> 00:07:21,319 que lo voy a restar 45 00:07:21,319 --> 00:07:23,319 del valor que más se acerca 46 00:07:23,319 --> 00:07:25,180 en mi serie de datos al valor 47 00:07:25,180 --> 00:07:27,120 sospechoso, si yo tengo 48 00:07:27,120 --> 00:07:29,480 mi serie de datos, yo voy a coger 49 00:07:29,480 --> 00:07:31,720 118 50 00:07:31,720 --> 00:07:33,139 menos 51 00:07:33,139 --> 00:07:34,939 el valor más cercano 52 00:07:34,939 --> 00:07:37,199 una vez que ya los he ordenado yo 53 00:07:37,199 --> 00:07:39,420 de menor a mayor, el valor más cercano 54 00:07:39,420 --> 00:07:40,459 es 124 55 00:07:40,459 --> 00:07:43,160 pues entonces, voy a ordenar 56 00:07:43,160 --> 00:07:54,040 124. Esto lo divido por el rango, el rango del intervalo. ¿Y qué es el rango del intervalo? 57 00:07:54,040 --> 00:08:05,360 Pues el rango del intervalo es el valor mínimo, bueno, el máximo menos el mínimo. Esto lo copio igual y lo divido entre, ¿cuál es mi valor máximo? 58 00:08:05,360 --> 00:08:14,620 Mi valor máximo es 139 menos el valor mínimo, 118, ¿vale? 59 00:08:15,220 --> 00:08:23,300 Y entonces, como tenéis aquí resuelto, ¿veis? 60 00:08:23,480 --> 00:08:39,919 En el problema, estos palitos se denomina valor absoluto, me sale que este resultado es 0,2857, ¿vale? 61 00:08:39,919 --> 00:08:42,779 Este es mi valor calculado. 62 00:08:42,919 --> 00:08:49,240 Esta es mi Q de cálculo. Si queréis llamarla, podéis llamarla Q de Dixon calculada. 63 00:08:49,779 --> 00:08:57,519 Ahora, ¿qué es lo que yo tengo que hacer? Ahora tengo yo que buscar la Q de Dixon, su valor tabulado. 64 00:08:57,960 --> 00:09:04,179 Yo pongo aquí tabulado, que es el valor de la tabla, porque es el método basado en la tabla estadística. 65 00:09:04,820 --> 00:09:09,259 Entonces, cuando yo voy a calcular el valor de la Q de Dixon tabulada, 66 00:09:09,259 --> 00:09:40,539 Yo necesito, volviendo de nuevo a lo que son las tablas, aquí tenéis la tabla de la Q de Dixon, fijaros, para un nivel de confianza del 95%, porque tengo un nivel de significación del 0,05 y un contraste de dos colas. 67 00:09:40,539 --> 00:09:57,600 En este caso, yo no estoy, digamos, valorando el tema de las colas. Eso lo hacemos con los ensayos de significación. En la presentación, fijaros que yo os puse esta tabla de la Q de Dixon que tiene en cuenta distintos niveles de significación. 68 00:09:57,600 --> 00:10:09,480 ¿Veis? Tiene en cuenta el 90%, el 95%, el 98%, el 99% y el 995%, pues bueno, para que veáis que también existen otros tipos de niveles de confianza. 69 00:10:09,480 --> 00:10:33,840 Os he repetido a lo largo del tema 5 que en caso de que no se especifique en el problema el nivel de confianza, que el problema no diga 95% o 0,95% o me diga 0,05%, si no me lo dice, en los ensayos analíticos siempre el nivel de confianza que vamos a tomar es del 95%. 70 00:10:33,840 --> 00:10:40,559 Luego, cogería esta tabla o esta que tenéis aquí, que está ya para el 95%. 71 00:10:40,559 --> 00:10:42,460 ¿Cómo utilizo esta tabla? 72 00:10:42,539 --> 00:10:50,840 Pues en esta tabla tengo yo que calcular el número de datos de mi serie, de toda mi serie, y veo qué Q de cálculo tiene. 73 00:10:51,279 --> 00:10:52,799 ¿Cuántos datos tengo yo en mi serie? 74 00:10:52,980 --> 00:10:53,379 Siete. 75 00:10:53,379 --> 00:11:08,990 Pues en este caso, yo me vengo aquí y para 7 datos me sale una Q de Dixon de 0,5077. 76 00:11:13,159 --> 00:11:17,220 ¿Vale? A ver si no me he equivocado yo en el problema. 77 00:11:19,299 --> 00:11:27,340 Vale. ¿Veis? Cuando yo cojo una tabla u otra, hay tablas que me aproximan a la diezmilésima y tablas que se me quedan en las centésimas. 78 00:11:27,340 --> 00:11:43,019 En este caso, pues bueno, estamos coincidiendo en el 0,507. ¿Qué es lo que hago ahora? Comparo mi Q de cálculo con mi Q tabulada o Q crítica, que la suelen llamar. 79 00:11:43,019 --> 00:11:55,899 Y en este caso, ¿qué veo? Pues veo que 0,2857 es más pequeño que mi valor tabulado. 80 00:11:58,200 --> 00:12:10,159 Luego, en este caso, ¿cómo se procede? Mirad, cuando la Q de cálculo es más pequeña, se acepta el dato, es decir, no se rechaza. 81 00:12:10,159 --> 00:12:18,529 Luego en este caso se acepta el dato 82 00:12:18,529 --> 00:12:23,529 Si fuese mayor lo rechazo y lo elimino de mi serie de datos 83 00:12:23,529 --> 00:12:35,289 Básicamente el procedimiento para los distintos tipos de ensayo 84 00:12:35,289 --> 00:12:41,710 Ya sea R de Grubbs, Q de Dixon o el intervalo de confianza se procede igual 85 00:12:41,710 --> 00:12:48,149 Si el dato calculado es más pequeño que el tabulado, al ser más pequeño lo acepto 86 00:12:48,149 --> 00:12:50,470 Si es mayor, lo rechazo 87 00:12:50,470 --> 00:12:57,029 Entonces, en la R de groups es parecida a la Q de Dixon 88 00:12:57,029 --> 00:13:05,110 Pero veis que la diferencia oscila en que yo el valor sospechoso, lo resto del valor medio 89 00:13:05,110 --> 00:13:09,649 Aquí es del valor más cercano, es decir, aquí estoy tomando el error absoluto 90 00:13:09,649 --> 00:13:39,409 Estoy viendo lo que se aleja de mi media, de mi valor central, el dato sospechoso y lo divido por la desviación estándar y aquí por el rango, ¿vale? Luego una vez que he calculado la R de groups me iría a su tabla, que la tenéis aquí, si no nos dice nada el problema nos estaríamos moviendo a aquí y una vez que saco la R calculada y la R tabulada las comparo. 91 00:13:39,649 --> 00:13:46,350 Y procedo de la misma forma, ¿vale? Se procede igual. 92 00:13:46,870 --> 00:13:53,230 Con el tema de fluorescencia, en el ensayo de fluorescencia, porque aquí hemos comparado dos métodos, 93 00:13:53,230 --> 00:13:56,370 el método de absorción y el de fluorescencia, pues procedemos igual. 94 00:13:56,909 --> 00:14:02,389 Ordenamos nuestros valores de menor a mayor o de mayor a menor, como nosotros queramos, 95 00:14:02,850 --> 00:14:08,690 y nuestro valor sospechoso es 130, ¿vale? 96 00:14:09,649 --> 00:14:12,110 Y procedemos de la misma forma. 97 00:14:12,769 --> 00:14:22,549 Y así es como, digamos, se calcula la Q de Dixon, bueno, la R de Grubbs, se procede de igual forma, ¿vale? 98 00:14:22,549 --> 00:14:34,809 Yo lo que os aconsejo es que en el examen si os cae un problema de esto, pues que os ordenéis los datos de la serie, de menor a mayor, que se suele ver muy bien, y ahí ya detectáis el valor sospechoso. 99 00:14:34,809 --> 00:14:57,320 Así es como se procede con este tipo de ensayos por los métodos estadísticos. No obstante, tenéis aquí unos ejemplos resueltos en la presentación donde también os aplico el criterio del intervalo de confianza. 100 00:14:57,320 --> 00:15:01,539 si está dentro o fuera del intervalo de confianza, es cuando se acepta o se rechaza. 101 00:15:01,679 --> 00:15:04,620 Ahí es la forma de proceder, ¿vale? 102 00:15:04,700 --> 00:15:09,460 Y en groups y en Dixon, comparar si es mayor o es menor, ¿vale? 103 00:15:09,460 --> 00:15:13,059 Aquí los tenéis resueltos y en los problemas os he preguntado por la Q de Dixon, 104 00:15:13,179 --> 00:15:16,779 que es el más habitual y el que más vais a trabajar, ¿vale? 105 00:15:18,059 --> 00:15:21,519 Entonces, aprenderos la fórmula de la Q de Dixon, ¿vale?