1 00:00:00,000 --> 00:00:14,060 Lo que estuvimos viendo la semana pasada. Que si os acordáis, terminamos el tema de estadística descriptiva, de estadística más pura, digamos, y empezamos con los test estadísticos. 2 00:00:14,060 --> 00:00:29,940 Que si os acordáis, los utilizamos con diferentes objetivos. Por ejemplo, lo utilizamos mucho para comparar la precisión de dos métodos o para comparar la exactitud de dos métodos. 3 00:00:30,000 --> 00:00:58,840 O lo utilizábamos también cuando teníamos una serie de datos en el laboratorio y no sabíamos si alguno de ellos lo teníamos que eliminar o no. Si realmente ese dato que discrepaba un poco era una cuestión de un fallo, ese dato no debería estar ahí o discrepa ligeramente, pero porque es inherente al proceso analítico y se corresponde con los errores aleatorios que pueda haber, por ejemplo. 4 00:01:00,000 --> 00:01:17,579 Entonces, para hacer estas comparaciones y para evaluar, que muchas veces lo que decíamos, que vemos a ojo en el laboratorio y decimos, vale, he hecho cinco medidas y cuatro de ellas están muy cercanas entre ellas y la quinta es un punto superior. 5 00:01:17,819 --> 00:01:27,319 Y ya nosotros a ojo quitamos ese valor. Entonces, lo que vamos a hacer con estos ensayos es quitar ese valor con criterio, porque a lo mejor nos lo tenemos que quedar. 6 00:01:27,319 --> 00:01:37,579 Entonces, utilizábamos los ensayos de significación o de significancia y en todos, si os acordáis que lo planteamos, el procedimiento es el mismo. 7 00:01:38,099 --> 00:01:50,359 Vamos a tener que calcular un parámetro, un estadístico, que luego vamos con una serie de valores en función del ensayo que estemos haciendo, una serie de fórmulas, una serie de ecuaciones. 8 00:01:50,980 --> 00:01:59,620 Luego vamos a comparar ese valor que nosotros hemos calculado con un valor que está en una tabla correspondiente a ese ensayo en concreto. 9 00:02:00,620 --> 00:02:06,840 Y después vamos a comparar el valor que hemos calculado con el de la tabla y vamos a ver cuál es mayor de los dos. 10 00:02:06,840 --> 00:02:23,460 Si el que nosotros hemos calculado es menor, vamos a aceptar la hipótesis nula que nos decía que ese dato sí que nos pertenece y es de la población estadística y nos lo tenemos que quedar. 11 00:02:23,460 --> 00:02:34,360 Si lo que nosotros hemos calculado es mayor, lo eliminamos. Y esto lo hacíamos, que no lo he dicho, perdonadme, lo vimos el otro día, con un contraste de hipótesis. 12 00:02:34,479 --> 00:02:46,000 Y lo que hacíamos era plantear dos hipótesis, que son dos posibilidades, y después hacíamos estos cálculos para ver si aceptábamos la hipótesis que habíamos planteado inicialmente, 13 00:02:46,000 --> 00:02:58,240 que se llama hipótesis nula, que se simboliza como H0, o la que nos vale, la que comprobamos, es la hipótesis alternativa, que es HA o H1. 14 00:03:00,159 --> 00:03:08,860 Habíamos visto también que tenemos los valores reales y los valores predichos, y en función de lo que obtengamos podemos tener verdaderos positivos, 15 00:03:08,860 --> 00:03:16,699 que es lo que normalmente y verdad de los negativos, que es lo que esperamos, que lo que nosotros predecimos sea la realidad. 16 00:03:17,680 --> 00:03:21,039 Y luego también podemos tener falsos positivos y falsos negativos. 17 00:03:21,659 --> 00:03:29,439 Esto para verlo fácil, pensar en test de farmacia, en test de embarazo, en test de detección del COVID. 18 00:03:29,960 --> 00:03:36,539 ¿Qué es un falso positivo? Que yo realmente estoy embarazada, pero el test me sale que no. 19 00:03:36,539 --> 00:03:49,379 ¿Y qué es un falso negativo? Que yo realmente no estoy embarazada pero al revés lo he dicho. El falso positivo es que yo no estoy embarazada y el test me dice que sí. Y el falso negativo es que yo sí estoy embarazada y el test me dice que no. 20 00:03:49,719 --> 00:04:05,740 Por distintos motivos, por cuestión de que estadísticamente hay fallos, luego porque las concentraciones varían y en función de los límites de detección que haya puede estar muy en un umbral, etc. 21 00:04:05,740 --> 00:04:27,879 Esto lo veremos, lo de los límites de detección y de cuantificación, lo veremos en el siguiente apartado, que es el de la recta de regresión, que probablemente lo habéis visto ya una parte con la optativa, los que la tengáis, la optativa de segunda, de instrumental o incluso en análisis instrumental los que estéis matriculados. 22 00:04:27,879 --> 00:04:54,379 ¿Vale? Entonces, recapitulando lo que os he comentado, pasos. A partir de los datos que tenemos se calcula el valor de un parámetro estadístico. Para ese parámetro se determina un valor crítico y depende de los grados de libertad, o sea, del número de datos que tengamos y del nivel de significación, que acordaos que era lo que queda fuera del intervalo de confianza. 23 00:04:54,379 --> 00:05:22,319 Si tenemos el 95%, nuestro nivel de significación es un 5%, lo que queda para llegar hasta 100. Como lo solemos expresar en tanto por uno, es ese 5% dividido entre 100. Entonces, es 0,05. Es el más habitual, el 95%, pero también tenemos el 99%, que sería el nivel de significación del 1%, 1 entre 100, 0,01. 24 00:05:22,319 --> 00:05:35,459 ¿Vale? Comparamos el valor calculado, el que hemos calculado nosotros, con el valor del parámetro estadístico crítico y si el valor que nosotros hemos calculado es menor, se acepta la hipótesis nula. 25 00:05:35,639 --> 00:05:47,639 Se considera que la diferencia no es significativa. Si el que hemos calculado es mayor, decimos que rechazamos la hipótesis nula, la diferencia es significativa, aquí utilizaríamos la hipótesis alternativa. 26 00:05:47,639 --> 00:05:51,620 La nula, que es la primera que hemos planteado, no la aceptamos. 27 00:05:53,139 --> 00:05:59,959 Y entonces, dentro de estos ensayos, los primeros que empezamos a ver fueron los de determinación de resultados anómalos. 28 00:06:01,000 --> 00:06:08,819 Entonces, así visto la tabla puede ser un poco oleoso, pero luego la aplicación es muy sencilla. 29 00:06:09,100 --> 00:06:13,860 Tenemos métodos basados en tablas y métodos basados en intervalos de confianza. 30 00:06:14,620 --> 00:06:18,959 ¿Qué hacemos con los métodos basados en tablas, que son los más utilizados? 31 00:06:19,160 --> 00:06:25,120 Vamos a calcular un parámetro que en este ensayo, en el de la R de Grubbs, se calcula con esta fórmula. 32 00:06:26,019 --> 00:06:37,660 La R es el valor del que dudamos menos la media dividido entre la desviación. 33 00:06:37,660 --> 00:06:41,839 Y todo esto en valor absoluto, porque tiene que ser un número positivo, la R. 34 00:06:42,839 --> 00:06:57,480 La Q, pues lo mismo, tenemos que calcular un parámetro que en este caso es el dato del que dudamos menos el que esté más cerca dividido entre el rango, que acordaos que es el dato mayor menos el dato menor. 35 00:06:58,240 --> 00:07:04,500 Y luego teníamos los métodos basados en intervalo de confianza, que en estos no utilizamos tablas y son ligeramente distintos. 36 00:07:04,819 --> 00:07:08,040 Entonces, vamos a ir viéndolos uno a uno para que sea más fácil con ejemplos. 37 00:07:08,040 --> 00:07:15,740 Si os acordáis, cuando mirábamos para calcular el intervalo de confianza con la T de Student 38 00:07:15,740 --> 00:07:21,420 Cuando nos íbamos a la tabla de la T, buscábamos por grados de libertad 39 00:07:21,420 --> 00:07:30,420 Si teníamos 10 valores en la tabla de la T de Student, buscábamos n-1, 10-1, 9 40 00:07:30,420 --> 00:07:36,100 En este caso, en el ensayo de Dixon y de Grooves, que son los que vamos a ver 41 00:07:36,100 --> 00:07:52,759 Ahora, buscamos por el número de mediciones. Si yo he hecho 7 mediciones en el laboratorio, cuando me vaya mi tabla de Dixon o de Grubbs, busco el número 7, no busco el 6. Las tablas las tenéis subidas y son estas de aquí. 42 00:07:52,759 --> 00:08:20,980 Son muy sencillas. Esta es la tabla de la Q de Dixon. Aquí tenemos, veis, el alfa, que es el nivel de significación, ¿vale? 0,05, 95%, ¿no? 0,01, 99%, 98%, 96%, 90%, ¿vale? 43 00:08:20,980 --> 00:08:27,920 Tenemos distintos niveles de significación. Y aquí tenemos el número de valores. 3, 4, 5, 6, 7, 8, 9, 10. 44 00:08:28,439 --> 00:08:38,779 Entonces, si yo estoy analizando que yo he hecho 6 medidas de pH en el laboratorio y quiero saber si una de ellas discrepa y la tengo que eliminar o no, 45 00:08:39,159 --> 00:08:49,159 al 95% ¿qué haría? Pues calcular mi estadístico y irme a la tabla aquí de 6 al 95%. 46 00:08:49,159 --> 00:09:09,379 El dato que yo tomaría sería 0,625. Esta sería la Q tabulada en el caso de 6 datos al 95%. Si es al 99 ya no sería 0,625, sería 0,740. Por ejemplo, ¿vale? 47 00:09:09,379 --> 00:09:29,460 Entonces, esta es la de Dixon y esta es la de Groove, que a veces lo veréis como R y a veces lo veréis como G, ¿vale? Las dos maneras son válidas. Lo mismo, aquí tengo la N, el número de datos que yo tengo en mi serie que estoy analizando y aquí tengo mi significación. 48 00:09:29,460 --> 00:09:33,460 En esta tabla, por ejemplo, tengo solo el 95% y el 99%. 49 00:09:34,940 --> 00:09:41,720 Entonces, vamos a ver cómo calculo yo estos estadísticos. 50 00:09:41,860 --> 00:09:46,460 Vamos a empezar por el de Dixon, que es el más, más, más utilizado. 51 00:09:47,500 --> 00:09:51,460 Lo podemos utilizar para números de datos que sean relativamente pequeños. 52 00:09:51,539 --> 00:09:54,080 No lo puedo utilizar cuando tengo 50 datos. 53 00:09:54,080 --> 00:10:16,340 Tengo un número de datos relativamente pequeño y uno de esos datos, solamente uno, porque estos test los utilizamos cuando tenemos un valor que discrepa, si tenemos más tendremos que ver ya qué hacemos, porque si yo he hecho cinco mediciones y dos las veo raras, a lo mejor me quedan solo tres, pues es que a lo mejor tengo que repetirlo todo. 54 00:10:16,340 --> 00:10:40,590 ¿Vale? Entonces es para evaluar un dato cuando tengo un dato que veo dudoso. Cuando tengo entre 3 y 10 datos, entonces calculo la Q. ¿Qué hemos dicho que es? El valor del dato del que dudo menos el que esté más cerca, por arriba o por abajo, ¿vale? El que esté más cerca en valor absoluto para que sea positivo y todo ello dividido entre el rango. 55 00:10:40,590 --> 00:10:45,049 lo primero que tenemos que hacer es identificar el valor dudoso 56 00:10:45,049 --> 00:10:49,490 después calculamos este parámetro Q 57 00:10:49,490 --> 00:10:52,669 teniendo en cuenta todos los datos 58 00:10:52,669 --> 00:10:54,710 incluyendo el que dudamos también 59 00:10:54,710 --> 00:10:57,070 que lo hemos simbolizado como X asterisco 60 00:10:57,070 --> 00:11:00,970 hemos calculado esta Q y ahora nos vamos a la tabla 61 00:11:00,970 --> 00:11:03,230 y buscamos para nuestro número de datos 62 00:11:03,230 --> 00:11:05,570 y el nivel de significación que queramos 63 00:11:05,570 --> 00:11:07,090 la Q que hay en la tabla 64 00:11:07,690 --> 00:11:14,129 Si el Q que nosotros hemos calculado es mayor que el que está en la tabla, rechazamos el valor. 65 00:11:14,590 --> 00:11:18,950 Ese valor lo quitamos y ya no lo utilizamos en cualquier cálculo posterior que tengamos. 66 00:11:19,429 --> 00:11:24,629 Si nos piden una media, un intervalo de confianza, ese valor es como si no existiese, lo tenemos que tachar. 67 00:11:24,889 --> 00:11:33,509 Si yo tenía originalmente siete datos y me sale que el valor que estoy evaluando es discrepante, 68 00:11:34,210 --> 00:11:36,769 ese dato lo tacho y yo a partir de ahora tengo seis datos. 69 00:11:37,090 --> 00:11:42,049 ¿Vale? Es como si no existiera. Entonces, vamos a hacer un ejemplo para verlo mejor. 70 00:11:43,269 --> 00:11:53,039 Me voy a poner aquí y la pizarra está de aquí y creo que tengo un ejercicio por aquí. 71 00:11:54,179 --> 00:11:59,360 Vale. Vamos a hacer este ejercicio. 72 00:12:01,399 --> 00:12:03,659 Voy a ver si me habéis dicho algo. 73 00:12:03,659 --> 00:12:12,090 ¿La práctica aún no está subida? No, no está subida todavía 74 00:12:12,090 --> 00:12:14,809 Vale, entonces 75 00:12:14,809 --> 00:12:20,570 Vamos a hacer este ejercicio de aquí 76 00:12:20,570 --> 00:12:23,549 No sé si lo veis bien así con... a ver, así no porque está fatal 77 00:12:23,549 --> 00:12:28,549 Pero si coloco la pantalla partida bien, espero que... 78 00:12:30,309 --> 00:12:34,669 ¿Lo veis más o menos regular, no? 79 00:12:38,169 --> 00:12:39,090 Sí, sí, se ve. 80 00:12:39,309 --> 00:12:40,830 ¿Se ve? Vale, pues estupendo. 81 00:12:41,450 --> 00:12:46,309 Entonces, nos dice el ejercicio que tenemos un laboratorio, bueno, es la continuación de otro ejercicio, 82 00:12:46,450 --> 00:12:48,870 esto os lo subiré para que practiquéis y hagáis todo, ¿vale? 83 00:12:48,870 --> 00:12:55,509 El anterior es de la distribución normal, si queréis lo hacemos, pero bueno, como estamos con el siguiente tema, 84 00:12:56,350 --> 00:13:02,269 entonces nos dice que un laboratorio ha llevado a cabo un análisis de conductividad de una muestra 85 00:13:02,269 --> 00:13:18,289 y que ha realizado 7 repeticiones, o sea, ya sabemos que nuestra n es igual a 7, ¿vale? 86 00:13:18,289 --> 00:13:32,009 Y nos dice que ha obtenido estos resultados, 414, 403, 419, 409, 414, 412 y 413. 87 00:13:32,269 --> 00:13:34,830 Y voy a evaluar si hay que eliminar algún dato. 88 00:13:34,970 --> 00:13:36,269 Entonces, ¿qué es lo primero que hago? 89 00:13:36,690 --> 00:13:40,629 Pues lo primero que hago es identificar cuál es el dato del que tengo dudas. 90 00:13:40,850 --> 00:13:43,730 Entonces, lo más fácil es ponérselos en orden. 91 00:13:44,409 --> 00:13:50,429 Esto cada uno, bueno, podéis utilizar un poco el truco que queráis, pero lo más lógico es ponernos en orden. 92 00:13:51,950 --> 00:13:59,269 403, 409, 412. 93 00:14:02,269 --> 00:14:21,210 413, 414 y 419. No sé si me he comido alguno, no, no. 419. Tenemos 1, 2, 3, 4, 5 y 6. Me he comido uno. 94 00:14:21,210 --> 00:14:24,269 El 13 está 95 00:14:24,269 --> 00:14:25,830 El 2 96 00:14:25,830 --> 00:14:28,029 El que, perdón 97 00:14:28,029 --> 00:14:30,610 El 414 98 00:14:30,610 --> 00:14:31,870 Se repite dos veces 99 00:14:31,870 --> 00:14:34,289 Vale, perfecto 100 00:14:34,289 --> 00:14:37,960 Vale, pues venga, lo voy a poner 101 00:14:37,960 --> 00:14:39,940 Dos veces el 414 102 00:14:39,940 --> 00:14:43,559 Y 103 00:14:43,559 --> 00:14:46,860 414 104 00:14:46,860 --> 00:14:49,279 Y 419 105 00:14:49,279 --> 00:14:51,279 Vale, tengo mis datos 106 00:14:51,279 --> 00:14:52,980 Entonces, así ya, a simple vista 107 00:14:52,980 --> 00:15:07,899 ¿cuál veo que es el que está fuera de tendencia? Este de aquí, ¿verdad? El 403, porque realmente el 403 siempre tiene que ser o el mayor o el menor, 108 00:15:08,059 --> 00:15:18,100 no puede ser uno de entre medias porque no tendría sentido que sea el que discrepa. Si yo represento esto, pues veo que el 403 es el que está más alejado de la media. 109 00:15:18,100 --> 00:15:43,679 Si tenemos dudas y no sabemos si tenemos que evaluar este de aquí o este de aquí, lo tenemos tan fácil como hacer la media. Entonces, hacemos la media y decimos, vale, 403 más 409 más 412 más 413 más 414 más 414 más 419 y todo ello entre 7, ¿vale? 110 00:15:43,679 --> 00:15:48,919 Voy a calcular la media, la hacemos con la calculadora, si la tenéis delante lo podéis hacer también. 111 00:15:51,100 --> 00:16:01,679 403, 409, 412, 413, 414, 414, 419. 112 00:16:02,620 --> 00:16:05,440 Y a mí me da que la media son 412. 113 00:16:08,269 --> 00:16:11,370 La media de estos datos son 412. 114 00:16:11,370 --> 00:16:23,809 Si yo hago la diferencia entre 412 y 403, me da 412 menos 403 son 9, ¿no? 115 00:16:24,269 --> 00:16:26,590 Ahí estaba poniendo 409, son 9. 116 00:16:27,429 --> 00:16:35,309 Si hago la resta de 419 menos 412 son 7, ¿no? 117 00:16:35,470 --> 00:16:37,470 Entonces veo que este está más alejado. 118 00:16:37,470 --> 00:16:41,409 O sea, que si alguno discrepa, lo primero que voy a hacer es evaluar este de aquí. 119 00:16:42,570 --> 00:16:49,450 Entonces, ya tengo el dato identificado. Veo que es el 403. 120 00:16:49,830 --> 00:16:56,070 ¿Qué tengo que hacer ahora? Aplicar mi fórmula de la Q de Dixon, que os acordáis, que la acabamos de ver, que era 121 00:16:56,070 --> 00:17:23,509 Ahora, la Q es igual a el valor absoluto de el valor del que dudo, que es 403, menos el valor más cercano, que en este caso es 409, y todo ello dividido entre el rango, que es el valor mayor menos el valor menor, 419 menos 403. 122 00:17:23,509 --> 00:17:42,369 Y esto me da 403 menos 409, en valor absoluto son 6, dividido entre 419 menos 403, me da 0,375. 123 00:17:44,170 --> 00:17:49,470 0,375. Esta es mi Q calculada. 124 00:17:49,470 --> 00:18:03,509 ¿Vale? Calculada. ¿Qué tengo que hacer ahora? Irme a las tablas. ¿Y qué tendré que buscar? Pues como me pedían en el ejercicio al 95 y al 99%, me piden que lo evalúe de las dos maneras. 125 00:18:03,509 --> 00:18:11,190 Primero me voy a mi tabla y voy al 95%. ¿Para qué número de valores? N igual a 7. 126 00:18:11,190 --> 00:18:19,609 Entonces, cojo mi tabla de la Q de Dixon. Las tenéis en el aula virtual, todas las tablas, ¿vale? 127 00:18:19,630 --> 00:18:30,329 Pues si las queréis ir mirando mejor en vuestro ordenador. Y me voy a N igual a 7 al 95% y es 0,568. 128 00:18:30,329 --> 00:18:47,329 La pizarra está aquí. La Q tabulada, la de las tablas, es 0,568. 129 00:18:47,710 --> 00:18:52,150 ¿Qué hago con este valor entonces con el 403? ¿Me lo quedo o lo tengo que eliminar? 130 00:18:52,150 --> 00:19:26,019 Ahora, me lo quedaré, ¿no? Porque hemos dicho que ahora comparo y veo que mi Q calculada es menor que mi Q tabulada y, por lo tanto, acepto la hipótesis nula, H0, y el valor de 403 me lo quedo. 131 00:19:26,019 --> 00:19:43,819 No lo tengo que eliminar, ¿vale? Me decía que lo hiciese. Esta es la Q tabulada para n igual a 7 al 95%, por lo que es lo mismo alfa igual a 0,05. 132 00:19:43,819 --> 00:19:54,359 Ahora me decía también al 99, pues hago lo mismo, me voy a mi tabla y digo vale n igual a 7 133 00:19:54,359 --> 00:20:07,200 y al 99% es 0,680, es más grande todavía, entonces al 99% pasa exactamente lo mismo 134 00:20:07,200 --> 00:20:18,019 Que mi Q calculada es menor que mi Q tabulada y por lo tanto acepto la hipótesis nula y ese valor no lo tengo que eliminar, ¿vale? 135 00:20:18,440 --> 00:20:32,559 Si lo hemos hecho todo bien, a ver si espero no haber hecho mal los cálculos, 4,09 menos 4,03 entre 4,19 menos 4,03 que me da 0,375, ¿no? 136 00:20:32,559 --> 00:20:49,809 todo bien. Y con esto calcularía si alguno de estos valores es discrepante. ¿Cuáles 137 00:20:49,809 --> 00:20:54,250 son los datos máximos que puedo hacer en Dixon? Aparte de lo que me indica que son 138 00:20:54,250 --> 00:21:01,670 de 3 a 10 datos. Máximo 10 datos. No entiendo la pregunta. Si tú tienes una serie de valores 139 00:21:01,670 --> 00:21:10,910 que son 20, no puedes utilizar este criterio. Y si te refieres a los datos máximos, solo puedes evaluar un dato cada vez, ¿vale? 140 00:21:10,930 --> 00:21:22,769 Lo que hemos dicho, como lo utilizamos para evaluar series relativamente pequeñas, no puedes, Dani, ¿tú no ves la pantalla? ¿Las demás sí? 141 00:21:24,509 --> 00:21:25,630 Sí, yo lo veo. 142 00:21:25,630 --> 00:21:37,309 Ah, vale, vale. Lo que digo es que como son series de datos relativamente pequeñas, si tenemos dos que ya son dudosos es que nuestros datos no son de calidad. Entonces, lo haríamos una vez. 143 00:21:37,309 --> 00:22:04,150 Bien, otro ejemplo que creo que tenemos aquí, bueno, lo tenemos, vamos a el de la Q de Dixon más o menos claro, ¿no? Es práctica, nos calculamos nuestra Q con esta fórmula de aquí, lo primero identificamos el valor dudoso, le restamos el más cercano y dividimos entre el rango recorrido y comparamos la Q de la tabla con la Q que hemos calculado. 144 00:22:04,650 --> 00:22:08,069 Si la nuestra, la que hemos calculado, es menor, nos quedamos con el valor. 145 00:22:08,349 --> 00:22:09,849 Si es mayor, lo eliminamos. 146 00:22:10,670 --> 00:22:16,730 Entonces, vamos a ver el siguiente y así podemos hacer el mismo ejercicio que hemos hecho, pero con el test de groups. 147 00:22:17,390 --> 00:22:18,250 Exactamente lo mismo. 148 00:22:18,930 --> 00:22:29,329 Lo que tenemos que hacer es calcular el estadístico, compararlo con la tabla, con el que esté en la tabla, y ver cuál de los dos es mayor. 149 00:22:29,769 --> 00:22:33,150 Si el nuestro es menor, el que hemos calculado, nos quedamos con el dato. 150 00:22:33,150 --> 00:22:48,049 Si el nuestro es mayor, eliminamos el dato. ¿Vale? Entonces, en este caso, ¿cómo se calcula la G o la R de Grus? Hacemos también el valor absoluto porque estos parámetros siempre tienen que ser positivos. 151 00:22:48,049 --> 00:22:50,349 lo veis en las tablas que todas tienen 152 00:22:50,349 --> 00:22:52,490 los valores mayor que 0 153 00:22:52,490 --> 00:22:54,210 buscamos 154 00:22:54,210 --> 00:22:56,130 el dato del que tenemos dudas 155 00:22:56,130 --> 00:22:58,009 menos la media de todos los datos 156 00:22:58,009 --> 00:23:00,289 y lo dividimos entre la desviación 157 00:23:00,289 --> 00:23:02,430 ¿vale? y con eso ya hemos calculado la G 158 00:23:02,430 --> 00:23:04,349 una vez que la tengo calculada 159 00:23:04,349 --> 00:23:06,509 me voy otra vez a las tablas 160 00:23:06,509 --> 00:23:08,009 y busco 161 00:23:08,009 --> 00:23:10,009 en la G o en la R ¿vale? 162 00:23:10,109 --> 00:23:12,730 para el valor 163 00:23:12,730 --> 00:23:14,170 de significación que yo quiera 164 00:23:14,170 --> 00:23:16,589 por defecto, acordaos que si no nos dicen nada 165 00:23:16,589 --> 00:23:31,789 A ver si puedo esconder esto. Si no nos dicen nada, al 95%. Si nos dicen ya, nos pueden decir al 99%, pero lo más genérico, lo más habitual es al 95%. 166 00:23:31,789 --> 00:23:37,089 Pues me voy a la columna del 95 para el número de datos que yo tenga, ¿vale? 167 00:23:37,089 --> 00:23:47,269 Aquí se pueden utilizar unos pocos más, tampoco se puede utilizar con unos pocos más valores que Dixon, 168 00:23:47,730 --> 00:23:52,470 pero lo mismo, con series de valores limitados, aproximadamente 15 valores, ¿vale? 169 00:23:52,470 --> 00:23:57,970 Como mucho, pero lo podemos utilizar si tenemos 5, si tenemos 6, si tenemos 3 valores, ¿qué pasará? 170 00:23:57,970 --> 00:24:17,170 Ahora, pues que si os dais cuenta es relativamente complicado si tenemos tres valores ver que hay una discrepante, ¿no? Por poder se puede, pero bueno, es menos, ¿cómo decirlo? Cuando calculemos nuestro parámetro va a ser difícil que esté por debajo de este valor, normalmente lo vamos a rechazar. 171 00:24:17,170 --> 00:24:31,809 Si os dais cuenta, cuantos más datos tenemos, este parámetro se va haciendo más grande y como nosotros, para quedarnos el dato, lo que queremos es que el que nosotros calculamos sea menor, va siendo cada vez, entre comillas, más fácil aceptar el valor. 172 00:24:31,809 --> 00:24:53,009 ¿Vale? Entonces, con lo que nos tenemos que quedar, ¿cómo se calcula este parámetro? Lo que hemos dicho, identificamos el valor dudoso, calculamos la media y la desviación, teniendo en cuenta todos los datos, incluyendo el que estamos evaluando, el dudoso, el que no sabemos si nos lo queremos quedar o no. 173 00:24:54,009 --> 00:25:04,730 Hacemos la media y la desviación, restamos el valor dudoso, le restamos la media y dividimos entre la desviación todo ello en valor absoluto y comparamos. 174 00:25:05,529 --> 00:25:12,250 Entonces, como tenemos aquí ya los datos, vamos a hacerlo con los mismos datos que hemos utilizado para Dixon. 175 00:25:12,250 --> 00:25:16,130 entonces, mira la media ya la habíamos calculado 176 00:25:16,130 --> 00:25:17,309 así que la dejo ahí puesta 177 00:25:17,309 --> 00:25:20,430 el valor del que dudamos es el mismo 178 00:25:20,430 --> 00:25:23,130 porque da igual que yo lo evalúe con un criterio o con otro 179 00:25:23,130 --> 00:25:24,890 que el valor del que tengo dudas es este 180 00:25:24,890 --> 00:25:30,829 entonces, para calcular la G o la R 181 00:25:30,829 --> 00:25:33,609 que os reitero que es lo mismo 182 00:25:33,609 --> 00:25:36,609 tenemos que hacer el valor del que sospecho 183 00:25:36,609 --> 00:25:39,269 lo referenciamos con un asterisco 184 00:25:39,269 --> 00:25:41,490 menos el valor medio 185 00:25:41,490 --> 00:25:46,009 dividido entre la desviación, ¿vale? 186 00:25:46,710 --> 00:25:54,549 Entonces tenemos el valor del que dudamos, que es 403. 187 00:25:56,109 --> 00:25:59,250 La media, como la hemos calculado antes, la tenemos aquí, ¿vale? 188 00:25:59,269 --> 00:26:01,769 Si no lo hubiésemos calculado, la tendríamos que calcular. 189 00:26:02,190 --> 00:26:03,569 Todo esto en valor absoluto. 190 00:26:04,470 --> 00:26:05,730 Y ahora entre la desviación. 191 00:26:06,430 --> 00:26:08,769 ¿Cómo la hacemos? Pues con la calculadora, ¿vale? 192 00:26:09,269 --> 00:26:10,490 Entonces vamos a ello. 193 00:26:10,490 --> 00:26:18,849 Como tengo ya los datos metidos de antes, yo creo que la puedo hacer directamente, pero os dejo un par de minutos para que me digáis cuál es. 194 00:26:59,059 --> 00:27:11,710 ¿La tenemos alguna, la S? Vale, pero este valor que me estás dando no puede ser la desviación porque las desviaciones son positivas también. 195 00:27:11,710 --> 00:27:17,049 Acordaos que es un parámetro que siempre va a ser positivo 196 00:27:17,049 --> 00:27:21,650 Entonces yo creo que lo que me estás dando es el valor de la R 197 00:27:21,650 --> 00:27:23,549 O sea, de la G, ya con los cálculos hechos 198 00:27:23,549 --> 00:27:25,849 Pero lo mismo, acuérdate que está en valor absoluto 199 00:27:25,849 --> 00:27:28,309 Y tiene que ser positivo, ¿vale? 200 00:27:28,329 --> 00:27:30,910 Porque esto es positivo, porque está en valor absoluto 201 00:27:30,910 --> 00:27:31,509 Y esto también 202 00:27:31,509 --> 00:27:34,710 Entonces la S, en mi calculadora 203 00:27:34,710 --> 00:27:37,390 Si lo he hecho todo bien, espérate que lo he borrado 204 00:27:37,390 --> 00:27:40,329 Me da 4,96 205 00:27:40,329 --> 00:27:46,730 ¿Eso es la desviación poblacional o la desviación muestral? 206 00:27:50,099 --> 00:27:53,019 Muestral, poblacional, escu, creo. 207 00:27:53,839 --> 00:27:57,400 Vamos a poner un segundo el Excel y salimos de dudas. 208 00:27:58,400 --> 00:28:13,460 Tenemos el valor 403, 409, a ver si nos lo sabemos ya de memoria. 209 00:28:13,460 --> 00:28:41,279 4, 4, 0, 9, tenemos el 412, 413, 414, 414, 419 y le vamos a dar a la desviación estándar punto M que es la de la muestra y nos da 4,96 210 00:28:41,279 --> 00:28:48,500 Y ahora le vamos a dar a la desviación estándar P, que es el de la población, ¿vale? 211 00:28:49,339 --> 00:28:50,559 Que es esta de aquí. 212 00:28:51,460 --> 00:28:54,220 Y la que queremos es la de la muestra, ¿no? 213 00:28:54,220 --> 00:28:56,039 Que es la primera, esta de aquí. 214 00:28:56,579 --> 00:29:02,819 Que es la que habías dicho, no sé quién ha hablado, pero era esta, ¿no? 215 00:29:02,819 --> 00:29:10,599 Ese es igual a 4,967, ¿no? Redondeando. 216 00:29:12,650 --> 00:29:21,029 Es igual a 4,967, ¿vale? 217 00:29:21,549 --> 00:29:30,230 Pues tenemos entonces 403 menos 412 en valor absoluto, dividido entre 4,967. 218 00:29:30,230 --> 00:29:34,450 Y esto nos da, ¿lo tenéis alguno? 219 00:29:34,450 --> 00:29:39,289 entre 4,967 220 00:29:39,289 --> 00:29:41,710 nos da 1,81 221 00:29:41,710 --> 00:29:42,829 me sale a mí 222 00:29:42,829 --> 00:29:47,990 1,81 223 00:29:47,990 --> 00:29:50,750 lo he hecho bien 224 00:29:50,750 --> 00:29:51,950 pues da lo mismo 225 00:29:51,950 --> 00:30:00,839 1,81 226 00:30:00,839 --> 00:30:03,000 entonces ahora me iría a mi tabla 227 00:30:03,000 --> 00:30:05,380 sigo teniendo 7 valores 228 00:30:05,380 --> 00:30:06,240 ¿vale? 229 00:30:06,900 --> 00:30:08,480 entonces me voy aquí 230 00:30:08,480 --> 00:30:10,779 y veo que el 95% 231 00:30:10,779 --> 00:30:30,299 la tabulada es 2,020. La tabulada al 95% para n igual a 7 es igual a 2,020. La que yo he 232 00:30:30,299 --> 00:30:40,700 calculado es menor que la tabulada. Por lo tanto, según este criterio, lo mismo que 233 00:30:40,700 --> 00:30:49,220 con el anterior. Acepto la hipótesis nula y, por lo tanto, el 403 me lo quedo. ¿Vale? 234 00:30:50,900 --> 00:30:58,240 Habíamos dicho al 95 y al 99 lo mismo, ¿no? Este valor al 99 siempre va a ser más grande 235 00:30:58,240 --> 00:31:10,380 que al 95. Entonces, si al 95 lo hemos aceptado, al 97 también, ¿no? 2,02 al 95%, 2,139 al 236 00:31:10,380 --> 00:31:20,480 99%, ¿vale? Entonces, el procedimiento calculo. Depende de lo que me estén diciendo. Normalmente 237 00:31:20,480 --> 00:31:24,920 se utiliza mucho, mucho el de la Q de Dixon, pero en un ejercicio me pueden pedir que evalúe 238 00:31:24,920 --> 00:31:28,920 según distintos criterios, a distintos niveles de significación 239 00:31:28,920 --> 00:31:32,400 y yo es lo que tengo que hacer, pues ver si este dato lo tengo que eliminar o no. 240 00:31:33,220 --> 00:31:38,420 Vamos a ponernos en el caso, yo he calculado y he dicho que este dato me lo quedo. 241 00:31:38,740 --> 00:31:43,220 Pues ahora, si a mí me piden expresar el resultado final con su intervalo de confianza, 242 00:31:43,299 --> 00:31:44,000 ¿qué tendré que hacer? 243 00:31:44,000 --> 00:31:54,579 Acordaos que el intervalo de confianza es la media más menos t por s dividido entre raíz de n. 244 00:31:54,920 --> 00:32:09,200 La media son 412 porque utilizo todos los datos. 412 más menos la TED Student. Ahora, cuando me vaya a la tabla de la TED Student, ¿dónde tengo que buscar? 245 00:32:12,549 --> 00:32:22,710 Vamos a buscar la tabla. ¿Os acordáis? Tengo que buscar en la tabla de dos colas. ¿Por qué no está aquí la tabla? 246 00:32:22,710 --> 00:32:32,529 sería n-1 247 00:32:32,529 --> 00:32:34,190 n-1, efectivamente 248 00:32:34,190 --> 00:32:35,789 entonces como tengo 7 datos 249 00:32:35,789 --> 00:32:37,230 tengo que buscar en la tabla 250 00:32:37,230 --> 00:32:38,869 que perdonadme, es que como tengo aquí 251 00:32:38,869 --> 00:32:41,309 tantísimas cosas, no me sale en la sub... 252 00:32:41,309 --> 00:32:43,009 ah, porque estoy en general, perdonadme 253 00:32:43,009 --> 00:32:44,950 está dentro de la unidad 5 la tabla 254 00:32:44,950 --> 00:32:46,069 me estaba 255 00:32:46,069 --> 00:32:48,450 me estaba volviendo 256 00:32:48,450 --> 00:32:50,730 loca aquí, vale, vale 257 00:32:50,730 --> 00:32:52,990 entonces ahora en la unidad 5 258 00:32:52,990 --> 00:32:54,549 que tenemos todas las tablas 259 00:32:54,549 --> 00:32:56,950 aquí 260 00:32:56,950 --> 00:33:05,049 Y ya estamos, puedo abrir la tabla de la T de Estiudet. 261 00:33:05,849 --> 00:33:15,210 Vale, entonces ahora yo quiero calcular el intervalo de confianza, que es la media, más menos T por S dividido entre raíz de N. 262 00:33:15,210 --> 00:33:23,730 Y justo lo que acabas de decir, quien haya hablado, que N menos 1 son 6, ¿vale? 263 00:33:23,730 --> 00:33:35,990 Entonces, si lo quiero buscar al 95%, me voy aquí al 0,05, el T que yo tengo que utilizar sería 2,45, ¿vale? 264 00:33:35,990 --> 00:34:02,640 O sea, este t más menos 2,45 por s, que ya lo he calculado, está aquí, 4,967 y dividido entre raíz de n, que es raíz de cuánto? De 7. 265 00:34:02,640 --> 00:34:18,639 N es igual a 7, ¿vale? Entonces esto me da 2,45 por 4,967 dividido entre la raíz de 7 me da 4,5995. 266 00:34:19,420 --> 00:34:23,539 Acordaos que el intervalo de confianza se expresa con una cifra significativa, ¿vale? 267 00:34:23,539 --> 00:34:53,050 Entonces, 4,5999, ¿a qué lo redondearía? Para que tenga una cifra solo significativa. A 5, ¿no? Esto de aquí me da esta operación, esta operación de aquí me da 4,599, así que la redondeo a 5. 268 00:34:53,050 --> 00:35:19,929 Mi resultado final sería 412 más menos 5, o sea, el intervalo entre 412 menos 5, que son 407, 269 00:35:19,929 --> 00:35:46,900 y 412 más 5 que son 417. Este es el intervalo en el que están mis datos. Aquí no he puesto unidades porque aquí no tenía unidades, 270 00:35:46,900 --> 00:35:58,840 Pero imaginaos que estos datos que me están dando me los dan en moles, en gramos partido por mililitro, en cualquier unidad que sea. 271 00:35:58,960 --> 00:36:02,380 Yo tengo que, mi resultado final lo tendría que dar con esas unidades. 272 00:36:02,940 --> 00:36:07,900 Aquí en este caso, como son valores adimensionales en principio, lo expresaría así. 273 00:36:08,360 --> 00:36:12,960 Aunque no sé si en el ejercicio, vamos a volver a leerlo, nos está dando unidades. 274 00:36:12,960 --> 00:36:18,539 no se está dando unidades, no se está dando microsiemens partido por centímetro cúbico 275 00:36:18,539 --> 00:36:21,519 pues entonces mi resultado final sería esto 276 00:36:21,519 --> 00:36:29,179 412 más menos 5 microsiemens partido por centímetro cúbico 277 00:36:29,179 --> 00:36:32,639 porque son las unidades que tienen mis datos originales 278 00:36:32,639 --> 00:36:38,300 entonces si me dijesen, te doy una serie de, he hecho unas medidas en el laboratorio 279 00:36:38,300 --> 00:36:42,820 tengo una serie de datos, evalúa según este criterio 280 00:36:42,820 --> 00:36:56,679 que puede ser Dixon o Grubbs, en un nivel de significación concreto, mira si tienes que eliminar algún valor y exprésame la media de mis datos con su intervalo de confianza. 281 00:36:56,679 --> 00:37:12,719 En este caso haría esto. Ahora vamos a ponernos en otro caso. Imaginaos que este ejercicio ya estaría terminado, habíamos evaluado y hemos expresado nuestro resultado. 282 00:37:12,820 --> 00:37:41,820 Ahora, imaginaos que voy a borrar esto y sigo teniendo 7 datos, sigo teniendo las mismas unidades y todo, pero ahora os voy a decir que mis valores son, este es el mismo que tenía, que era 409, y este valor de aquí es 397. 283 00:37:42,820 --> 00:37:48,380 ¿Vale? Yo esto ya lo veo y a priori sé que el 397 este se va a tener que ir fuera, ¿no? 284 00:37:48,380 --> 00:37:51,940 Pero lo voy a analizar de todas formas para que se lo elimino sea con criterio. 285 00:37:52,519 --> 00:37:55,159 Me hago lo mismo. ¿Cómo calculo la Q de Dixon? 286 00:37:56,800 --> 00:38:02,739 El valor del que dudo menos el valor más cercano 287 00:38:02,739 --> 00:38:10,639 dividido entre el valor mayor menos el valor menor, ¿no? 288 00:38:10,639 --> 00:38:29,360 que es el rango y me sale que en este caso mi Q de Dixon son 409 menos 397 dividido entre 419 menos 397. 289 00:38:29,360 --> 00:38:40,559 Me sale una Q de Dixon de 0,545, ¿vale? 0,545. 290 00:38:41,320 --> 00:38:48,440 Nos acordamos de qué valor teníamos al 95% para n igual a 7. 291 00:38:48,440 --> 00:38:51,320 en la Q de Dixon 292 00:38:51,320 --> 00:38:53,760 uy, al límite 293 00:38:53,760 --> 00:38:57,300 teníamos 0,568 294 00:38:57,300 --> 00:39:00,739 y hemos dicho que tenemos aquí 545 295 00:39:00,739 --> 00:39:02,840 pues de milagro lo aceptamos también 296 00:39:02,840 --> 00:39:05,280 ¿no? porque mi Q 297 00:39:05,280 --> 00:39:08,860 calculada 298 00:39:08,860 --> 00:39:11,659 es menor que la Q tabulada 299 00:39:11,659 --> 00:39:14,679 que es 0,568 300 00:39:14,679 --> 00:39:17,079 venga, pues como yo lo que quiero es que 301 00:39:17,079 --> 00:39:29,179 lo eliminemos, vamos a poner en vez de 3,97, vamos a trampearlo y vamos a poner 3,95, a ver si así nos sale. 302 00:39:29,179 --> 00:39:50,110 3,95. Vale, aquí tachamos el 3,97 y ponemos 3,95 y aquí lo mismo, ¿no? 3,95. 303 00:39:50,110 --> 00:40:21,739 3,95 y 3,95 y entonces esto nos da 309 menos 3,95 entre 319 menos 3,95. 304 00:40:21,739 --> 00:40:45,480 Ahora sí que sí me da 0,583, ¿vale? 0,583. Y ahora ya sí que sí está por debajo, ¿no? Sí, sí, vale. 0,583 es la Q que yo he calculado y al 95% para mí igual a 7 es 0,568. 305 00:40:45,480 --> 00:41:00,440 Está ligeramente, la mía, la que yo he calculado, está ligeramente por encima, ¿no? La Q calculada, tabulada, perdón, es 0,568. 306 00:41:00,440 --> 00:41:27,989 ¿Qué me dice esto? Que como mi Q calculada es menor que mi Q tabulada, rechazo la hipótesis nula y por lo tanto elimino el valor discrepante, el valor del que tenía dudas, el valor discrepante. 307 00:41:27,989 --> 00:41:55,059 ¿Vale? Este dato, el 395, fuera, lo tacho y ahora es como si nunca hubiese existido, ¿vale? ¿Por qué digo esto? Porque es importante, porque yo ahora, ¿cuántos datos tengo? Yo ya no tengo 7 datos, yo ahora tengo 6, porque este dato ya no existe, ¿vale? Entonces, ahora mismo yo tengo 6 datos, ¿vale? 308 00:41:55,059 --> 00:42:07,840 Y ahora lo mismo, te digo, vale, has evaluado esta serie de datos con el criterio de la Q de Dixon y has llegado a la conclusión de que ese dato hay que eliminarlo. 309 00:42:07,840 --> 00:42:16,239 Tú preséntame los resultados finales del análisis con su intervalo de confianza correspondiente. 310 00:42:16,699 --> 00:42:31,539 Tengo que hacer lo mismo, ¿no? Tengo que presentar mi x media más menos mi t por s dividido entre raíz de n. 311 00:42:32,059 --> 00:42:40,039 ¿Cuánto es mi x media? Lo tengo que calcular, ¿no? 312 00:42:40,039 --> 00:42:45,059 Porque mi X media ahora es la X de estos valores de aquí. 313 00:42:45,880 --> 00:42:52,000 El 395 no existe, lo ignoro, lo tacho, lo borro, lo rompo la hoja, o sea, no lo vuelvo a tocar. 314 00:42:52,900 --> 00:42:54,860 Entonces ahora tendría que hacer, ¿cómo hago la media? 315 00:42:54,860 --> 00:43:13,400 Pues haría 409 más 412 más 413 más 414 más 419 dividido entre 6 valores, ¿no? 316 00:43:13,599 --> 00:43:18,880 1, 2, 3, 4, 5 y 6, dividido entre 6. 317 00:43:19,300 --> 00:43:24,519 Y esto me da, lo hago con la calculadora, voy a meter otra vez los datos. 318 00:43:24,860 --> 00:43:40,860 vale, y entonces ahora me doy el 409, 412, 413, 414, 414, 419 319 00:43:40,860 --> 00:43:46,179 hago la media y me da que es 413,5 320 00:43:46,179 --> 00:43:53,539 vale, x media es 413,5 321 00:43:53,539 --> 00:44:05,260 Como lo tengo que expresar con los mismos decimales que mis datos originales y este número es impar, pues lo rendeo a 414, es mi media. 322 00:44:07,260 --> 00:44:20,139 Ahora, ¿cómo calculo mi intervalo de confianza? Es 414 más menos t por s dividido entre raíz de n. 323 00:44:20,860 --> 00:44:21,739 ¿Cuánto es n? 324 00:44:21,739 --> 00:44:25,050 6 325 00:44:25,050 --> 00:44:27,010 raíz de 6 326 00:44:27,010 --> 00:44:30,010 la S la tengo que calcular con mi calculadora 327 00:44:30,010 --> 00:44:32,210 que como tengo ya los datos metidos 328 00:44:32,210 --> 00:44:34,469 la S es 329 00:44:34,469 --> 00:44:37,429 3,27 330 00:44:37,429 --> 00:44:38,690 ¿me sale a mí? 331 00:44:40,010 --> 00:44:42,469 sí, 27,10,85 332 00:44:42,469 --> 00:44:43,349 pero bueno 333 00:44:43,349 --> 00:44:45,369 lo dejamos así 334 00:44:45,369 --> 00:44:47,349 y ahora la T de student 335 00:44:47,349 --> 00:44:49,909 ¿qué hago? me voy a mi tabla de la T de student 336 00:44:49,909 --> 00:44:51,469 y como estoy 337 00:44:51,469 --> 00:44:53,409 al 95% y es 338 00:44:53,409 --> 00:44:55,510 esto muy importante, siempre cuando 339 00:44:55,510 --> 00:44:57,570 hablamos de intervalos de confianza es la de dos 340 00:44:57,570 --> 00:44:59,469 colas, ¿vale? Que luego veremos la de una cola 341 00:44:59,469 --> 00:45:01,250 pero ahora siempre esta de aquí 342 00:45:01,250 --> 00:45:03,409 la cabecera de la tabla 343 00:45:03,409 --> 00:45:05,409 entonces me voy al 344 00:45:05,409 --> 00:45:07,550 95% y ¿dónde tengo que 345 00:45:07,550 --> 00:45:07,949 buscar? 346 00:45:09,230 --> 00:45:11,929 ¿En qué fila? 0,05 347 00:45:11,929 --> 00:45:13,829 0,05 348 00:45:13,829 --> 00:45:15,429 es la columna, ¿no? 349 00:45:16,070 --> 00:45:17,750 Esta de aquí, la tenemos ya fichada 350 00:45:17,750 --> 00:45:19,530 porque es el 95%, ahora 351 00:45:19,530 --> 00:45:20,889 ¿en qué fila miro? 352 00:45:21,469 --> 00:45:22,670 En la del 5. 353 00:45:23,090 --> 00:45:30,650 En la del 5, justo, porque tenemos 6 datos, n-1 es igual a 5, así que tenemos que buscar en esta de aquí, ¿no? 354 00:45:30,650 --> 00:45:53,780 2,57, perfecto, 2,57, pues ya lo tengo, hago 2,57 por 3,2710, dividido todo ello entre raíz de 6, 355 00:45:53,780 --> 00:46:01,710 Y me sale 3,43. ¿A cuánto redondeo? Esto me sale... 356 00:46:01,710 --> 00:46:02,949 6,4. 357 00:46:03,489 --> 00:46:05,809 3,43 me sale. 358 00:46:07,849 --> 00:46:12,059 ¿A 3? ¿Por qué no? 359 00:46:12,320 --> 00:46:26,159 3, perfecto. Lo tengo que dejar en una cifra significativa y como el siguiente número está más cerca del 0 que del 10 y no es un 5, redondeo al anterior, ¿no? 3. 360 00:46:26,159 --> 00:46:40,940 Entonces, mi resultado final aquí sería, mi media es 414 más menos 3, y creo que las unidades eran microsiemens centímetro cúbico. 361 00:46:41,719 --> 00:46:49,280 Y este sería mi resultado final, porque yo el primer valor este, como lo he eliminado, ya lo ignoro para el resto del ejercicio, ¿vale? 362 00:46:49,280 --> 00:47:08,940 De eso se trata, en realidad, de que yo pueda expresar mi resultado final sabiendo si he tenido que eliminar un dato, ¿no? Entonces, si me sale según el estadístico que no lo tengo que eliminar, ok, lo utilizo, lo meto en la media, hago la desviación con él para hacer el intervalo de confianza, lo considero. 363 00:47:08,940 --> 00:47:24,739 Pero si lo he eliminado, no existe. En vez de tener siete datos, tengo seis. Si tuviese diez datos y lo he eliminado, pues en vez de diez, tengo nueve. ¿Vale? Es lo único que tenéis que tener como muy, muy en la cabeza. Que una vez que lo eliminas, no hay que volver a considerarlo. ¿Vale? 364 00:47:24,739 --> 00:47:39,159 Entonces, lo hemos hecho este con la Q de Dixon para no estar repitiendo tanto, pero si lo quisiésemos hacer con GRUS, ¿qué tendríamos que hacer? Pues calcular el estadístico, R o G, es igual al valor del que sospechamos, 365 00:47:39,159 --> 00:47:56,579 menos la media de todos los datos, incluyendo el 3,95, porque estoy haciendo otra evaluación, es como si empezase de cero el ejercicio. 366 00:47:56,900 --> 00:48:07,059 La media de todos estos datos contando con el 3,95 y dividido entre la desviación contando con todos esos datos, incluyendo el 3,95. 367 00:48:07,920 --> 00:48:15,860 Ahora, calculo mi estadístico, me voy a la tabla para ver cuál es el valor que tengo ahí y hago exactamente lo mismo. 368 00:48:15,860 --> 00:48:22,739 Si la R que yo he calculado es menor que la R de la tabla, me quedó el dato. 369 00:48:24,239 --> 00:48:28,360 Acepto la hipótesis nula y me quedó el dato. 370 00:48:28,360 --> 00:48:48,849 El dato, ok. Si el que yo he calculado es mayor que el que está en la tabla, rechazo. Rechazo la hipótesis nula y el dato lo elimino. 371 00:48:48,849 --> 00:49:01,179 Dato lo elimino. ¿Vale? ¿Dudas sobre esto? A ver, que me ponga aquí. 372 00:49:02,519 --> 00:49:05,019 Por favor, tengo una pregunta. 373 00:49:05,460 --> 00:49:06,320 Sí, cuéntame. 374 00:49:07,659 --> 00:49:11,739 ¿Suelen coincidir siempre Grooves y Dixon o…? 375 00:49:11,739 --> 00:49:29,920 A ver, coinciden muchas veces, pero sí que hay veces que con uno de los criterios no eliminas el dato por muy poquito y con el otro sí. A lo mejor con uno con una significación del 95 lo eliminas y con el otro con una del 99 te lo quedas. 376 00:49:30,559 --> 00:49:32,659 Pero normalmente se hace solamente uno, ¿vale? 377 00:49:32,659 --> 00:49:37,500 Aquí como es para practicar y son ejercicios, digamos, falsos, vamos, falsos, 378 00:49:37,599 --> 00:49:42,440 que están puestos para que los hagamos y practiquemos, estamos haciéndolo con varios. 379 00:49:42,559 --> 00:49:45,440 Pero normalmente se coge un criterio, que es lo que te digo, 380 00:49:45,679 --> 00:49:51,800 normalmente el más habitual es de la QTDIC, son las 95 y se evalúa con S, se evalúa una vez, ¿vale? 381 00:49:51,800 --> 00:49:57,059 Lo que sí que muchas veces, muchas, muchas veces sale distinto 382 00:49:57,059 --> 00:50:02,239 es cuando utilizamos los test que están basados en los intervalos de confianza. 383 00:50:02,639 --> 00:50:07,400 Ahora mismo hemos analizado estos de aquí, los de las tablas, que son el de Gruss y el de Dixon. 384 00:50:09,480 --> 00:50:12,340 El más utilizado es el de Dixon y es el menos restrictivo. 385 00:50:12,340 --> 00:50:20,420 Si te sale en el de Dixon que lo rechazas, en el de Gruss también lo vas a rechazar, 386 00:50:20,860 --> 00:50:23,639 porque es más restrictivo, o sea, más permisivo. 387 00:50:23,639 --> 00:50:48,599 Si te sale en este que lo aceptas, en el de groups puede que lo aceptes o puede que lo rechaces. Pero bueno, son digamos realistas porque estos de aquí, los basados en el intervalo de confianza, que ahora los veremos, hacemos ahora la siguiente parte con ellos, sí que es verdad que son muy restrictivos, son muy estrictos y es difícil quedarte con tu dato. 388 00:50:48,599 --> 00:50:58,880 O sea, si tienes un dato discrepante, con estos criterios casi siempre lo tienes que acabar eliminando. Y con el de Dixon, pues depende. Y con el de Gruss también hay veces que te lo quedas. 389 00:51:00,079 --> 00:51:10,539 Entonces, lo único importante, bueno, lo único no, pero lo más importante que os tenéis que quedar es que estos métodos que hemos utilizado, que están basados en tablas, 390 00:51:10,539 --> 00:51:23,639 Cuando nosotros calculamos el estadístico y hacemos nuestras comparaciones y metemos los datos en la calculadora, lo hacemos con todos los datos que tenemos, incluyendo el dato del que tenemos dudas. 391 00:51:24,820 --> 00:51:36,480 En cambio, estos métodos de aquí, los que están basados en intervalos de confianza, no metemos, cuando hacemos los cálculos, nunca metemos el resultado sospechoso. 392 00:51:36,480 --> 00:51:47,400 ¿Vale? Si yo tengo que calcular una media, quito el resultado del que tengo dudas y hago la media, ¿vale? Para hacer la comparación y luego ya decido si el dato me lo quedo o no me lo quedo. 393 00:51:47,619 --> 00:52:00,559 Pero para hacer los cálculos, igual que ahora lo hacíamos con todos para calcular la R y la Q, cuando utilicemos estos métodos no utilizamos el dato del que dudamos, ¿vale? 394 00:52:00,559 --> 00:52:14,039 Y estos de aquí se utilizan mucho menos. ¿Por qué? Porque son mucho más restrictivos. Este de aquí, el 2,5D, tiene que ser una diferencia muy mínima entre los datos para aceptarlo. 395 00:52:14,039 --> 00:52:38,599 ¿Vale? ¿Cómo es el procedimiento en estos? Pues lo que hacemos es un intervalo de valores que lo calculamos con distintas fórmulas según cuál sea el test que estamos utilizando y si nuestro dato cae dentro de esos valores, dentro de ese intervalo, dentro de ese margen que hemos establecido, nos lo quedamos. 396 00:52:38,599 --> 00:52:51,119 Si cae fuera, está fuera y lo eliminamos. Entonces, de esto vamos a verlo un poco por encima porque lo que os digo se utiliza menos, pero bueno, como podemos hacer algún ejercicio ya que tenemos los datos. 397 00:52:52,599 --> 00:53:05,380 Entonces, vamos a ello. Recordatorio a lo que os acabo de decir, si utilizamos los métodos basados en intervalo de confianza, no se utiliza el valor sospechoso. 398 00:53:05,380 --> 00:53:10,139 si utilizamos los métodos basados en tablas 399 00:53:10,139 --> 00:53:11,440 para realizar los cálculos 400 00:53:11,440 --> 00:53:13,420 si utilizamos el valor sospechoso 401 00:53:13,420 --> 00:53:16,539 los cálculos previos, los cálculos de evaluar 402 00:53:16,539 --> 00:53:18,139 luego en ambos es común 403 00:53:18,139 --> 00:53:19,739 que si rechazo el dato 404 00:53:19,739 --> 00:53:21,880 lo rechazo para siempre, lo tacho 405 00:53:21,880 --> 00:53:23,719 y tengo un valor menos 406 00:53:23,719 --> 00:53:26,300 y si acepto el dato me lo quedo 407 00:53:26,300 --> 00:53:26,820 y ya está 408 00:53:26,820 --> 00:53:30,679 eso es común a los dos tipos de métodos 409 00:53:30,679 --> 00:53:33,780 criterio 2S 410 00:53:33,780 --> 00:53:35,099 esa es la desviación 411 00:53:35,099 --> 00:54:01,119 La desviación que estamos calculando siempre, desviación típica, desviación estándar. Entonces, no utilizamos para calcular la S el valor que consideramos sospechoso, hacemos el intervalo, que es la media de los datos sin el valor sospechoso, más menos dos veces la desviación estándar. 412 00:54:01,119 --> 00:54:24,599 Si nuestro valor sospechoso está dentro de ese intervalo, nos lo quedamos. Si no, lo rechazamos. Entonces, por ejemplo, si volvemos al caso que teníamos planteado, que es este de aquí, pero bueno, el anterior, que era más o menos, este es muy obvio que va a salir que no. 413 00:54:24,599 --> 00:54:47,099 Pero bueno, vamos a hacerlo con unos datos nuevos. Si tenemos, por ejemplo, los que teníamos al principio, que si no recuerdo mal, que eran los que hemos aceptado, eran el 403. 414 00:54:47,099 --> 00:55:02,280 No sé si voy a ponerlos exactamente, pero bueno, 409, 412, 413, 414, 414, 419, ¿no? Era así. 415 00:55:03,019 --> 00:55:09,619 Teníamos n igual a 7 y he puesto 7, 1, 2, 3, 4, 5, 6 y 7, ¿vale? 416 00:55:09,619 --> 00:55:25,440 Y habíamos hecho con la Q de Dixon y con la R de Brooks y en ambos casos este valor, el 403, que es nuestro valor sospechoso, el valor que no sabemos si nos tenemos que quedar o no, con esos dos tests en ambos lo habíamos aceptado. 417 00:55:25,440 --> 00:55:38,420 Ahora vamos a ver qué pasa con el D2S. Este se suele aplicar de todas formas a series grandes de números, cuando tenemos muchos datos y lo que os digo, que tampoco lo aplicamos tanto. 418 00:55:39,400 --> 00:55:46,340 Entonces, tengo que calcular, para poder hacer este intervalo, la media y tengo que calcular la desviación, ¿no? 419 00:55:46,739 --> 00:55:52,099 Esto lo calculo con la calculadora, pero este dato, este 403, no lo incluyo. 420 00:55:52,199 --> 00:55:56,139 Yo hago la media y la desviación de estos valores de aquí. 421 00:55:57,019 --> 00:55:58,840 Entonces, ¿cuánto me da? Pues lo voy a hacer. 422 00:55:59,000 --> 00:56:02,179 Hacedlo vosotros también con la calculadora y así practicáis. 423 00:56:03,679 --> 00:56:08,260 Entonces, 400... Tengo 6 datos para hacer la media y la desviación. 424 00:56:08,420 --> 00:56:20,820 El 409, 412, 413, 414, 414 y 419. 425 00:56:22,400 --> 00:56:26,380 Y mi media es 413,5. 426 00:56:26,480 --> 00:56:28,079 ¿Lo habíamos calculado antes? ¿Puede ser? 427 00:56:29,420 --> 00:56:31,480 Ah, sí, claro, porque habíamos eliminado el dato. 428 00:56:31,480 --> 00:56:37,199 Ya la teníamos hecha. 413,5 que redondeamos a 414. 429 00:56:37,199 --> 00:56:49,179 Y la S, perdón, esa sería 3,27, 3,27, pues a ver, no lo he hecho, pero es la misma que hemos hecho antes, era eso, ¿verdad? 430 00:56:49,900 --> 00:56:57,519 Aquí en la muestral también, siempre en la muestral, sí, sí, 3,27, vamos siempre en estos casos, ¿vale? 431 00:56:57,519 --> 00:57:23,960 Entonces, nuestro intervalo sería la media más menos 2s, o sea, 414 más 2 por 3,27, que es igual a 6,2 por 3,27, 6,54. 432 00:57:23,960 --> 00:57:38,170 Entonces, que lo vamos a redondear, bueno, podríamos haber redondeado al final, si os digo la verdad, pero bueno, lo dejamos así, lo redondeamos a 7, ¿no? 433 00:57:38,170 --> 00:58:00,909 Entonces, es mi media es igual a 414 menos 7, 414 más 7, ¿no? Ese es el intervalo, que es igual a 414 menos 7 son 407 y 414 más 7 son 421, ¿no? 434 00:58:00,909 --> 00:58:12,550 Este es el intervalo que yo he calculado con este criterio, entre 407 y 421. 435 00:58:13,550 --> 00:58:20,250 ¿403 está aquí dentro? No, no, está por debajo de este intervalo, no está dentro de este intervalo. 436 00:58:20,690 --> 00:58:23,750 Pues el 403, según este criterio, lo elimino. 437 00:58:23,750 --> 00:58:29,019 según este criterio 438 00:58:29,019 --> 00:58:32,079 igual que con la Q de Dixon y con Gruss 439 00:58:32,079 --> 00:58:34,960 el 403 si lo aceptaba 440 00:58:34,960 --> 00:58:38,500 en este caso lo elimino 441 00:58:38,500 --> 00:58:41,260 a ver, que susto, pensé que no lo había dado a grabar 442 00:58:41,260 --> 00:58:43,420 me ha venido el... 443 00:58:43,420 --> 00:58:46,679 perdona, que según el criterio este de 2S 444 00:58:46,679 --> 00:58:50,000 el 403 lo elimino, cuando yo quiera calcular la media 445 00:58:50,000 --> 00:58:52,159 ¿cuál será? pues ya la tengo hecha 446 00:58:52,159 --> 00:58:55,019 como la he calculado ya sin este, será 447 00:58:55,019 --> 00:58:56,619 404 448 00:58:56,619 --> 00:59:00,179 414, perdón 449 00:59:00,179 --> 00:59:02,079 más menos 450 00:59:02,079 --> 00:59:03,719 t por s entre raíz de n 451 00:59:03,719 --> 00:59:05,340 que es lo que habíamos calculado antes 452 00:59:05,340 --> 00:59:06,039 que era 453 00:59:06,039 --> 00:59:10,400 esto de aquí, ¿verdad? 454 00:59:11,320 --> 00:59:11,519 sí 455 00:59:11,519 --> 00:59:14,239 3 456 00:59:14,239 --> 00:59:17,440 414 457 00:59:17,440 --> 00:59:18,900 más menos 3 458 00:59:18,900 --> 00:59:22,000 y este es mi resultado 459 00:59:22,000 --> 00:59:24,119 si estoy utilizando lo mismo de antes 460 00:59:24,119 --> 00:59:31,000 pues las mismas unidades, partido por centímetro al cubo. 461 00:59:33,969 --> 00:59:38,630 Entonces, en este, que veis que es más restrictivo porque en el otro lo aceptaba y en este lo rechazo, 462 00:59:39,429 --> 00:59:48,090 el procedimiento es calcular la media y la desviación sin tener en cuenta el valor del que dudo 463 00:59:48,090 --> 01:00:05,409 Y luego ver si, según esta fórmula, el intervalo que yo creo, el valor dudoso cae dentro de ese intervalo o cae fuera. En este caso cae por debajo. Si el valor dudoso fuese 410, está entre 407 y 421, lo aceptaría. 464 01:00:05,409 --> 01:00:21,369 Pero como es 403, que está por debajo, lo rechazo. Y vamos, es un poco tarde, pero bueno, lo miramos y si no el próximo día hacemos ejercicio. 465 01:00:21,369 --> 01:00:33,530 Este es el criterio 2S y nos quedan el 2,5D y el 4D. Estos dos son iguales, se calculan igual, solo que uno se multiplica luego por 2,5 y otro se multiplica luego por 4. 466 01:00:33,530 --> 01:00:46,610 Entonces, estos utilizan un criterio que hacemos un intervalo de confianza, igual que hemos hecho con el 2S, pero en este caso lo hacemos con la desviación media. 467 01:00:46,610 --> 01:00:57,889 ¿Qué es la desviación media? Es la distancia que hay entre cada uno de nuestros valores y la media dividido entre el número de valores que hay. 468 01:00:58,530 --> 01:01:08,989 Y para calcular la media y la desviación media, lo mismo que en el caso anterior, no utilizamos el dato sospechoso, no utilizamos el resultado dudoso. 469 01:01:09,829 --> 01:01:21,289 Entonces, la n, como vamos a hacer la desviación media, que va a ser el primer valor menos la media, el segundo valor menos la media, el tercero menos la media, así con todos los datos que tengamos menos el sospechoso. 470 01:01:21,289 --> 01:01:35,750 Entonces, la n será el número de datos menos el sospechoso. Y hacemos lo mismo, si el resultado sospechoso está dentro de este intervalo que hemos calculado, nos lo quedamos, se acepta, está dentro del intervalo. 471 01:01:35,750 --> 01:01:58,070 Si está fuera, se rechaza. Y este de aquí es el más restrictivo de todos. Este es el que es más probable rechazar el voto. Este es 2,5D. 4D es lo mismo, pero el intervalo es la media más menos cuatro veces esta desviación media. 472 01:01:58,070 --> 01:02:03,690 En el anterior era dos veces y media este cálculo de aquí y en este de aquí es cuatro. 473 01:02:04,050 --> 01:02:06,889 Este es menos restrictivo, ¿no? Porque tenemos un intervalo más grande. 474 01:02:07,289 --> 01:02:10,070 O sea, este número lo multiplico por un número mayor. 475 01:02:11,130 --> 01:02:20,010 Y lo mismo, si mi resultado dudoso cae entre medias, lo acepto y si mi resultado dudoso cae fuera, lo rechazo. 476 01:02:20,929 --> 01:02:21,090 ¿Vale? 477 01:02:22,889 --> 01:02:27,389 Entonces, ¿dudas sobre esto? 478 01:02:28,070 --> 01:02:33,389 ¿Estos dos últimos también son para grupos pequeños de datos? 479 01:02:33,389 --> 01:02:45,929 No, estos se pueden utilizar en grupos de, siempre que sean de más de cuatro datos, pero ten en cuenta que no tenemos la limitación de tener la tabla. 480 01:02:46,510 --> 01:02:55,230 Aquí, en los de Grubbs y Dixart, tenemos unas tablas que están tabuladas hasta un cierto número de valores. 481 01:02:55,809 --> 01:03:15,710 Aquí realmente lo podríamos hacer con series de datos mayores porque no tenemos una limitación. Pero como os digo, estos de aquí se utilizan bastante menos. No sé si en algunas industrias que tienen que ser muy precisas, que los márgenes de error están más establecidos, que tienen que ser menores. 482 01:03:15,710 --> 01:03:22,710 pero nosotros en general los que más vamos a aplicar son estos de aquí, los de Grooves y Dixon. 483 01:03:26,230 --> 01:03:32,250 De todas formas, esto lo tenéis en el aula virtual en vuestros apuntes, no en los que subo yo, en los que tenéis ya vuestros. 484 01:03:32,909 --> 01:03:42,510 Que bueno, los míos estos, ahora os abro este lote de diapositivas en el que tenéis este ejercicio, 485 01:03:42,510 --> 01:03:45,369 que es lo primero que vamos a hacer el próximo día. 486 01:03:45,929 --> 01:03:53,130 Vamos a hacerlo cuando comencemos la clase y así recapitulamos todo lo que hemos visto hoy 487 01:03:53,130 --> 01:03:57,590 de los ensayos de Dixon, de Rubes, para los niveles de significación que sea, 488 01:03:57,710 --> 01:04:00,650 los ensayos basados en intervalo de confianza, etc. 489 01:04:02,409 --> 01:04:03,449 Voy a cortar.