1 00:00:02,859 --> 00:00:08,179 Pues vamos a recapitular un poquillo en lo que nos habíamos quedado la semana pasada. 2 00:00:08,460 --> 00:00:19,440 Bueno, todavía tenéis ocho días para apuntaros a las prácticas presenciales, que sabéis que son totalmente voluntarias pero muy recomendables. 3 00:00:20,320 --> 00:00:25,839 Ahora mismo están los dos turnos que hay establecidos completos, pero hay una lista de espera. 4 00:00:25,839 --> 00:00:38,780 Lo que sí que os rogaría es que si alguno de los que estáis apuntados finalmente no vais a poder venir, me aviséis para que os quite del listado, para que los grupos realmente se llenen si hay mucha gente interesada. 5 00:00:38,780 --> 00:00:43,420 lo mismo, si alguien necesita cambiarse de grupo 6 00:00:43,420 --> 00:00:45,119 por cualquier causa sobrevenida 7 00:00:45,119 --> 00:00:49,880 hay veces que surgen imprevistos 8 00:00:49,880 --> 00:00:52,619 lo mismo, me escribís un mensaje por el aula virtual 9 00:00:52,619 --> 00:00:54,119 o me mandáis un mail 10 00:00:54,119 --> 00:00:58,479 y yo os quito del grupo, os lo modifico 11 00:00:58,479 --> 00:01:01,159 ya os lo comenté la semana pasada 12 00:01:01,159 --> 00:01:03,939 pero tenéis unas normas de laboratorio 13 00:01:03,939 --> 00:01:06,680 genéricas en el aula virtual colgadas 14 00:01:06,680 --> 00:01:13,920 y tenéis también las instrucciones de lo que tenéis que traer, cómo tenéis que acceder al instituto y demás. 15 00:01:14,159 --> 00:01:16,420 Eso como parte un poco logística. 16 00:01:17,159 --> 00:01:23,859 Ahora vamos a ver que voy a poner el idioma en español para que se nos quite lo rojo. 17 00:01:26,200 --> 00:01:27,680 Eso cuestiones más logísticas. 18 00:01:28,700 --> 00:01:32,920 Ahora nuestro temario, vamos a retomar lo que habíamos visto la semana pasada. 19 00:01:33,900 --> 00:01:53,239 Llevamos un par de semanas con la parte de estadística inferencial que, acordaos que a diferencia de la descriptiva, es la estadística en la que nosotros planteamos unas hipótesis y luego hacemos una serie de ensayos para ver si esas hipótesis las aceptamos o las rechazamos. 20 00:01:53,239 --> 00:02:06,180 Hacemos una hipótesis nula y una hipótesis alternativa y luego, en función del resultado de las pruebas que nosotros hagamos, vamos a aceptar esa hipótesis nula o la vamos a rechazar. 21 00:02:08,080 --> 00:02:22,259 Entonces, habíamos visto lo primero, lo que son los test estadísticos, cómo los aplicamos, que siempre, esto lo voy a volver a repetir porque es muy importante, siempre es el mismo procedimiento. 22 00:02:22,259 --> 00:02:42,259 Con los datos que tenemos calculamos un parámetro, para ese parámetro buscamos en las tablas el valor crítico, comparamos el valor que nosotros hemos calculado con el valor de las tablas y ahí decidimos si el valor que nosotros hemos calculado es menor que el valor que está en las tablas, 23 00:02:42,259 --> 00:02:48,960 o sea, el valor crítico para los requisitos que hayamos puesto, aceptamos la hipótesis nula, ¿vale? 24 00:02:49,080 --> 00:02:54,740 Y si el valor que hemos calculado nosotros es mayor que el valor crítico, que el valor que está en las tablas, 25 00:02:55,860 --> 00:03:00,860 tenemos que rechazar la hipótesis nula y entonces habremos planteado una hipótesis alternativa. 26 00:03:01,300 --> 00:03:05,620 Esto es, de manera genérica, siempre que hacemos test estadísticos, ¿vale? 27 00:03:05,620 --> 00:03:12,759 Entonces, hasta el momento solamente hemos visto un tipo, que es el rechazo de resultados dudosos. 28 00:03:13,639 --> 00:03:17,419 Si os acordáis, teníamos dos tipos de ensayos, vamos a ponerlos aquí. 29 00:03:17,939 --> 00:03:23,199 Los que están basados en tablas, en los que hacemos exactamente lo que acabamos de decir, ¿vale? 30 00:03:24,060 --> 00:03:30,659 Buscar, calcular un parámetro, en función del test que sea, se calculará de una manera o de otra. 31 00:03:30,659 --> 00:03:38,340 luego buscar en las tablas el valor del estadístico y compararlo con el que hemos calculado. 32 00:03:38,800 --> 00:03:40,719 Estos son los métodos basados en tablas. 33 00:03:41,340 --> 00:03:44,639 Y luego tenemos los métodos basados en intervalo de confianza 34 00:03:44,639 --> 00:03:50,039 que tienen la ventaja de que no necesitamos tener una tabla para buscar la información 35 00:03:50,039 --> 00:03:55,219 y tienen la desventaja de que son más restrictivos y entonces se utilizan menos al final. 36 00:03:55,219 --> 00:03:59,159 Los que más vamos a utilizar son los que están basados en tablas 37 00:03:59,159 --> 00:04:03,419 y especialmente el que más se utiliza es el de la Q de Dixon. 38 00:04:04,680 --> 00:04:08,580 Entonces, la semana pasada sí que habíamos hecho un par de ejemplos, 39 00:04:08,699 --> 00:04:12,780 vamos, habíamos hecho un ejercicio para calcular groups y Dixon. 40 00:04:15,439 --> 00:04:16,259 ¿Qué es lo que hacíamos? 41 00:04:17,160 --> 00:04:22,120 Lo primero, teníamos una serie de datos y lo primero, primero, primero que tenemos que hacer 42 00:04:22,120 --> 00:04:26,800 es identificar cuál es el dato del que tenemos dudas, ¿no? 43 00:04:26,800 --> 00:04:31,019 El dato que pensamos que puede ser anómalo, porque si no, no tenemos nada que hacer. 44 00:04:31,180 --> 00:04:37,819 Entonces, ¿qué dato va a ser? Pues el que se desvíe de la tendencia que tienen el resto de los datos. 45 00:04:38,319 --> 00:04:45,420 Como son series de datos que no están relacionados entre ellos, es o el máximo o el mínimo. 46 00:04:46,800 --> 00:04:53,439 Entonces, seleccionamos lo primero, cuál es el dato que nosotros creemos que puede no pertenecer a esa población 47 00:04:53,439 --> 00:05:06,579 y que a lo mejor tenemos que rechazar. Después calculamos el parámetro estadístico o el R que lo hacíamos con el dato del que dudamos 48 00:05:06,579 --> 00:05:21,000 menos la media dividido entre la desviación y acordaos que dos cosas, en estos test estadísticos siempre los valores que tenemos en las tablas, 49 00:05:21,000 --> 00:05:27,980 la R, la Q, son valores positivos. Por lo tanto, esto lo vamos a hacer siempre en valor absoluto. 50 00:05:28,319 --> 00:05:33,899 Si yo hiciese el valor del que dudo menos la media y no lo hiciese en valor absoluto, 51 00:05:34,720 --> 00:05:40,740 es posible que si este dato es más pequeño que este, el resultado sería negativo. 52 00:05:41,199 --> 00:05:44,019 Valor absoluto, acordaos que es en positivo, me dé lo que me dé. 53 00:05:44,019 --> 00:06:01,980 Entonces, siempre en valor absoluto. Esa es la primera cosa que tenemos que tener en cuenta, que no se nos olvide. Y la segunda, que también es importante, es que cuando utilizamos estos métodos basados en tablas, el valor sospechoso lo utilizamos para hacer los cálculos. 54 00:06:01,980 --> 00:06:07,639 Quiero decir, esto de aquí es la media y es la media contando con el dato del que yo dudo. 55 00:06:08,199 --> 00:06:10,439 No lo quito para hacer la media, lo incluyo. 56 00:06:10,939 --> 00:06:12,259 Y con la Q lo mismo. 57 00:06:13,279 --> 00:06:16,860 Si el test que vamos a utilizar es el de la Q de Dixon, 58 00:06:17,259 --> 00:06:22,300 tengo que coger el valor del que dudo menos el valor que esté más cerca. 59 00:06:23,100 --> 00:06:24,519 Puede ser o mayor o menor. 60 00:06:25,579 --> 00:06:30,439 Si el valor del que yo dudo es el más pequeño de todos, el valor siguiente va a ser más grande. 61 00:06:30,439 --> 00:06:37,120 Si el valor del que dudo es el más grande de todos, el siguiente, el que esté más pegado a él, va a ser más pequeño. 62 00:06:37,819 --> 00:06:41,459 Y eso dividido entre el rango, que el rango siempre es el mayor menos el menor. 63 00:06:42,639 --> 00:06:45,720 Entonces, una vez que he calculado mi estadístico, me voy a las tablas. 64 00:06:46,060 --> 00:06:47,319 ¿Qué tengo que saber en las tablas? 65 00:06:47,420 --> 00:06:52,879 Lo primero, el número de datos que tengo, para ver dónde tengo que buscar, en qué fila. 66 00:06:53,920 --> 00:06:57,579 Y tengo que saber con qué nivel de significación lo quiero. 67 00:06:57,579 --> 00:07:27,439 Acordaos que esto es muy importante, que siempre cuando yo busco un nivel de, como quiero crear una página nueva, si yo tengo una distribución, perdonadme, así, 68 00:07:27,439 --> 00:07:34,560 Una distribución normal, que es con las que nosotros trabajamos, ¿vale? 69 00:07:34,560 --> 00:07:35,279 Y es algo así 70 00:07:35,279 --> 00:07:43,939 Si yo digo que es al 95% de confianza, significa que lo que hay aquí dentro es un 95% por fuera 71 00:07:43,939 --> 00:07:46,360 Lo que hay fuera se llama alfa 72 00:07:46,360 --> 00:07:49,060 Entonces, ¿alfa cuánto será? 73 00:07:49,500 --> 00:07:52,879 Alfa será un 5%, ¿no? 74 00:07:52,879 --> 00:08:03,680 95% más 5% es igual a 100%, porque siempre tiene que sumar el 100%. 75 00:08:03,680 --> 00:08:08,819 ¿Qué pasa? Que la alfa la expresamos no en tanto por ciento, sino en tanto por uno. 76 00:08:09,839 --> 00:08:18,639 O sea, un 5% dividido entre 100 es 0,05. 77 00:08:18,639 --> 00:08:30,300 Entonces, cuando mi intervalo de confianza es un 95%, mi alfa o mi significancia es un 0,05. Lo mismo si fuese un 99. 78 00:08:30,300 --> 00:08:49,820 Vale, si tengo un color distinto, este, si tengo un 99%, que sería un poquito más grande esto, ¿no? Porque el alfa va a ser más pequeño y esto me llegaría pues hasta aquí, imaginaos, ¿no? 79 00:08:49,820 --> 00:08:55,820 y esto de aquí que estoy marcando ahora en rosa, esto es un 99%. 80 00:08:55,820 --> 00:09:03,299 Pues lo que está afuera, lo que está aquí, es alfa, que tiene que ser lo mismo, 81 00:09:03,440 --> 00:09:07,620 la suma de 99% más alfa es 100%, alfa es un 1%, 82 00:09:07,620 --> 00:09:12,720 pero como el alfa se expresa en tanto por uno, es 0,01. 83 00:09:12,720 --> 00:09:15,379 Y esto es lo que yo tengo que mirar en las tablas. 84 00:09:15,379 --> 00:09:37,539 Si a mí me dicen que quiero el ensayo de la Q de Dixon al 99%, tendré que mirar aquí, en el 0,01. Si me dicen al 95%, tendré que mirar aquí, en el 0,05. Y estas que son menos habituales, si me dicen al 90, al 96, al 98, ¿vale? 85 00:09:37,539 --> 00:09:53,039 Lo más habitual es 0,05, que si no me dicen nada es lo que utilizo por defecto, o 0,01, que es el 99%, ¿vale? Voy a ver si alguien ha escrito algo, que no, y continúo. 86 00:09:53,039 --> 00:10:09,879 Ok, entonces ya sabemos todo lo que tenemos que hacer, calculamos nuestro parámetro, el Q o el R, después nos vamos a las tablas y miramos para el número de datos, que es esta fila de aquí, ¿vale? 87 00:10:09,879 --> 00:10:24,720 y para el nivel de significación, o sea, si yo quiero, por ejemplo, evaluar una serie de 6 datos al 98%, me iré aquí al 6 y aquí al 0,02, mi Q crítica es 0,698. 88 00:10:25,500 --> 00:10:39,340 Si la Q que yo he calculado es menor de 0,698 para este caso, significa que el dato del que dudo me lo quedo, si es mayor lo elimino. 89 00:10:39,879 --> 00:10:57,080 Y esa era la metodología que utilizábamos siempre. ¿Qué pasaba? Que es donde nos quedamos, desde aquí, cuando utilizábamos métodos basados en el intervalo de confianza, que era ligeramente distinta a la manera de hacer el cálculo. 90 00:10:57,080 --> 00:11:11,259 ¿Por qué? Lo primero, porque ya no necesitamos tablas, ya no necesito calcular un estadístico y después buscar en mis tablas cuál es el valor crítico. 91 00:11:11,659 --> 00:11:17,980 Aquí lo que tengo que hacer es calcular un intervalo de confianza, igual que lo calculamos cuando queremos expresar un resultado. 92 00:11:17,980 --> 00:11:34,960 Entonces, tenía tres métodos que se utilizan mucho menos. Son mucho más restrictivos y lo que tenemos que hacer es calcular un intervalo de confianza y ver si el dato del que dudamos está dentro de ese intervalo de confianza. 93 00:11:34,960 --> 00:11:59,789 Ahora, ¿qué pasa cuando queremos calcular estos intervalos de confianza? Pues que tenemos que eliminar el dato del que estamos dudando, eliminarlo en el sentido de que para realizar nuestros cálculos no vamos a meter el valor dudoso. 94 00:11:59,789 --> 00:12:09,950 Entonces, para calcular este intervalo de confianza de aquí haríamos la media más menos cuatro veces la desviación, que ahora vemos cómo se calcula. 95 00:12:10,549 --> 00:12:17,090 Para este de aquí haríamos un intervalo de confianza que sería la media más menos dos veces y media la desviación. 96 00:12:17,730 --> 00:12:26,809 Y para este de aquí, nuestro intervalo de confianza sería la media más menos dos veces la desviación típica o desviación estándar. 97 00:12:26,809 --> 00:12:47,950 Esta D, esta desviación, desviación media, no la hemos visto todavía. Es muy fácil de calcular. Esta D aquí es la desviación típica que ya la hemos calculado más veces. ¿Vale? ¿Qué hacemos? Calculamos ese intervalo de confianza y vemos si el dato sospechoso del que dudamos está dentro o está fuera de ese intervalo. 98 00:12:47,950 --> 00:13:04,409 Bueno, entonces, ya que hemos visto el repaso de todos, vamos a hacer algún ejemplo. Tenemos este ejercicio de aquí que tenéis en el aula virtual y que no lo hicimos la semana pasada. 99 00:13:04,409 --> 00:13:22,110 Entonces, vamos a hacerlo ahora. Si pongo la pantalla en dos y que la veáis, ¿verdad? A ver, pongo esta parte aquí y vamos a poner esta aquí. ¿Me podéis confirmar de qué? 100 00:13:22,590 --> 00:13:23,710 Sí, sí, la manda. 101 00:13:23,710 --> 00:13:45,570 Más o menos, ¿no? Vale, como lo importante es que estén aquí los datos en medio, entonces, tenemos un ejercicio que nos está pidiendo que, a ver si esto lo puedo centrar un poco, ahí, nos da una tabla y nos dice que en esa tabla hay sospechas de que hay un valor duroso, ¿vale? 102 00:13:45,570 --> 00:14:08,929 Entonces tenemos 75, 85, 72, 73, 75 y 73. Tenemos que evaluar si el valor es dudoso según los criterios de Dixon y de Grubbs, tanto al 95 como al 99% y luego lo tenemos que evaluar también según los criterios 2S, 2,5D y 4D, ¿vale? 103 00:14:09,909 --> 00:14:12,929 Entonces, vamos a ello. 104 00:14:13,110 --> 00:14:19,230 Lo primero, me voy a colocar aquí los datos y así podemos cerrar esa página y lo tenemos todo más cómodo. 105 00:14:19,230 --> 00:14:23,309 Vamos a escribirlos. 106 00:14:24,330 --> 00:14:26,269 En azul que molesta menos. 107 00:14:27,490 --> 00:14:38,789 Y esos datos son el 75, el 85, el 72. 108 00:14:38,929 --> 00:15:02,710 72, 73, 75 y 73, ¿no? 72, 73, 75 y 73. Acordaos que en estadística, aunque los datos estén repetidos, siempre los tenemos que contabilizar. Aquí tenemos el 73 dos veces y el 75 dos veces, como si lo tenemos 80 veces. 109 00:15:02,710 --> 00:15:19,690 Hay que contarlo todas las veces que esté, ¿vale? Entonces, para hacer un repasillo, si quisiésemos saber cuál es la moda de esta serie de datos, ¿cuál sería? A ver si alguien me lo dice. 110 00:15:19,690 --> 00:15:44,990 La moda sería, es bimodal, el 73 y el 75, ¿no? Los dos, es el valor que más se repite, a lo mejor alguien lo había escrito, ¿no? Es el valor que más se repite, entonces, si se repite dos veces el 73 y dos veces el 75, la moda de esta serie de datos, la moda es el 73 y el 75, ¿vale? 111 00:15:44,990 --> 00:16:00,809 Con la moda no se hace la media, ¿vale? Porque acordaos, ya que estamos así, repasamos la mediana, ¿os acordáis de cómo se hacía? Era el valor que estaba en el medio, ¿no? Entonces, lo primero que hay que hacer es ordenar los valores de menor a mayor o de mayor a menor, da lo mismo. 112 00:16:00,809 --> 00:16:13,450 Y hacemos setenta y dos, setenta y tres, setenta y tres, setenta y cinco, setenta y cinco y ochenta y cinco. 113 00:16:13,590 --> 00:16:22,649 ¿Cuál es el que está en el medio? Pues estos dos de aquí, ¿no? Hay dos por arriba y dos por abajo. 114 00:16:22,649 --> 00:16:37,309 En este caso, la mediana sí que sería la media de estos dos, o sea, 73 más 75 dividido entre 2, la mediana es 74. 115 00:16:38,590 --> 00:16:43,190 ¿Cuánto es la media? Pues vamos a hacerla porque nos va a servir para después, ¿vale? 116 00:16:43,190 --> 00:16:54,450 La media es la suma de todos estos valores dividido entre el número de valores, que son 1, 2, 3, 4, 5 y 6. 117 00:16:55,090 --> 00:17:04,410 Entonces es 75 más 85 más 72 más 73 más 75 más 73 y todo ello dividido entre 6. 118 00:17:05,089 --> 00:17:12,049 Lo podéis hacer si queréis con la calculadora o podemos abrir una hoja de Excel y lo hacemos ahí. 119 00:17:12,049 --> 00:17:34,410 Lo voy haciendo yo con la calculadora para que lo hagáis en casa también. Meto mis datos en modo estadística y meto mis datos. 75, 85, 72, 73, 75 y 73. 120 00:17:34,410 --> 00:17:55,210 Y me dice que mi media es 75,5, o sea que mi media son 76. Vale, me da 75,5 que redondeo a 76. Vale, ahora, esto ha sido parte de estadística descriptiva, 121 00:17:55,210 --> 00:18:17,589 Pero me ha venido bien porque lo que me está pidiendo mi ejercicio es que yo evalúe si hay alguno de mis datos que tengo que eliminar, que es dudoso. Entonces, aquí lo primero que hago es me los ordeno, ¿no? Como he hecho para calcular la mediana. Me los ordeno y aquí, ¿qué es lo que veo? Pues veo que hay alguno que chirría un poco, ¿no? ¿Lo veis a simple vista? 122 00:18:18,210 --> 00:18:19,089 El 85. 123 00:18:19,089 --> 00:18:31,829 El 85, ¿verdad? Este se ve bastante claro. Si no lo tuviese claro, ¿qué puedo hacer? Pues ver cuál es el que se separa más de la media, ¿no? Podrían ser o este o este de aquí. 124 00:18:31,829 --> 00:18:53,309 Pero si yo sé que mi media son 76, de 72 a 76, 76 menos 72, hay cuatro unidades, ¿no? Y de 85 a 76 hay nueve unidades, claramente. 125 00:18:53,309 --> 00:18:59,789 se está separando más de la media el 85 que el 72, ¿vale? 126 00:18:59,829 --> 00:19:04,849 Entonces, bueno, ya tengo claro que el que voy a evaluar, 127 00:19:04,930 --> 00:19:07,410 a ver si lo tengo que eliminar o no, es el 85. 128 00:19:08,069 --> 00:19:13,109 Entonces, me dice primero que lo haga según el criterio de la Q de Dixon. 129 00:19:13,650 --> 00:19:15,210 Estas fórmulas hay que sabérselas, ¿vale? 130 00:19:15,210 --> 00:19:21,890 Así que ya, como vamos a practicar, a ver si os vais acordando, 131 00:19:21,890 --> 00:19:32,170 La media de estos datos la voy a dejar aquí apuntada por si luego la necesitamos, que habíamos dicho que era 76, ¿vale? 132 00:19:32,690 --> 00:19:36,329 Entonces, Q de Dixon, el primero, ¿cómo era? 133 00:19:37,049 --> 00:19:49,089 El valor del que dudo menos el valor que esté más cerca, en este caso, 75, ¿no? 134 00:19:49,089 --> 00:20:02,769 Entonces, el valor del que dudo menos el valor más próximo y dividido entre el rango, y todo ello en valor absoluto, porque acordaos que no puede ser negativo. 135 00:20:02,769 --> 00:20:20,750 Entonces es 85 menos 75 dividido entre el rango que son 85 menos 72 y acordaos que en valor absoluto, ¿vale? 136 00:20:20,750 --> 00:20:39,890 Que esto me va a dar positivo, aunque no lo ponga en valor absoluto, pero si fuese al revés, entonces son 10 dividido entre 85 menos 72, que son 10 dividido entre 13, que es 0,77, ¿no? 137 00:20:39,890 --> 00:21:00,069 10 dividido entre 13 me da un valor de 0,769, 0,769, este es el Q que yo he calculado, el Q crítico, el Q calculado, ¿vale? 138 00:21:00,069 --> 00:21:11,990 Ahora, si lo quiero comparar, que me han dicho al 95 y al 99, me tengo que ir a las tablas a ver qué valor tiene el Q tabulado. 139 00:21:13,609 --> 00:21:20,569 Entonces, tengo que ver en qué número de valores miro, así que los cuento. 140 00:21:20,569 --> 00:21:30,769 Tengo 1, 2, 3, 4, 5 y 6, porque acordaos que en estos ensayos, en los de la Q de Dixon y en los de la R de Gruss, el valor del que dudo yo lo considero, ¿vale? 141 00:21:30,910 --> 00:21:36,829 Ya lo cuento, si tengo que hacer la media la hago con él, entonces tendría 6 valores. 142 00:21:36,829 --> 00:21:54,890 Tengo que buscar la Q para n igual a 6 y alfa igual a 0,01 y la Q para n igual a 6 y alfa igual a 0,05. 143 00:21:57,329 --> 00:21:59,690 Entonces, vamos a las tablas. 144 00:21:59,690 --> 00:22:03,549 n igual a 6 y 0,01 145 00:22:03,549 --> 00:22:06,009 el valor que me da la Q 146 00:22:06,009 --> 00:22:08,890 para n igual a 6 y 0 147 00:22:08,890 --> 00:22:11,609 uy, perdonadme, 0,01 no, 0,01 148 00:22:11,609 --> 00:22:12,609 que es el 99 149 00:22:12,609 --> 00:22:17,190 el valor que me da es 0,740 150 00:22:17,190 --> 00:22:20,329 vale, este de aquí es 151 00:22:20,329 --> 00:22:25,609 0,740 152 00:22:25,609 --> 00:22:28,089 y este de aquí 153 00:22:28,089 --> 00:22:47,210 para 0,05, que es aquí, y para n igual a 6 me da 0,625. 0,625. Vamos a compararlo con el que hemos calculado. 154 00:22:47,210 --> 00:23:16,910 ¿0,740 es menor que 0,769? Sí, ¿no? Por lo tanto, al 99% acepto como mi Q tabulada es mayor que la Q que yo he calculado. 155 00:23:16,910 --> 00:23:35,910 Se puede poner al revés, que aquí pasa lo mismo, mi Q calculada es menor que la Q tabulada en ambos casos. Aquí aceptamos H0 y aquí lo mismo, aceptamos H0. 156 00:23:35,910 --> 00:23:53,650 Y por lo tanto, el 85 sí que forma parte de nuestra serie de datos. Ahora, yo tengo que calcular la media de estos valores, el 85 lo considero. Sigo teniendo 6 datos y el 85 es uno de ellos. 157 00:23:53,650 --> 00:24:09,190 ¿Vale? Ahora, con la R del bus, ¿cómo lo calculábamos? R o G, ya os dije que dependiendo de, en algunos textos está como R y en otros como G, es el valor del que yo dudo, 158 00:24:09,190 --> 00:24:30,509 es el valor del que yo dudo menos el valor medio, todo ello en valor absoluto, y dividido entre la desviación. 159 00:24:31,289 --> 00:24:36,670 La media ya la había calculado. Para calcular la desviación, ¿tengo que considerar el 85 o lo elimino? 160 00:24:36,670 --> 00:24:40,809 lo considero, ¿no? 161 00:24:41,349 --> 00:24:42,309 en estas 162 00:24:42,309 --> 00:24:45,230 lo consideran hasta que 163 00:24:45,230 --> 00:24:46,890 lo compruebas con 164 00:24:46,890 --> 00:24:48,829 el estadístico 165 00:24:48,829 --> 00:24:50,089 igual que con la Q 166 00:24:50,089 --> 00:24:52,410 ¿Perdona? ¿Puedes repetir la pregunta? 167 00:24:53,710 --> 00:24:54,970 O sea, lo voy a 168 00:24:54,970 --> 00:24:56,690 considerar hasta que lo 169 00:24:56,690 --> 00:24:58,849 compruebe como con la Q 170 00:24:58,849 --> 00:25:01,150 pero esta vez con la R 171 00:25:01,150 --> 00:25:02,609 Efectivamente, sí, sí 172 00:25:02,609 --> 00:25:05,029 una vez que lo hayamos comprobado 173 00:25:05,029 --> 00:25:06,630 puede que lo tengamos que eliminar 174 00:25:06,630 --> 00:25:08,670 pero para hacer los cálculos, estos cálculos 175 00:25:08,670 --> 00:25:10,150 de aquí, porque yo tengo que calcular 176 00:25:10,150 --> 00:25:13,130 una X media y una desviación 177 00:25:13,130 --> 00:25:15,069 mientras haga los cálculos 178 00:25:15,069 --> 00:25:16,309 si lo considero 179 00:25:16,309 --> 00:25:18,670 entonces, el valor 180 00:25:18,670 --> 00:25:19,950 del que dudo es el mismo, ¿no? 181 00:25:20,329 --> 00:25:21,890 sería 85 182 00:25:21,890 --> 00:25:24,750 menos la media 183 00:25:24,750 --> 00:25:27,250 que la he calculado antes, que son 76 184 00:25:27,250 --> 00:25:28,690 y ahora 185 00:25:28,690 --> 00:25:30,289 dividido entre la desviación 186 00:25:30,289 --> 00:25:32,369 que lo tengo que hacer también 187 00:25:32,369 --> 00:25:34,789 como yo tengo ya mis datos 188 00:25:34,789 --> 00:25:36,789 metidos en la calculadora 189 00:25:36,789 --> 00:25:37,950 me da 4,8 190 00:25:37,950 --> 00:25:58,029 4,8. Vale, entonces 85 menos 76 dividido entre 4,8 son 1,875. Y esta es mi R calculada. 191 00:25:59,329 --> 00:26:09,930 Ahora tengo que hacer exactamente lo mismo. Me tengo que ir a mis tablas para ver la R para n igual a 6 y alfa igual a 0,01. 192 00:26:10,289 --> 00:26:28,230 Y para ver mi R, para n igual a 6, y alfa igual a 0,05. 193 00:26:29,430 --> 00:26:39,579 Alfa igual a 0,01. 194 00:26:41,599 --> 00:27:00,619 Y alfa igual a 0,05. Pues me voy a las tablas otra vez. Me voy a la de gru y para n igual a 6 y 0,05 es 1,887. 195 00:27:00,619 --> 00:27:19,359 Esta es 1,887. Y para 0,01 es, para n igual a 6, 1,973. 196 00:27:19,359 --> 00:27:27,400 Es 1,973 197 00:27:27,400 --> 00:27:30,140 ¿Vale? Pues vamos a ver qué es lo que pasa 198 00:27:30,140 --> 00:27:37,740 ¿Mi R calculada es menor que 1,973? 199 00:27:38,759 --> 00:27:39,740 Sí, ¿no? 200 00:27:41,200 --> 00:27:46,599 Mi R calculada es menor que la R tabulada 201 00:27:46,599 --> 00:27:55,000 Por lo tanto, con este test también acepto la hipótesis nula y me quedo con el valor de 85, no lo elimino. 202 00:27:55,880 --> 00:28:03,140 Y si lo he aceptado en 99, no, perdonadme, lo he aceptado en 99 y voy a comprobar si lo acepto en 95. 203 00:28:04,720 --> 00:28:16,539 Sí, ¿no? Porque 1,875, o sea, el que he calculado yo, es menor que el tabulado. 204 00:28:16,599 --> 00:28:37,240 Y por lo tanto, acepto también la hipótesis nula. Se acepta. Vale. Pues según estos dos test, la acepto. 205 00:28:37,240 --> 00:28:55,680 Ahora, siguiente test, me hice valor también según el criterio 2S, 2,5D y 4D. Vale, pues vamos a ello. Tenemos aquí los datos y vamos a hacerlo con 2S, 2,5D y 4S. 206 00:28:55,680 --> 00:28:59,180 Entonces, acordaos que esta D es la desviación media 207 00:28:59,180 --> 00:29:01,619 Que se calcula con esta fórmula de aquí 208 00:29:01,619 --> 00:29:10,039 La desviación media es la suma de la diferencia entre cada uno de mis valores y la media 209 00:29:10,039 --> 00:29:12,759 Dividido entre el número total de los valores 210 00:29:12,759 --> 00:29:19,259 Entonces, voy a borrar lo anterior para tener esto más limpio para escribir 211 00:29:19,259 --> 00:29:25,039 una pregunta 212 00:29:25,039 --> 00:29:27,400 en la Q de Dixon 213 00:29:27,400 --> 00:29:28,220 por ejemplo 214 00:29:28,220 --> 00:29:30,099 cuando utilizo 215 00:29:30,099 --> 00:29:32,299 alfa igual 0,1 216 00:29:32,299 --> 00:29:35,660 si en el 99 uso el 0,01 217 00:29:35,660 --> 00:29:44,650 pero 0,01 es el 99 218 00:29:44,650 --> 00:29:46,369 y en la Q de Dixon 219 00:29:46,369 --> 00:29:48,609 en la Q de Dixon cuando utilizo 220 00:29:48,609 --> 00:29:49,509 el 0,1 221 00:29:49,509 --> 00:29:53,309 ¿Cuándo lo puedes utilizar? Cuando es el 90%. 222 00:29:53,309 --> 00:29:57,230 Sí, ten en cuenta que esto es en tanto por uno. 223 00:29:57,809 --> 00:30:02,009 Entonces, ¿cuánto le tienes que sumar a esto para que te dé el 100%? 224 00:30:02,390 --> 00:30:05,150 0,9, que es el 90%. 225 00:30:05,150 --> 00:30:11,049 A esto le tienes que sumar 0,99, que es el 99%. 226 00:30:11,049 --> 00:30:15,190 Son siempre, el valor de alfa es el tanto por uno. 227 00:30:15,390 --> 00:30:17,569 Entonces, si lo queremos saber es cómo multiplicarlo por 100. 228 00:30:17,569 --> 00:30:36,549 Este de aquí es 0,01%, el 1%, el 2%, el 4%, el contrario, este es el 5%, que es el contrario del intervalo de confianza, que es el 95%, ¿vale? 229 00:30:37,109 --> 00:30:38,170 Vale, gracias. 230 00:30:38,170 --> 00:31:01,109 Entonces, a ver que me voy a la pizarra. Voy a borrar esto de aquí que ya lo hemos hecho. Hemos quedado en que según tanto el criterio de la Q de Dixon como el de la R de Grubbs o la G de Grubbs, aceptamos el dato del 85. Ese dato no tenemos que eliminarlo. 231 00:31:01,109 --> 00:31:31,089 Ahora vamos a ver qué pasa con estos test de las tablas que son un poco más restrictivos. Tenemos que calcular lo primero, la desviación media, que es la media de las diferencias. 232 00:31:31,109 --> 00:31:47,809 De la distancia, la resta entre cada uno de mis valores y la media. Pero ojo, que lo hemos dicho antes, cuando utilizamos este tipo de test, el valor del que dudamos, no lo utilizamos para calcular los datos. 233 00:31:48,809 --> 00:32:00,470 Este es el 85, no lo voy a borrar para que sepamos que es el que estamos evaluando, pero lo vamos a marcar el 85. 234 00:32:02,089 --> 00:32:08,910 Cuando yo calcule esta media de aquí, porque tengo que calcular una media para hacer las desviaciones, el 85 no lo voy a utilizar. 235 00:32:09,490 --> 00:32:19,910 Entonces tendré que calcular una nueva media. Ya no es el 76 que era antes, ahora la media que tengo que utilizar es sin contar con el 85. 236 00:32:19,910 --> 00:32:46,549 O sea, es 75 más 72 más 73 más 75 más 73, y ahora dividido entre cuántos valores, entre los que tengo, sin contar los 85, 1, 2, 3, 4 y 5, ¿vale? 368 entre 5 y me da 73,6, es mi media, ¿no? Aproximadamente, si redondeo, 74. 237 00:32:46,549 --> 00:32:49,410 esta es mi media, ahora tengo que hacer 238 00:32:49,410 --> 00:32:51,190 mi desviación media, ¿cómo lo hago? 239 00:32:51,289 --> 00:32:52,930 pues lo más fácil es que me haga una tabla 240 00:32:52,930 --> 00:32:55,589 entonces me puedo hacer una tabla 241 00:32:55,589 --> 00:32:57,930 con mi valor 242 00:32:57,930 --> 00:33:01,269 mi valor 243 00:33:01,269 --> 00:33:03,170 menos 244 00:33:03,170 --> 00:33:05,250 esta media que acabo de calcular 245 00:33:05,250 --> 00:33:10,819 y ya, con esto me vale 246 00:33:10,819 --> 00:33:11,859 entonces mi valor 247 00:33:11,859 --> 00:33:13,359 75 248 00:33:13,359 --> 00:33:16,240 75 menos media 249 00:33:16,240 --> 00:33:45,759 Luego si queréis lo hacemos de la otra manera para que veáis que va a dar lo mismo, ¿vale? 75 menos 74 es igual a 1, 72 menos 74 es igual a menos 2, pero como es valor absoluto 2, 73 menos 74 es menos 1, pero como es valor absoluto 1, 75 menos 74, 1 también, y por último 73 que también es 1, ¿vale? 250 00:33:46,240 --> 00:34:06,079 Ahora tengo que hacer la suma de todos estos, hago el sumatorio, que es igual a 2 y 1, 3, 4, 5 y 6, ¿no? 6, y divido entre n, que n es el número de datos que tengo, 1, 2, 3, 4 y 5, 251 00:34:06,079 --> 00:34:30,860 Porque acordaos que el 85 lo ignoro para los cálculos. Entonces, tengo 6 quintos que es igual a 1,2. 6 entre 5, 1,2. ¿Vale? Esto es mi desviación media. 252 00:34:30,860 --> 00:34:40,260 Ahora, tengo que calcular 2,5 veces mi desviación media y sumárselo y restárselo a la media. 253 00:34:40,739 --> 00:34:44,719 Pues vamos a ello. Esto es mi desviación media, 1,2. 254 00:34:46,260 --> 00:34:59,860 Ahora, si quiero hacer mi 2,5 desviación media, tengo que hacer 2,5 por 1,2. 255 00:34:59,860 --> 00:35:18,860 Y esto me da 2,5 por 1,2, me da 3, ¿no? Sí, me da 2,5 por 1,2, me da 3. Entonces, mi intervalo de confianza utilizando este criterio es 74 más menos 3. 256 00:35:18,860 --> 00:35:38,980 O sea, que mi intervalo de confianza está comprendido entre 74 menos 3, que es 71, y 74 más 3, que es 77. ¿El 85 está aquí dentro? No, está muy fuera. El 85 está por aquí, pasado el 77. 257 00:35:38,980 --> 00:35:52,300 Por lo tanto, con la Q de Dixon y la R de Gruss, tanto al 95 como al 99, yo aceptaba el valor de dudoso, el 85. 258 00:35:53,039 --> 00:35:59,019 En este caso, de los intervalos de confianza, lo rechazo en el 2,5D. 259 00:35:59,019 --> 00:36:12,920 Vamos a ver el 4D, ¿vale? El 4D es igual, ¿no? Es multiplicar este 1,2 que es la D que yo he obtenido, pero por 4 en vez de por 2,5. 260 00:36:12,920 --> 00:36:20,820 Y esto ¿cuánto me da? Pues 4, 4 por 2, 8, me da un 4,8. 261 00:36:26,219 --> 00:36:35,420 Lo mismo tengo que hacer mi intervalo de confianza, que es el 74 más menos 4,8. 262 00:36:35,420 --> 00:36:58,639 ¿Esto qué es? Que mi intervalo de confianza está comprendido entre 74 menos 4,8, que es igual a 69,2, y 74 más 4,8, que es igual a 78,8. 263 00:36:58,639 --> 00:37:07,699 Según este criterio, ¿acepto mi resultado dudoso o lo rechazo? 264 00:37:09,179 --> 00:37:10,139 Lo rechazo. 265 00:37:10,460 --> 00:37:14,099 Lo rechazo, ¿no? Porque el 85 está fuera de ese intervalo. 266 00:37:16,539 --> 00:37:22,699 Entonces, aunque veis que este es un poquito menos restrictivo, porque se multiplica, mi intervalo es más grande, 267 00:37:22,699 --> 00:37:29,280 es mi desviación, pero en vez de por 2,5 por 4 se amplía un poco el rango, aún así lo rechazo. 268 00:37:30,019 --> 00:37:41,659 Y solo me queda comprobarlo con el 2S, que es lo que nos pedía el ejercicio, nos pedía el 2S también. Y el 2S ya os adelanté que es el más restrictivo de todos. 269 00:37:42,519 --> 00:37:47,199 Entonces, si lo hemos rechazado con estos dos, con el 2S también, pero vamos a hacerlo. 270 00:37:47,960 --> 00:37:56,579 Entonces, tengo mis datos y ahora tengo que hacer un intervalo que en vez de ser 2,5D o 4D, 271 00:37:56,579 --> 00:38:03,039 sea 2 por mi desviación típica o desviación estándar, que es lo mismo. 272 00:38:03,599 --> 00:38:07,420 La tengo calculada del ejercicio anterior, de cuando he calculado la R de Grubbs. 273 00:38:07,480 --> 00:38:08,099 ¿La puedo utilizar? 274 00:38:08,099 --> 00:38:22,210 No la puedo utilizar porque en los ejercicios que están basados en tablas sí que cuento el 85 para hacer la desviación. En los que están basados en efectos de confianza no lo cuento. 275 00:38:22,210 --> 00:38:39,690 Entonces ahora mi desviación es la desviación de estos valores, es la desviación de 75, 72, 73, 75 y 73. Igual que me he calculado una nueva media, me tengo que calcular una nueva desviación. 276 00:38:39,690 --> 00:39:02,010 Pues vamos a ello, meto mis datos en la calculadora y son 75, 72, 73, 75 y 73 otra vez, 5 datos en total y mi desviación 277 00:39:02,010 --> 00:39:04,309 Da 1,34 278 00:39:04,309 --> 00:39:08,530 Me da 1,22, igual he metido algo de mal en la calculadora 279 00:39:08,530 --> 00:39:13,000 La media 73,6 280 00:39:13,000 --> 00:39:15,440 Sí, y la desviación 281 00:39:15,440 --> 00:39:17,639 A mí me da 1,1 282 00:39:17,639 --> 00:39:19,480 Vamos a comprobarlo 283 00:39:19,480 --> 00:39:19,940 Al Excel 284 00:39:19,940 --> 00:39:22,699 Ah, pero tú usas la 285 00:39:22,699 --> 00:39:24,519 Poblacional, ¿verdad? 286 00:39:25,039 --> 00:39:25,400 ¿Perdón? 287 00:39:25,679 --> 00:39:28,480 Tú usas la poblacional o la S 288 00:39:28,480 --> 00:39:30,179 La muestral, la muestral 289 00:39:30,179 --> 00:39:32,739 Es una muestra, son poquitos datos, la S 290 00:39:32,739 --> 00:39:34,860 Vamos a ponerlos aquí 291 00:39:34,860 --> 00:39:37,380 A ver si lo he metido yo mal 292 00:39:37,380 --> 00:39:39,159 75 293 00:39:39,159 --> 00:39:47,039 Es que a mí la muestra me da 1,22 294 00:39:47,039 --> 00:39:48,920 A ver 295 00:39:48,920 --> 00:39:50,360 La S, perdón 296 00:39:50,360 --> 00:39:51,960 1,22 lo que me da a mí 297 00:39:51,960 --> 00:39:53,539 Sí, sí, vamos a comprobarlo con este 298 00:39:53,539 --> 00:39:55,500 Y así ya una tercera comprobación 299 00:39:55,500 --> 00:40:02,239 75, 72, 73, 75 y 73 300 00:40:02,239 --> 00:40:08,260 Y hago la desviación estándar de la muestra 301 00:40:08,260 --> 00:40:11,219 ya daremos una clase 302 00:40:11,219 --> 00:40:13,460 de Excel, un par de sesiones 303 00:40:13,460 --> 00:40:15,320 más adelante para los que no sepáis 304 00:40:15,320 --> 00:40:16,500 usarla 305 00:40:16,500 --> 00:40:18,679 pero eso en la muestral 306 00:40:18,679 --> 00:40:21,300 y 1.22 en la población 307 00:40:21,300 --> 00:40:23,119 pues si, no es la muestral 308 00:40:23,119 --> 00:40:25,579 es 1.34 309 00:40:25,579 --> 00:40:27,219 efectivamente tenías tu razón 310 00:40:27,219 --> 00:40:28,880 he debido darle yo mal al botón 311 00:40:28,880 --> 00:40:30,739 1.34 312 00:40:30,739 --> 00:40:32,820 vale, perfecto 313 00:40:32,820 --> 00:40:35,400 pues tenemos la S calculada 314 00:40:35,400 --> 00:40:36,340 que es 315 00:40:36,340 --> 00:40:40,199 1,34, no 1,22 316 00:40:40,199 --> 00:40:42,400 porque es la muestral 317 00:40:42,400 --> 00:40:46,820 1,34 318 00:40:46,820 --> 00:40:48,239 también os digo que 319 00:40:48,239 --> 00:40:51,059 este 2S lo estamos calculando 320 00:40:51,059 --> 00:40:55,019 para practicar, pero lo primero que es muy restrictivo 321 00:40:55,019 --> 00:40:58,119 y lo segundo, que se utiliza con un gran número de datos 322 00:40:58,119 --> 00:41:00,900 aquí tenemos 5 datos, no tendría sentido utilizarlo 323 00:41:00,900 --> 00:41:03,920 pero bueno, como es simplemente para practicar 324 00:41:03,920 --> 00:41:05,940 y ya os digo que estos los vamos a utilizar muy poquito 325 00:41:05,940 --> 00:41:18,880 Esto lo vamos a ver hoy y ya. Si os dais cuenta aquí en la tabla comparativa nos dice que es útil cuando son series de muchos datos porque se asemejan a la normalidad. 326 00:41:18,880 --> 00:41:35,659 Pero bueno, aún así lo vamos a hacer. Es 2 por 1,34. 2 por 1,34 que es la S. Y esto nos da 2 por 1,34 nos da 2,68. 327 00:41:35,659 --> 00:41:49,860 Si os dais cuenta, es el intervalo más pequeñito de todos, es sumar y restar 2,68. En el caso del 2,5D era sumar y restar 3 y en el caso del 4D era sumar y restar 4,8. 328 00:41:49,860 --> 00:42:08,320 Si lo hemos rechazado en los anteriores, aquí más todavía, porque ahora nuestro intervalo es la media más menos 2,68, 74, o sea, no está ni de lejos el 85 dentro de este intervalo, 329 00:42:08,320 --> 00:42:22,780 que sería 74 menos 2,68, pues 71 y pico, y por arriba 76,68, está muy lejos del 85. 330 00:42:23,179 --> 00:42:28,260 Entonces, esta misma serie de datos que la hemos analizado de todas las maneras que hemos visto, 331 00:42:28,260 --> 00:42:34,900 de todas las que sabemos, la aceptamos con Grubbs y con Dixon y la rechazamos con el resto de los datos. 332 00:42:34,900 --> 00:42:53,079 Y ahora viene el último apartado de todos los ejercicios. Expresar el resultado con su intervalo de confianza. Entonces, en este caso lo que tenemos que hacer es dos cosas. Para expresar el resultado con el intervalo de confianza, que es la parte final. 333 00:42:53,079 --> 00:43:08,099 Esto está un poco finito. A ver, ahí. El intervalo de confianza, que lo tenemos que expresar como la media más menos un valor, ¿no? 334 00:43:08,500 --> 00:43:19,539 Un valor que es lo que tenemos que calcular con la T de Stunen, ¿no? Que es el T por S dividido entre la raíz de N. 335 00:43:19,539 --> 00:43:43,260 Entonces, caso 1, aceptamos H0 y nos quedamos con el dato, ¿no? Aceptamos el dato, aceptamos el valor anónimo, anómalo, perdón, no anónimo, anómalo. 336 00:43:43,260 --> 00:44:03,570 Caso 2. Rechazamos H0, rechazamos la hipótesis nula y, por lo tanto, rechazamos o eliminamos el valor anónimo. 337 00:44:03,989 --> 00:44:07,909 Jolen, anónimo otra vez. Anómalo, perdonadme. Estoy con anónimo. 338 00:44:08,610 --> 00:44:14,590 Vale. Ahora, si tenemos el caso 1, la media es la media de todos los valores. 339 00:44:14,590 --> 00:44:27,670 que son los valores que teníamos originalmente, eran 75, 73, 75, 73, 72 y 85. 340 00:44:27,670 --> 00:44:31,289 Entonces, en este caso, n es igual a 6. 341 00:44:31,670 --> 00:44:42,909 Ahora, en este segundo caso, en el que rechazamos el valor anómalo, n es igual a 5, porque este dato ya no existe, lo elimino. 342 00:44:44,590 --> 00:45:00,329 Entonces, aquí mi media, en el primer caso en el que lo hemos aceptado, mi media eran, ¿os acordáis cuánto salía en el primer ejercicio? 76. En el segundo me salía 74. 343 00:45:00,329 --> 00:45:07,030 ahora, como tengo que expresarlo con el intervalo de confianza 344 00:45:07,030 --> 00:45:10,469 es T por S dividido entre raíz de N 345 00:45:10,469 --> 00:45:12,650 la S también la teníamos calculada 346 00:45:12,650 --> 00:45:15,630 que en el primer ejercicio, no me acuerdo cuánto era 347 00:45:15,630 --> 00:45:17,650 no sé si lo tenéis por ahí 348 00:45:17,650 --> 00:45:22,449 y en el segundo, 1,34 349 00:45:22,449 --> 00:45:24,489 lo acabamos de hacer, puede ser 350 00:45:24,489 --> 00:45:28,269 y en el primero, bueno, lo que nos hubiese dado 351 00:45:28,269 --> 00:45:48,269 Y la TED Student, tenemos que ver dos cosas. Uno, ¿con qué alfa la queremos? Si no nos dicen nada, al 95%. Por defecto, cuando nos están pidiendo parámetros estadísticos y no nos están dando un porcentaje, es que quieren que lo demos al 95%. 352 00:45:48,269 --> 00:45:55,449 Entonces, si no me dicen nada, 95%, pero me pueden decir eso al 99% o a lo que sea. 353 00:45:55,449 --> 00:46:10,380 Tengo que saber el alfa y ahora para mirar en la tabla, como es un intervalo de confianza, siempre se mira en la de dos colas y tengo que mirar para n-1. 354 00:46:10,380 --> 00:46:25,659 Entonces, en este caso, que tenía 6 valores, tengo que mirar la tabla en 5. En este de aquí, como los valores que tengo son 5, n-1 es igual a 4. 355 00:46:26,340 --> 00:46:40,320 Entonces, me iría a mi tabla de la TED Student, de dos colas muy importante cuando es intervalo de confianza, y me dice, venga, pues quiero que me lo digas al 95, el que estoy aquí encima, que es el más estándar. 356 00:46:40,380 --> 00:46:55,019 Para uno de ellos, para el que no he rechazado ningún dato, me tengo que ir a n-1, o sea, 6-1 igual a 5, entonces sería este valor de aquí, 2,57. 357 00:46:55,019 --> 00:47:08,739 Y para el otro, como tengo 5 datos solo porque uno lo he eliminado, tengo que mirar para n-1, que es igual a 4, entonces sería este de aquí arriba, 2,78. 358 00:47:08,739 --> 00:47:25,579 Entonces, en el de n igual a 4 es 2,78, en este de aquí 2,78 y en este de aquí 2,57, ¿vale? 359 00:47:25,780 --> 00:47:36,099 Esto es muy, muy, muy importante, que cuando calculéis el resultado final, la media, el intervalo de confianza, os deis cuenta de si este dato lo elimináis o no lo elimináis, ¿vale? 360 00:47:36,099 --> 00:48:01,679 Porque cambia totalmente la media, cambia la desviación, cambia la data de student y cambia el intervalo de confianza, ¿vale? Es la única dificultad que puede haber. A ver si alguien ha escrito algo, nadie ha escrito nada, así que vamos a continuar, ¿vale? Esto todo claro, ¿no? Los intervalos, los, el rechazo de resultados, quedaos mucho con la idea de que los que más te utilices son Dixon y Groves, ¿vale? 361 00:48:01,679 --> 00:48:30,619 Y que las fórmulas hay que sabérselas, que son la de la Q, que es muy fácil, y la de la R, ¿vale? Esas dos hay que sabérselas, el valor del que dudo menos la media entre la desviación y el valor del que dudo, a ver esto si me deja escribir ahora, que no sé por qué no está escribiendo. 362 00:48:30,619 --> 00:48:49,460 El valor del que dudo menos el valor más próximo dividido entre el rango y todo ello en valor absoluto, porque siempre es positivo, ¿vale? Siempre positivo. 363 00:48:49,460 --> 00:49:01,909 Ok, pues estos son los ensayos de significación para ver un resultado doloso. 364 00:49:02,510 --> 00:49:06,969 Ahora, tenemos muchos más ensayos que ya los habíamos nombrado. 365 00:49:08,789 --> 00:49:14,809 Podemos querer saber si dos métodos tienen la misma precisión. 366 00:49:14,809 --> 00:49:28,969 ¿Eso qué quiere decir? Que estamos comparando las varianzas de los dos métodos, los parámetros de dispersión. Acordaos que en estadística descriptiva vimos que tenemos medidas de centralización y medidas de dispersión. 367 00:49:28,969 --> 00:49:42,809 Entonces, las de centralización nos dan con un solo valor el valor central, el más representativo, y las de dispersión nos dicen cómo de separados están los datos entre ellos. 368 00:49:43,469 --> 00:49:56,630 Acordaos que la precisión, si ponemos el ejemplo de la diana que ponemos siempre, si estamos evaluando la precisión, a ver que voy a hacer una diana que me va a quedar feísima, pero nos apañamos, ¿no? 369 00:49:57,289 --> 00:50:07,590 Esto es una diana, entonces la exactitud que sería atinar en el centro, ¿no? Este de aquí es el valor que consideramos exacto y esto sería un resultado exacto. 370 00:50:07,590 --> 00:50:29,150 Ahora, ¿cómo sería un resultado preciso si yo hago una serie de medidas y todas están muy cerquita entre sí? Si yo hago una serie de medidas y una está aquí, otra está aquí, otra está aquí, otra está aquí, aunque luego la media, por casualidades, me pueda dar relativamente cercana al valor central, mis datos son poco precisos. 371 00:50:29,150 --> 00:50:57,550 Entonces, la precisión lo que me dice es cómo de dispersos están los datos y acordaos que para la dispersión utilizábamos la desviación típica y la varianza, ¿vale? Cuando hacemos una comparación de la precisión de dos métodos o de la precisión de dos operadores, cuando comparamos precisión en definitiva, siempre comparamos varianzas porque la varianza tiene la peculiaridad de que se pueden sumar entre ellas, ¿vale? 372 00:50:57,550 --> 00:51:08,889 Bueno, es una medida de dispersión que es la que más se utiliza. Entonces, vamos a comparar varianzas. ¿Cómo hacemos eso? Pues lo primero tendremos que tener dos series de valores. 373 00:51:09,090 --> 00:51:23,170 Ahora mismo estábamos con nuestra Q de Dixon y nuestra R de Gruss que teníamos unos datos, ¿no? Teníamos una fila con un valor, otro valor, otro valor, otro valor y los comparábamos entre ellos, ¿no? 374 00:51:23,170 --> 00:51:38,329 Ahora, imaginaos que tenemos esos valores y además tenemos otros. Esta es una serie que es la serie roja y esta es una serie que es la serie azul. Tenemos X1, X2, X3, X4, lo que sea, ¿vale? 375 00:51:38,329 --> 00:51:40,590 esto de aquí arriba puede haber sido 376 00:51:40,590 --> 00:51:42,150 que yo he medido 377 00:51:42,150 --> 00:51:43,489 pues 378 00:51:43,489 --> 00:51:46,550 yo que sé, he hecho una valoración 379 00:51:46,550 --> 00:51:48,710 de manera manual 380 00:51:48,710 --> 00:51:50,030 ¿no? he valorado 381 00:51:50,030 --> 00:51:53,519 sulfúrico con sosa 382 00:51:53,519 --> 00:51:55,719 y lo he hecho con mi bureta 383 00:51:55,719 --> 00:51:57,539 como se hace de toda la vida 384 00:51:57,539 --> 00:51:59,400 una valoración manual 385 00:51:59,400 --> 00:52:00,760 esta de aquí 386 00:52:00,760 --> 00:52:05,159 manual 387 00:52:05,159 --> 00:52:09,889 y esta de aquí abajo 388 00:52:09,889 --> 00:52:11,769 yo he cogido un valorador automático 389 00:52:11,769 --> 00:52:14,170 que tenemos aquí también en el centro 390 00:52:14,170 --> 00:52:16,610 y he hecho una valoración automática 391 00:52:16,610 --> 00:52:19,590 entonces yo 392 00:52:19,590 --> 00:52:22,090 de cada uno de mis datos puedo sacar 393 00:52:22,090 --> 00:52:23,510 yo de aquí con estos datos 394 00:52:23,510 --> 00:52:26,769 ahora mismo son 4, pues tengo que n es igual a 4 395 00:52:26,769 --> 00:52:29,750 puedo calcular mi media 396 00:52:29,750 --> 00:52:32,349 del automático y puedo calcular 397 00:52:32,349 --> 00:52:33,230 mi desviación 398 00:52:33,230 --> 00:52:36,150 y puedo calcular mi varianza 399 00:52:36,150 --> 00:52:38,409 que es mi desviación al cuadrado 400 00:52:38,409 --> 00:52:40,349 yo puedo calcular todos estos parámetros 401 00:52:40,349 --> 00:52:57,309 Puedo hacer lo mismo con los datos que he obtenido en mi valoración manual, ¿no? Puedo coger de aquí y calcular mi n en este caso también es igual a 4, ¿vale? n. 402 00:52:57,309 --> 00:53:25,989 Podría serlo o no, pero bueno, vamos a poner este caso que n es igual a 4 403 00:53:25,989 --> 00:53:33,110 y calculo mi media de estos datos y calculo mi desviación y mi varianza de estos datos, ¿vale? 404 00:53:33,110 --> 00:53:48,090 Aquí estoy poniendo X, pero esto podría ser 3, 4, 3, 6 y el azul podrían ser datos, a pensar que son, cuando ponga X, que son datos numéricos, ¿vale? 405 00:53:48,090 --> 00:54:07,190 Este puede ser 3, 5, 3, 4. Imaginaos que tenemos estos datos. Yo quiero saber si la precisión de estos dos métodos se puede considerar igual o no. ¿Cómo hago eso? Comparando la varianza de cada uno de los dos métodos. 406 00:54:07,190 --> 00:54:27,489 Comparo esta varianza de aquí con esta varianza de aquí. Aquí, ojo, que estoy diciendo varianza, ¿vale? No estoy comparando las desviaciones estándar, estoy comparando las varianzas. Entonces, siempre que haga este análisis de comparar la precisión de los métodos, lo que comparo son varianzas, no desviaciones, ¿vale? 407 00:54:27,489 --> 00:54:43,510 Entonces, ¿cómo hacemos esto? Lo hacemos con una prueba que se llama la prueba F. Y como se ha adelantado al principio de la unidad, siempre vamos a hacer lo mismo. 408 00:54:43,510 --> 00:54:57,829 Vamos a, uno, calcular un estadístico, en este caso calculamos f, igual que en los anteriores calculábamos q de Dixon o calculábamos la r, aquí calculamos f. 409 00:54:58,489 --> 00:55:07,070 Después nos vamos a la tabla de la f y buscamos el valor de f crítica. 410 00:55:07,070 --> 00:55:19,829 Y por último, vemos si mi F tabulada es mayor o es menor que la F que yo he calculado. 411 00:55:22,329 --> 00:55:26,329 Disculpadme un segundito que voy a encender la luz que se está haciendo de noche por aquí. 412 00:55:26,429 --> 00:55:26,849 Un segundo. 413 00:55:45,300 --> 00:55:45,840 Ya está. 414 00:55:46,440 --> 00:55:51,940 Entonces, lo primero, pues vamos a ver cómo calculamos el parámetro F. 415 00:55:51,940 --> 00:55:55,619 Luego ya sabemos compararlo perfectamente porque sabemos buscar en las tablas. 416 00:55:56,199 --> 00:55:57,880 Esta tiene una peculiaridad que ahora la vemos. 417 00:55:58,500 --> 00:56:00,340 Entonces, vamos a verlo primero cómo se calcula F. 418 00:56:00,579 --> 00:56:02,699 Pues F es muy, muy sencillo de calcular. 419 00:56:03,659 --> 00:56:10,820 F es dividir una varianza entre la otra varianza. 420 00:56:11,400 --> 00:56:15,500 Vamos a llamar a un método A y al otro método B. 421 00:56:15,500 --> 00:56:31,150 Y lo que sí que es muy importante es que siempre vamos a colocar la varianza más grande, o sea, el número mayor, arriba y la más pequeña abajo. 422 00:56:31,590 --> 00:56:43,349 La varianza de A es mayor que la varianza de B. O sea, que este número siempre va a ser mayor que 1, ¿vale? Siempre positivo y siempre va a ser mayor que 1, ¿vale? 423 00:56:43,349 --> 00:56:50,130 La varianza nunca puede ser negativa, ¿no? Porque si os acordáis de la fórmula de la varianza, es las diferencias elevadas al cuadrado. 424 00:56:50,269 --> 00:56:53,489 Y algo elevado al cuadrado nunca, nunca, nunca va a poder ser negativo. 425 00:56:54,210 --> 00:57:01,170 Como esta es mayor que esta, el valor de f va a ser mayor de 1 siempre, ¿vale? 426 00:57:01,170 --> 00:57:22,590 Entonces, imaginaos, si yo tengo dos métodos y en uno tengo una varianza de 3,8 y en el otro, en el B, tengo una varianza de 4,2, mi F sería 4,2 dividido entre 3,8. 427 00:57:22,590 --> 00:57:44,710 Lo hago con la calculadora y me sale que mi F es 1,105, ¿vale? Pues ya he calculado mi F, para que veáis lo fácil que es. Me tengo que calcular con los datos que me den mi desviación, 1,105. 428 00:57:44,710 --> 00:57:49,730 me calculo mi F con mis datos de varianza 429 00:57:49,730 --> 00:57:51,789 bueno, aquí acabo yo de hacer un error enorme 430 00:57:51,789 --> 00:57:54,570 os he dicho que la S de A es 3,8 431 00:57:54,570 --> 00:57:56,969 yo lo que tengo que comparar es la varianza 432 00:57:56,969 --> 00:58:00,309 esto tendría que ser al cuadrado 433 00:58:00,309 --> 00:58:01,869 y esto tendría que ser al cuadrado 434 00:58:01,869 --> 00:58:03,250 porque esto son desviaciones 435 00:58:03,250 --> 00:58:06,610 he dicho varianza cuando lo he leído 436 00:58:06,610 --> 00:58:08,289 pero la S es desviación 437 00:58:08,289 --> 00:58:11,510 la varianza es S al cuadrado 438 00:58:11,510 --> 00:58:28,349 Entonces, si quiero comparar, tengo estas desviaciones, si quiero comparar estos dos métodos, lo primero me calculo las varianzas, que son 4,2 al cuadrado, que son 17,74. 439 00:58:28,349 --> 00:58:47,170 Y 3,8 al cuadrado, que la pongo debajo porque es más pequeña, que son 14,44. 440 00:58:47,170 --> 00:59:02,670 y 17,74 entre 14,44 son 1,229, ¿vale? 441 00:59:02,710 --> 00:59:07,170 Este sería el cálculo de mi F con estos datos que nos acabamos de inventar, ¿vale? 442 00:59:08,369 --> 00:59:10,489 A ver, ¿alguna duda? No, ok. 443 00:59:11,150 --> 00:59:12,269 Yo tengo una duda. 444 00:59:12,610 --> 00:59:15,190 ¿Cómo estarían planteadas aquí las hipótesis? 445 00:59:15,190 --> 00:59:18,369 La H0 es que la varianza es igual. 446 00:59:18,670 --> 00:59:23,309 Sí, efectivamente. H0 es que la varianza es igual y H alternativa que es distinta. 447 00:59:23,949 --> 00:59:25,010 Vamos a ello. 448 00:59:28,590 --> 00:59:37,199 Entonces, para comparar la dispersión, que lo que hacemos es comparar la precisión, comparamos las varianzas. 449 00:59:40,440 --> 00:59:44,039 Y lo que os he planteado al principio, podemos comparar dos métodos. 450 00:59:44,039 --> 00:59:46,639 O sea, que yo haga una valoración manual y una automática. 451 00:59:46,639 --> 01:00:06,119 O dos laboratorios que yo haga mi valoración automática aquí en este instituto y haga otra valoración automática en otro y compare los datos de las precisiones a ver si realmente son igual de precisos. O dos analistas diferentes que yo haga una valoración y uno de vosotros haga otra y que comparemos si realmente tienen la misma precisión. 452 01:00:06,119 --> 01:00:26,199 Entonces, si las varianzas son iguales, si provienen de la misma muestra, lo que nosotros tratamos de demostrar es si las pequeñas diferencias que hay en las varianzas se deben a que realmente nuestros métodos no son igual de precisos 453 01:00:26,199 --> 01:00:42,480 o a que hay una variabilidad que es intrínseca, que realmente se debe a los errores aleatorios, pero que nuestras precisiones sí que son iguales. 454 01:00:42,480 --> 01:00:54,519 Entonces, si asumimos que las precisiones son iguales porque nuestro ensayo lo dice así, nuestra prueba F, decimos que nuestra varianza es homogénea y que nuestras muestras son homocedásticas. 455 01:00:54,519 --> 01:01:02,039 y si no, decimos que son heterogéneas o heterocedásticas. Esto simplemente es el nombre, es nomenclatura. 456 01:01:02,900 --> 01:01:12,019 Entonces, vamos a hacer nuestras hipótesis, como muy bien has preguntado. 457 01:01:12,300 --> 01:01:22,599 Entonces, la hipótesis nula, ¿cuál es? Que la varianza de los dos métodos es la misma, o sea, que la S1 al cuadrado es igual que la S2 al cuadrado. 458 01:01:22,599 --> 01:01:38,820 Esta era, por ejemplo, la serie de datos que he puesto en rojo y esta la serie de datos en azul. La hipótesis nula es que sí que son iguales. Ahora, cuando planteamos hipótesis alternativas las podemos plantear de dos maneras, de manera general. 459 01:01:38,820 --> 01:01:55,599 Por eso os digo siempre que en la TED Student tenemos que mirar, cuando miramos intervalos de confianza, tenemos que mirar en el de dos colas, pero eso no es siempre así, ¿vale? Es porque son intervalos de confianza, pero va a haber otros casos en el que tengamos que mirar el de una cola, ¿vale? 460 01:01:55,599 --> 01:02:05,940 Entonces, ¿qué hipótesis podemos plantear? Nuestra hipótesis nula, que siempre es la misma, que la varianza de uno es igual que la varianza del otro. 461 01:02:06,460 --> 01:02:18,960 Ahora, nuestra hipótesis alternativa puede ser que las varianzas son diferentes, o sea, decir que simplemente la varianza de uno es distinta que la del otro, y entonces estamos hablando de bilateral. 462 01:02:18,960 --> 01:02:35,079 Cuando simplemente digo que es distinta. No digo que sea mayor o que sea menor. Digo que es distinta. O una hipótesis alternativa que es que la varianza más grande es mayor que la varianza más pequeña. 463 01:02:35,079 --> 01:02:51,460 O que la varianza más pequeña es menor que la varianza más grande. No tendría sentido intentar demostrar que el que tiene una varianza mayor es más preciso. Tendría sentido demostrar o que es menos preciso o que es igual de preciso. 464 01:02:52,039 --> 01:03:04,619 No sé si me seguís hasta aquí. Esto es lo que es un poquillo más complejo. Ahora hacemos ejemplos. Hoy no sé si dará tiempo a terminar ejemplos, pero lo intentaremos. 465 01:03:05,079 --> 01:03:19,500 Si no, el próximo día sin problema, ¿vale? Lo retomamos y hacemos ejercicios ya con la prueba F. Lo que tenemos que quedarnos ya es, para recapitular otra vez, Q de Dixon y R de Gruss para ver resultados dudosos y la prueba F para comparar varianzas. 466 01:03:19,500 --> 01:03:33,800 Cuando comparamos varianzas, lo que estamos comparando son precisiones, ¿vale? Entonces, esto que os cuento aquí de hipótesis nula y hipótesis alternativa, lo utilizamos muchísimo, que sea bilateral o unilateral, cuando comparamos medias. 467 01:03:33,800 --> 01:03:45,079 Cuando comparamos precisiones, cuando hacemos la prueba F, en la práctica siempre se hace unilateral. Al final, ahora lo veremos con tablas, pero el resultado casi siempre es el mismo. 468 01:03:45,260 --> 01:03:55,320 Quiero decir, uno es más restrictivo que otro porque miramos en la tabla en una zona o justo en la fila de al lado. Ahora con el ejemplo os enteráis bien. 469 01:03:55,320 --> 01:04:08,679 Pero cuando utilicemos la prueba F, normalmente por practicidad siempre tenemos una tabla solo, que es la tabla de una cola, que la tenéis en el aula virtual en el apartado de tablas y tiene este aspecto de aquí. 470 01:04:10,340 --> 01:04:21,320 Tenemos la del 0,05, que es lo mismo que decir 95%, y tenemos la de 0,01, que es lo mismo que decir 99%. 471 01:04:21,320 --> 01:04:33,000 ¿Vale? Utilizamos siempre esta. Por existir, existe la tabla F bilateral, pero no es nada, nada habitual, no se utiliza nunca. 472 01:04:33,420 --> 01:04:40,320 Entonces, siempre que se hacen ensayos para comparar precisiones, se hacen contrastes de hipótesis que son unilaterales. 473 01:04:41,400 --> 01:04:47,980 ¿Vale? Quedaos simplemente con... Esto os lo presento hoy y el próximo día lo vamos a explicar bien. 474 01:04:47,980 --> 01:04:51,199 vale 475 01:04:51,199 --> 01:04:54,219 entonces 476 01:04:54,219 --> 01:04:56,840 seguimos aquí 477 01:04:56,840 --> 01:05:02,889 ¿cómo vamos a proceder? 478 01:05:02,929 --> 01:05:05,110 pues lo que hemos dicho, calculamos nuestra f 479 01:05:05,110 --> 01:05:06,989 que la f es 480 01:05:06,989 --> 01:05:08,630 la varianza del mayor 481 01:05:08,630 --> 01:05:11,329 entre la varianza más grande 482 01:05:11,329 --> 01:05:12,750 entre la varianza más pequeña 483 01:05:12,750 --> 01:05:14,909 como son dos métodos, van a tener dos varianzas 484 01:05:14,909 --> 01:05:17,590 pues hacemos la división 485 01:05:17,590 --> 01:05:18,610 de la mayor entre la menor 486 01:05:18,610 --> 01:05:20,010 para que siempre sea mayor que 1 487 01:05:20,010 --> 01:05:36,050 ¿Vale? Hemos calculado nuestro F calculado y ahora nos tenemos que ir a la tabla a buscar en función de los grados de libertad, ¿vale? Y aquí lo que tenemos que tener en cuenta, este es un trocito de la tabla que os acabo de enseñar, ¿vale? 488 01:05:36,050 --> 01:05:51,210 Tenemos los grados de libertad del numerador, o sea, de lo que he puesto arriba, aquí, en mi ecuación, y del denominador, que son los que he puesto aquí abajo. 489 01:05:51,210 --> 01:06:19,170 Eso quiere decir que si S1 son siete valores y S2 son nueve valores, el numerador n es igual a siete, el denominador n es igual a nueve, y como son grados de libertad que es n menos uno, igual que con la T de Student, tendría que buscar en este caso siete menos uno, seis, y en este caso hemos dicho nueve menos uno, ocho. 490 01:06:19,170 --> 01:06:35,750 Entonces, tendría que buscar 6 y 8. Mi F crítica sería 3,581. En este caso, que me acabo de inventar, ¿vale? Vamos a hacerlo con ejercicios reales para que veáis los valores numéricos. 491 01:06:35,750 --> 01:06:43,429 pero con lo que me tengo que quedar es que para comparar la precisión de dos métodos 492 01:06:43,429 --> 01:06:46,610 utilizo la prueba F, planteo las hipótesis 493 01:06:46,610 --> 01:06:50,670 en el caso de la prueba F mi hipótesis va a ser siempre unilateral 494 01:06:50,670 --> 01:06:54,989 la hipótesis nula es que las varianzas son iguales 495 01:06:54,989 --> 01:07:00,349 la hipótesis alternativa que las varianzas pues la mayor que es mayor que la otra 496 01:07:00,349 --> 01:07:01,710 que no son iguales 497 01:07:01,710 --> 01:07:26,010 Entonces, calculo mi f poniendo arriba la varianza que sea mayor y abajo la menor y miro en la tabla sabiendo que este es el numerador y este el denominador, o sea, la varianza puede ser mayor y aquí puedo tener un número de datos mayor o menor que aquí, o pueden ser iguales, yo puedo tener dos métodos y de los dos haber hecho ocho medidas, por ejemplo. 498 01:07:26,010 --> 01:07:35,429 Pues entonces en mi tabla iría a 7, 7, n-1 en el numerador, n-1 en el denominador, ¿vale? 499 01:07:35,710 --> 01:07:43,010 Y veis que están todas las combinaciones, ¿no? 6, 2, y también está la 2, 6, que no es igual, ¿vale? 500 01:07:43,010 --> 01:07:50,010 Tenemos que tener en cuenta cuál es mi serie de datos, qué he puesto en el numerador porque es más... 501 01:07:50,010 --> 01:07:56,909 Porque tiene una varianza mayor y cuál he puesto en el denominador, abajo, porque tiene una varianza menor. 502 01:08:00,449 --> 01:08:03,750 ¿Dudas de esto? Voy a ponerme ya en el chat y dejo de grabar. 503 01:08:03,750 --> 01:08:07,750 A ver, detener grabación.