1 00:00:05,320 --> 00:00:21,079 Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 2 00:00:21,079 --> 00:00:25,579 Arquitecto Pedro Gumiel de Alcalá de Henares y os doy la bienvenida a esta serie de videoclases 3 00:00:25,579 --> 00:00:28,800 de la unidad ES2 dedicada a la estadística bivariante. 4 00:00:30,039 --> 00:00:39,700 En la videoclase de hoy estudiaremos las distribuciones condicionadas. 5 00:00:40,820 --> 00:00:53,109 En esta videoclase vamos a estudiar las distribuciones condicionadas, que son aquellas que corresponden 6 00:00:53,109 --> 00:00:58,789 a una de las variables estadísticas considerada unidimensional para un valor concreto de la otra. 7 00:00:59,929 --> 00:01:04,310 Habitualmente se consideran únicamente en el caso en el que los datos vienen recogidos en una tabla 8 00:01:04,310 --> 00:01:09,609 de doble entrada, de tal manera que las frecuencias absolutas se corresponden bien con una fila o bien 9 00:01:09,609 --> 00:01:14,969 con una columna de la misma. Y se opera para determinar las medidas de centralización y de 10 00:01:14,969 --> 00:01:19,450 dispersión como corresponde a una distribución unidimensional, de tal forma que utilizaremos 11 00:01:19,450 --> 00:01:26,290 las técnicas que estudiamos en la unidad anterior, unidad número 10, de estadística univariante. 12 00:01:28,920 --> 00:01:33,560 En este ejemplo vamos a considerar el estudio anterior conjunto del número de suspensos en 13 00:01:33,560 --> 00:01:37,859 una cierta evaluación y el tiempo diario medio de estudio de los estudiantes de un cierto grupo 14 00:01:37,859 --> 00:01:43,219 de bachillerato. Aquí tenemos la tabla de frecuencias, una vez más, tenemos la tabla de 15 00:01:43,219 --> 00:01:50,439 frecuencias, x, y, x, tiempo medio de estudio en horas, y, número de suspensos, y tenemos esta 16 00:01:50,439 --> 00:01:57,019 fila y esta columna extras con las distribuciones marginales. Se nos pide que construyamos una 17 00:01:57,019 --> 00:02:03,079 tabla de frecuencias específica para la distribución del número de suspensos, esto es la variable 18 00:02:03,079 --> 00:02:08,740 estadística y, para aquellos estudiantes únicamente que estudian un promedio de dos 19 00:02:08,740 --> 00:02:13,500 horas diarias. Los datos de esos estudiantes, los que estudian un promedio de dos horas 20 00:02:13,500 --> 00:02:18,740 diarias, se encuentran en esta columna de la tabla bidimensional, donde vemos xj igual 21 00:02:18,740 --> 00:02:25,479 las dos horas. Así pues, esta columna que tenemos aquí contiene los datos de la variable estadística 22 00:02:25,479 --> 00:02:32,219 que queremos estudiar, y, número de suspensos, y esta columna, incluido este número que tenemos aquí, 23 00:02:32,280 --> 00:02:38,280 este 16, la suma de todos estos valores, contienen las frecuencias absolutas que corresponden a esa 24 00:02:38,280 --> 00:02:45,180 distribución anterior. Se corresponde exclusivamente con aquellos datos de la distribución bidimensional 25 00:02:45,180 --> 00:02:51,199 en los cuales el tiempo medio de estudio era igual a dos horas, tal y como se nos está indicando. 26 00:02:52,120 --> 00:02:57,599 Esta parte que tenemos aquí, hasta esta línea gruesa, se corresponde con las frecuencias absolutas. 27 00:02:57,759 --> 00:03:02,500 Este dato que tenemos debajo del todo es el dato que corresponde a la frecuencia marginal, 28 00:03:02,620 --> 00:03:05,599 la distribución marginal, y es la suma de todas estas frecuencias. 29 00:03:06,099 --> 00:03:11,939 Eso nos indica que en 16 del total de 30 observaciones, el tiempo medio de estudio era de dos horas. 30 00:03:11,939 --> 00:03:17,180 Y estos 16 datos son los que vamos a utilizar en esa distribución condicionada. 31 00:03:17,599 --> 00:03:23,520 La distribución de la variable y, número de suspensos, condicionado, y eso es lo que indica esta barra, 32 00:03:24,020 --> 00:03:28,340 porque el valor de x, tiempo promedio de estudio, sea igual a 2 horas. 33 00:03:28,979 --> 00:03:34,860 x igual a 2 horas, como veis aquí, se corresponde en nuestra tabla de frecuencias bidimensional con x sub 3, 34 00:03:34,960 --> 00:03:39,560 será el tercero de los valores posibles para x sub j, tiempo de estudio. 35 00:03:40,560 --> 00:03:48,560 La tabla de frecuencias que vamos a construir es igual a aquellas que construíamos en la unidad anterior en el estudio de la estadística univariante. 36 00:03:49,439 --> 00:03:52,460 Como podéis ver, tiene exactamente el mismo aspecto. 37 00:03:53,080 --> 00:03:59,560 La primera columna lo que recoge son los valores posibles para la variable estadística que estamos nosotros estudiando. 38 00:04:00,379 --> 00:04:07,479 Aquí tenemos i sub i y estos valores posibles que hemos tomado de esta columna de la tabla bidimensional inicial. 39 00:04:07,479 --> 00:04:22,779 A continuación debemos poner las frecuencias absolutas que corresponden con estos valores y los hemos tomado tal cual de esta columna de la tabla bidimensional 285010, 285010. Son las frecuencias absolutas. 40 00:04:22,779 --> 00:04:43,540 Como siempre hacíamos en el caso de la estadística univariante, en esta última fila vamos a poner la suma. La suma de todas las frecuencias absolutas es 16, este valor que tenemos aquí, y este es el tamaño de la muestra, el tamaño de aquellos estudiantes que estudian un promedio de dos horas diarias. Es el estudio que queremos hacer. 41 00:04:44,540 --> 00:04:54,480 Las siguientes columnas son iguales y se construyen de la misma manera a como estudiamos en la unidad anterior y me remito a las videoclases de esa unidad para más detalles. 42 00:04:55,040 --> 00:05:00,600 Aquí tenemos las frecuencias relativas que se calculan dividiendo las frecuencias absolutas entre el tamaño de la muestra. 43 00:05:01,480 --> 00:05:06,259 La suma de todas las frecuencias relativas debe ser idénticamente igual a la unidad, como podemos comprobar. 44 00:05:06,920 --> 00:05:11,560 Aquí tenemos las frecuencias absolutas acumuladas que hemos calculado acumulando las frecuencias absolutas. 45 00:05:12,060 --> 00:05:14,540 El último valor debe coincidir con el tamaño de la muestra. 46 00:05:15,379 --> 00:05:25,500 Aquí tenemos las frecuencias relativas acumuladas, que podemos calcular bien dividiendo las frecuencias absolutas acumuladas entre el tamaño total de la muestra o bien acumulando las frecuencias relativas. 47 00:05:25,800 --> 00:05:30,420 Debemos obtener los mismos valores y el último valor debe ser idénticamente igual a la unidad. 48 00:05:30,420 --> 00:05:50,420 Y en estas dos columnas adicionales tenemos cálculos auxiliares que nos van a permitir el valor de la variable por la frecuencia absoluta y su suma, calcular la media aritmética, y el cuadrado de los valores de la variable por las frecuencias absolutas y su suma, la varianza y con esta la desviación estándar. 49 00:05:50,420 --> 00:06:06,319 Si os fijáis aquí tenemos los valores de I sub I igual que teníamos recogidos en nuestra tabla original y en cuanto a las frecuencias absolutas y el resto podríamos haberlas etiquetado N sub I, F sub I, N mayúscula sub I, etc. 50 00:06:06,699 --> 00:06:12,240 Pero hemos preferido recordar que estas frecuencias provienen de esta tabla. 51 00:06:13,399 --> 00:06:25,160 Todas estas frecuencias son las que corresponden a n1,3, n2,3, n3,3, puesto que todas estas frecuencias absolutas se corresponden con el valor de x igual a x sub 3. 52 00:06:25,160 --> 00:06:31,899 Esa es la razón por la cual hemos etiquetado las frecuencias absolutas y todas las demás como n sub i3, 53 00:06:31,899 --> 00:06:38,819 para recordar que provienen de la distribución conjunta y que se corresponden con las frecuencias 54 00:06:38,819 --> 00:06:44,740 que están contenidas dentro de la tercera columna. Estamos leyendo distintas filas, por eso el i está 55 00:06:44,740 --> 00:06:51,689 libre, tercera columna. A continuación se nos pedía que representáramos el diagrama de barras 56 00:06:51,689 --> 00:06:57,970 correspondiente y aquí lo que tenemos es, en función del número de suspensos de los estudiantes 57 00:06:57,970 --> 00:07:02,930 que estudian un promedio de dos horas diarias, aquí tenemos la condición, las frecuencias absolutas. 58 00:07:03,470 --> 00:07:14,029 Si vamos a la tabla anterior, con 0 suspensos había 2 estudiantes, con 1 suspenso había 8 estudiantes, con 2 suspensos había 5 estudiantes y finalmente con 4 suspensos había 1 estudiante. 59 00:07:14,029 --> 00:07:21,610 Bien, pues esas son las barras que tenemos aquí. 0 suspensos 2, 1 suspenso 8, 2 suspensos 5, 4 suspensos 1. 60 00:07:22,629 --> 00:07:30,029 También se nos pide que determinemos la media, la varianza y la desviación típica que corresponden a esta distribución condicionada. 61 00:07:30,029 --> 00:07:35,889 condicionada. Vamos a emplear para ello exactamente las mismas fórmulas, las mismas expresiones que 62 00:07:35,889 --> 00:07:40,870 utilizamos en la unidad pasada de la estadística univariante, cambiando ligeramente la notación, 63 00:07:40,990 --> 00:07:46,850 claro, para recordar que esta es la distribución condicionada. La media aritmética de y condicionada 64 00:07:46,850 --> 00:07:51,470 porque x es igual a dos horas se va a calcular como la suma de los valores por las frecuentes 65 00:07:51,470 --> 00:07:58,110 absolutas dividido entre el tamaño de la muestra. Esto lo hemos calculado ya, es el resultado de una 66 00:07:58,110 --> 00:08:06,149 auxiliar 22, el tamaño de la muestra es 16, pues bien, 22 entre 16 igual a 1,4. Este es el número 67 00:08:06,149 --> 00:08:11,850 medio de suspensos de los estudiantes que estudian dos horas diarias en promedio. ¿Cómo vamos a 68 00:08:11,850 --> 00:08:17,189 calcular la varianza? Pues utilizando la fórmula habitual, la media de los cuadrados menos el 69 00:08:17,189 --> 00:08:22,709 cuadrado de la media, condicionada por supuesto. Y aquí tenemos sigma al cuadrado y, porque es la 70 00:08:22,709 --> 00:08:26,910 varianza de la variable aleatoria y condicionada porque x sea igual a dos 71 00:08:26,910 --> 00:08:33,429 horas. Para calcular la media del cuadrado lo que hacemos es irnos a la 72 00:08:33,429 --> 00:08:38,529 columna auxiliar de los cuadrados de los valores por la frecuencia absoluta, tomar 73 00:08:38,529 --> 00:08:44,889 esta suma que es 44 y dividir entre 16 que era el tamaño de la muestra. 44 entre 74 00:08:44,889 --> 00:08:49,350 16. Ya está, vamos a resultar, vamos a restar, perdón, la media al cuadrado, menos 75 00:08:49,350 --> 00:08:55,330 1,4 al cuadrado y esta varianza de la variable x condicionada porque los alumnos estudian en 76 00:08:55,330 --> 00:09:00,889 promedio dos horas diarias es igual a 0,86. La desviación típica se denota igual que la 77 00:09:00,889 --> 00:09:05,710 varianza eliminando el cuadrado es más la red cuadrada de la varianza más la red cuadrada de 78 00:09:05,710 --> 00:09:12,610 0,86 es 0,9 y aquí tenemos el valor de la desviación típica de la distribución condicionada, 79 00:09:12,610 --> 00:09:17,549 La distribución de Y condicionada porque X tome el valor 2 horas. 80 00:09:20,620 --> 00:09:26,220 En el aula virtual de la asignatura tenéis disponibles otros recursos y cuestionarios. 81 00:09:26,940 --> 00:09:31,039 Asimismo, tenéis más información en las fuentes bibliográficas y en la web. 82 00:09:31,860 --> 00:09:36,620 No dudéis en traer vuestras dudas e inquietudes a clase o al foro de dudas en el aula virtual. 83 00:09:37,159 --> 00:09:38,559 Un saludo y hasta pronto.