1 00:00:05,320 --> 00:00:21,079 Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 2 00:00:21,079 --> 00:00:25,579 Arquitecto Pedro Gumiel de Alcalá de Henares y os doy la bienvenida a esta serie de videoclases 3 00:00:25,579 --> 00:00:28,800 de la unidad ES2 dedicada a la estadística bivariante. 4 00:00:30,059 --> 00:00:39,770 En la videoclase de hoy estudiaremos las distribuciones marginales. 5 00:00:40,670 --> 00:00:52,310 En esta videoclase vamos a estudiar las distribuciones marginales, que tal y como mencioné en la 6 00:00:52,310 --> 00:00:59,310 introducción se corresponden a las que corresponden al estudio de las variables estadísticas individuales 7 00:00:59,310 --> 00:01:06,969 que forman la distribución bidimensional. Estudiamos x por separado como si no tuviéramos los valores 8 00:01:06,969 --> 00:01:12,890 de y sin tener en cuenta la variabilidad en y y por otro lado estudiamos y sin tener en cuenta 9 00:01:12,890 --> 00:01:19,730 la variabilidad en x. Estudiamos x por un lado y por otro. Como podéis ver aquí en el caso en el que 10 00:01:19,730 --> 00:01:25,329 los datos bidimensionales se recojan en tablas bidimensionales simples, ya sea con o sin 11 00:01:25,329 --> 00:01:31,390 frecuencias absolutas, no se suele hacer una construcción adicional sobre esa misma tabla 12 00:01:31,390 --> 00:01:35,730 de frecuencias para estudiar la distribución marginal, puesto que en esos casos se toman 13 00:01:35,730 --> 00:01:41,069 únicamente los valores de x o los de y y se hace un estudio como el que habíamos visto en la unidad 14 00:01:41,069 --> 00:01:46,930 anterior de estadística univariante. Así pues nos vamos a centrar en esta videoclase únicamente 15 00:01:46,930 --> 00:01:53,489 en el caso en el que los datos bidimensionales se recojan en una tabla de doble entrada, como la que podemos ver aquí. 16 00:01:54,109 --> 00:02:01,209 En las tablas de doble entrada, lo que teníamos hasta este momento era lo que se encontraba aquí recogido en esto que estoy marcando, 17 00:02:01,670 --> 00:02:07,909 sin tener en cuenta esta última columna y esta última fila, que son las que se deben añadir para recoger la distribución marginal. 18 00:02:08,750 --> 00:02:12,090 Os recuerdo que en la tabla de frecuencias de doble entrada lo que teníamos era, 19 00:02:12,090 --> 00:02:30,389 Aquí los encabezados por columnas de la variable estadística x, x1, x2, etc., hasta xcx, son los valores posibles, los valores observados de la variable estadística x y cx, era el número de categorías de la variable x. 20 00:02:30,389 --> 00:02:52,370 Aquí tenemos en esta primera columna, por filas, la variable estadística y, y1, y2, etc., hasta y sub cx, son los valores observados, los valores posibles de la variable estadística y, y c y era el número de categorías, el número de valores posibles en la variable estadística y. 21 00:02:52,370 --> 00:03:17,009 En la intersección, aquí lo que teníamos eran distintas celdas donde recogíamos las frecuencias absolutas. Aquí tenemos, por ejemplo, un valor genérico n sub ij. Os recuerdo que el primer subíndice i me indicaba la fila, así que se corresponde con el valor de la variable yi sub ij indicaba el número de columna, el segundo subíndice el número de columna. 22 00:03:17,009 --> 00:03:34,710 Así que la variable estadística x que corresponde a esta frecuencia n sub ij es x sub j, de tal forma que n sub ij es la frecuencia absoluta que corresponde al vector bidimensional, a las observaciones del vector bidimensional x sub j y sub i. 23 00:03:34,710 --> 00:03:53,009 Bien, lo que tenemos aquí es una columna y una fila adicionales donde vamos a recoger la suma de las frecuencias absolutas bien por filas y lo recogeremos en esta última columna, bien por columnas y lo recogeremos en esta última fila. 24 00:03:53,009 --> 00:04:13,169 El valor que tenemos aquí, en esta primera celda de esta columna adicional, se representa por N1. El punto me indica una suma y N1. me dice que coja todas las frecuencias absolutas que se encuentran en la primera fila y sume a lo largo de las columnas. 25 00:04:13,169 --> 00:04:23,490 De ahí el punto. Me están pidiendo que calcule n11 más n12 más n13 así hasta n1cx. Estoy sumando 26 00:04:23,490 --> 00:04:29,569 en todas las columnas y lo que estoy haciendo es sumar en la primera fila. n1 punto primera fila, 27 00:04:29,790 --> 00:04:35,509 sumo todas las columnas. ¿Qué es lo que estoy sumando? Todas las frecuencias absolutas con 28 00:04:35,509 --> 00:04:42,589 independencia de cuál sea el valor de x que corresponden al valor de y y sub 1. Así que este 29 00:04:42,589 --> 00:04:50,490 n1 punto es la frecuencia absoluta que corresponde a la distribución marginal de y. De hecho es la 30 00:04:50,490 --> 00:04:58,610 frecuencia que corresponde a y sub 1. El número de observaciones en las cuales la variable estadística 31 00:04:58,610 --> 00:05:05,410 y toma el valor y sub 1 con independencia del valor de la variable x. Fijaos que hemos sumado 32 00:05:05,410 --> 00:05:09,730 todos los valores con independencia del valor de x. 33 00:05:10,670 --> 00:05:15,930 ¿Qué tenemos a continuación en la segunda celda, dentro de esta columna adicional? 34 00:05:16,389 --> 00:05:18,209 Lo que hemos llamado n2. 35 00:05:19,110 --> 00:05:25,029 Estoy sumando, porque tengo un punto, las frecuencias absolutas que se encuentran en la segunda fila 36 00:05:25,029 --> 00:05:27,290 a lo largo de todas las columnas. 37 00:05:27,430 --> 00:05:32,509 Estoy sumando n21 más n22 más n23, así hasta n2cx. 38 00:05:33,490 --> 00:05:38,970 Estas son las frecuencias absolutas que tienen en común el valor de y sub 2. 39 00:05:39,470 --> 00:05:45,730 Así pues, este n2 punto es la frecuencia absoluta que corresponde a la distribución marginal de y. 40 00:05:46,269 --> 00:05:53,009 De hecho, es la frecuencia absoluta que corresponde al valor de y sub 2 con independencia del valor de x, 41 00:05:53,430 --> 00:05:57,529 puesto que lo que estoy haciendo es sumar todas las frecuencias absolutas de todas las observaciones, 42 00:05:57,889 --> 00:06:01,529 independientemente del valor de x, que tienen en común el valor de y sub 2. 43 00:06:01,529 --> 00:06:21,970 Y así a lo largo de toda esta columna. Estos valores n1.n2.n etc. se representan ni. De tal forma que a cada valor de i sub i, i sub 1 le corresponde n1. i sub 2 le corresponde n2. etc. 44 00:06:21,970 --> 00:06:28,170 Y este subíndice y guarda relación con el valor de y sub y que nosotros tenemos aquí. 45 00:06:29,170 --> 00:06:31,129 Eso en lo que respecta a esta columna. 46 00:06:31,250 --> 00:06:38,689 n sub y punto son las frecuencias absolutas de la distribución marginal de y, ignorando que ocurre con x. 47 00:06:40,089 --> 00:06:47,230 A lo largo de esta fila que hemos añadido tendremos algo similar, pero será la distribución marginal de x. 48 00:06:47,750 --> 00:06:54,889 Fijaos, igual que antes, el valor que tenemos en esta primera celda lo hemos representado por n.1. 49 00:06:55,529 --> 00:07:05,069 Estamos sumando, porque tengo un punto, las frecuencias absolutas que tienen en común que el segundo subíndice es 1 y a lo largo de cualquier otro valor. 50 00:07:05,529 --> 00:07:09,569 De tal forma que estamos sumando a lo largo de la primera columna con independencia del valor de la fila. 51 00:07:10,189 --> 00:07:14,410 Estamos sumando n11 más n21 más n lo que quiera que sea 1. 52 00:07:15,009 --> 00:07:22,769 Estamos sumando todas las frecuencias absolutas que tienen en común el valor de x sub 1, con independencia del valor de y. 53 00:07:23,329 --> 00:07:33,370 Así que tenemos la frecuencia absoluta de la distribución marginal de x, en concreto, la que se corresponde con el valor de x1, con independencia del valor de y, porque estamos sumando. 54 00:07:34,009 --> 00:07:36,410 ¿Qué tenemos a continuación? n.2. 55 00:07:36,990 --> 00:07:47,269 Estamos haciendo una suma porque tengo un punto de las frecuencias absolutas que se encuentran todas ellas en la segunda columna porque tengo punto 2 y este 2 me indica columna segunda. 56 00:07:48,029 --> 00:07:53,129 Estoy sumando n1,2, n2,2, n3,2, n lo que quiera que sea 2. 57 00:07:53,610 --> 00:07:56,269 ¿Qué tienen en común todas estas frecuencias que estoy sumando? 58 00:07:56,269 --> 00:08:02,370 pues el valor de x2 y con independencia del valor de y estoy sumando todas las frecuencias 59 00:08:02,370 --> 00:08:10,329 absolutas con observaciones que tienen x igual a x sub 2. Así pues n.2 es frecuencia absoluta 60 00:08:10,329 --> 00:08:15,449 que corresponde a la distribución marginal de x, en concreto es la frecuencia absoluta de x sub 2 61 00:08:15,449 --> 00:08:20,769 con independencia de cuál es el valor de y. Y lo mismo con todos los demás valores que nos vamos 62 00:08:20,769 --> 00:08:28,370 a encontrar aquí. A estos valores en general se los va a representar como n.j. Estos eran n y punto 63 00:08:28,370 --> 00:08:36,389 y la y hacia referencia a los valores de y. Aquí tengo n.j, esta j me se refiere a columnas y las 64 00:08:36,389 --> 00:08:43,629 frecuencias absolutas n.j se refieren a los correspondientes valores de x sub j. n.2 se 65 00:08:43,629 --> 00:08:50,629 corresponde a x2, n.7 se corresponde a x7 y así sucesivamente. Este valor que tengo aquí, 66 00:08:50,769 --> 00:08:56,850 al final del todo de la fila y corresponde con el final del todo de la columna es la suma de 67 00:08:56,850 --> 00:09:02,210 todas las frecuencias absolutas en todas las filas y en todas las columnas. Lo puedo calcular como 68 00:09:02,210 --> 00:09:08,490 la suma de todas estas frecuencias de la distribución marginal de y o bien como la suma 69 00:09:08,490 --> 00:09:13,110 de todas estas frecuencias de la distribución marginal de x. En el fondo es la suma de todas 70 00:09:13,110 --> 00:09:19,450 las frecuencias absolutas. Se representa por n punto a punto y es el tamaño de la población 71 00:09:19,450 --> 00:09:27,009 o muestra. Se corresponde con n en el caso de las tablas bidimensionales simples. En este caso la 72 00:09:27,009 --> 00:09:31,929 notación es diferente y es n punto punto. Os recuerdo que en el caso de las tablas bidimensionales 73 00:09:31,929 --> 00:09:37,769 simples sin frecuencias absolutas, porque todos los vectores eran distintos, n, el tamaño de 74 00:09:37,769 --> 00:09:42,269 población o muestra, se correspondía con el número de observaciones, el número de columnas. En el 75 00:09:42,269 --> 00:09:46,649 caso en el que tenemos una tabla bidimensional simple con frecuencias absolutas, el número de 76 00:09:46,649 --> 00:09:51,090 columnas era el número de valores observados o valores posibles de los 77 00:09:51,090 --> 00:09:55,090 vectores bidimensionales, pero el tamaño de la población o muestra era la suma de 78 00:09:55,090 --> 00:10:00,149 todas las frecuencias absolutas. En ambos casos utilizamos n para el tamaño de 79 00:10:00,149 --> 00:10:04,149 población y muestra o muestra, análogamente a lo que ocurría con la 80 00:10:04,149 --> 00:10:07,649 estadística univariante, en este caso concreto hemos de tener cuidado, el 81 00:10:07,649 --> 00:10:12,250 tamaño de la población o muestra se denota n punto punto. Insisto, o bien es 82 00:10:12,250 --> 00:10:15,990 la suma de todas las frecuencias absolutas o bien una vez que tengo las 83 00:10:15,990 --> 00:10:21,730 distribuciones marginales, la suma de todos estos valores de la distribución marginal de y, o bien 84 00:10:21,730 --> 00:10:27,110 la suma de todos estos valores en la distribución marginal de las x, debe coincidir y ser igual a 85 00:10:27,110 --> 00:10:35,440 este. Como ejemplo vamos a considerar el estudio anterior conjunto del número de suspensos en una 86 00:10:35,440 --> 00:10:40,299 cierta evaluación y el tiempo diario y medio de estudio. Teníamos la tabla de frecuencias 87 00:10:40,299 --> 00:10:46,559 bidimensional que tenemos aquí, donde tenemos como encabezado de columnas la variable 88 00:10:46,559 --> 00:10:54,000 estadística x, tiempo de estudio, valores x, j en horas, 0, 1, 2, 3, 4 horas. Y como encabezados de 89 00:10:54,000 --> 00:11:02,139 filas, la variable estadística y, número de suspensos y sub i, 0, 1, 2, 3, 4, 5. Y aquí teníamos en el 90 00:11:02,139 --> 00:11:08,460 interior las correspondientes frecuencias absolutas. Por ejemplo, este 2 que tenemos aquí sería el 91 00:11:08,460 --> 00:11:15,059 valor de n sub 3, 2, puesto que se encuentra en la tercera fila y segunda columna. Es la frecuencia 92 00:11:15,059 --> 00:11:23,059 absoluta que corresponde al vector de observaciones que contiene xj que sería x sub 2 e y sub i que 93 00:11:23,059 --> 00:11:31,259 sería y sub 3. Así pues, es el número de observaciones con el vector 1, 2. Una hora media de estudio y 94 00:11:31,259 --> 00:11:37,159 dos suspensos. Bien, lo que hemos hecho ha sido añadir, como mencionaba anteriormente, una nueva 95 00:11:37,159 --> 00:11:44,120 columna y una nueva fila. La nueva columna va a contener las frecuencias absolutas que corresponden 96 00:11:44,120 --> 00:11:50,559 a la distribución marginal de y, que también se encuentra en una columna. Corresponde a las 97 00:11:50,559 --> 00:11:57,539 frecuencias absolutas de cada uno de estos valores de y sub i, independientemente del valor de x. Y 98 00:11:57,539 --> 00:12:04,620 lo que se hace es determinar estos valores sumando por filas. 0 más 0 más 2 más 1 más 2 es este 5. 99 00:12:05,820 --> 00:12:12,639 0 más 0 más 8 más 2 más 0 es este 10. Y así sucesivamente hasta 2 más 0 más 0 más 0 más 0, 100 00:12:12,639 --> 00:12:21,580 que es este 2. Estos valores de n sub i punto se corresponden con estos valores de i sub i y 101 00:12:21,580 --> 00:12:27,360 corresponden a, independientemente del tiempo de estudio, independientemente del valor de la x, 102 00:12:28,600 --> 00:12:37,059 con 0 suspensos había 5 observaciones, 2 más 1 más 2, recordad, con 1 suspenso había 10 observaciones, 103 00:12:37,059 --> 00:12:44,600 estas 8 más estas 2, y así sucesivamente. Estos valores de n sub i punto junto con estos valores 104 00:12:44,600 --> 00:12:51,240 de i sub i forman la tabla de frecuencias, de frecuencias absolutas únicamente, claro, de la 105 00:12:51,240 --> 00:12:56,860 distribución marginal de y, la que corresponde a las observaciones de i con independencia de los 106 00:12:56,860 --> 00:13:03,320 valores de x. Si hacemos lo mismo pero esta vez completando esta fila, lo que tenemos es la 107 00:13:03,320 --> 00:13:11,879 distribución marginal de x. Sumamos por filas. 0 más 0 más 0 más 0 más 1 más 2 es este 3. 0 más 0 108 00:13:11,879 --> 00:13:18,799 más 2 más 2 más 1 más 0 es este 5 y así hasta llegar al final 2 más 0 más 0 más 0 más 0 más 0 109 00:13:18,799 --> 00:13:27,779 que es este 2. Estos son los valores de n.j que guardan relación con estos valores de xj, de tal 110 00:13:27,779 --> 00:13:35,259 manera que tres es el número de observaciones en los cuales el tiempo de estudio medio fue de 111 00:13:35,259 --> 00:13:42,399 cero horas, cinco es el número de observaciones en que el tiempo de estudio medio fue igual a 112 00:13:42,399 --> 00:13:49,700 una hora con independencia del número de suspensos. Estos valores de n.j junto con estos valores de 113 00:13:49,700 --> 00:13:55,559 xj que tengo aquí en estas filas se corresponden con la tabla de frecuencias, únicamente con 114 00:13:55,559 --> 00:14:00,480 frecuencias absolutas, claro, de la distribución marginal de x, la que corresponde al tipo de 115 00:14:00,480 --> 00:14:06,940 estudio con independencia del número de suspensos. Si sumo todas las frecuencias absolutas que hay 116 00:14:06,940 --> 00:14:13,779 aquí en estas celdas en blanco o bien si sumo en esta columna 5 más 10 más 8 más 2 más 3 más 2 o 117 00:14:13,779 --> 00:14:21,240 bien si sumo en esta columna 3 más 5 más 16 más 4 más 2 obtengo este valor 30. No está indicado de 118 00:14:21,240 --> 00:14:26,620 ninguna manera pero esto es n punto punto igual a 30 el tamaño de la población o muestra en este 119 00:14:26,620 --> 00:14:34,669 caso de la población. Una parte importante del estudio de las distribuciones marginales es la 120 00:14:34,669 --> 00:14:40,809 determinación de las medidas de centralización y de dispersión con independencia de si dependiendo 121 00:14:40,809 --> 00:14:46,250 de cómo sea la tabla de frecuencias es una tabla simple o una tabla de doble entrada hemos necesitado 122 00:14:46,250 --> 00:14:52,789 o no construir alguna fila o columna adicional. En lo que respecta a las medidas de centralización 123 00:14:52,789 --> 00:14:57,789 nos vamos a centrar en la determinación de las medias marginales, que se van a anotar 124 00:14:57,789 --> 00:15:05,190 x barra y barra, la media marginal de x, la media marginal de y, respectivamente. Se calculan 125 00:15:05,190 --> 00:15:10,090 únicamente en variables cuantitativas y en el caso de que los datos se encuentren en 126 00:15:10,090 --> 00:15:14,929 tablas bidimensionales simples se van a calcular haciendo uso de estas fórmulas. Sumamos todos 127 00:15:14,929 --> 00:15:19,730 los valores de x o de y, dividimos entre el tamaño de la población o muestra. En el 128 00:15:19,730 --> 00:15:24,350 caso en el que los datos estén recogidos en tablas bidimensionales simples con frecuencias absolutas 129 00:15:24,350 --> 00:15:28,710 tenemos que multiplicar los distintos valores posibles por las correspondientes frecuencias 130 00:15:28,710 --> 00:15:33,730 absolutas que tenemos recogidas en esa tercera fila y dividiremos entre el tamaño de la población 131 00:15:33,730 --> 00:15:39,029 o muestra. En el caso en el que tengamos tablas de doble entrada lo que haremos será multiplicar 132 00:15:39,029 --> 00:15:43,529 los valores posibles por las correspondientes frecuencias marginales que tendremos bien en 133 00:15:43,529 --> 00:15:49,490 la columna adicional para la variable y bien en la fila adicional para la variable x y dividiremos 134 00:15:49,490 --> 00:15:54,450 entre el tamaño de la muestra, que en este caso no será n como en los dos casos anteriores, sino n 135 00:15:54,450 --> 00:15:59,929 punto punto como indicamos anteriormente en esta misma videoclase. Recordad que las medidas 136 00:15:59,929 --> 00:16:05,029 marginales tienen unidades si las tiene la variable correspondiente, coinciden con las de esta. 137 00:16:06,210 --> 00:16:10,710 En el caso de las medidas de dispersión vamos a centrarnos en las varianzas y desviaciones 138 00:16:10,710 --> 00:16:16,970 típicas marginales. Las varianzas marginales se van a denotar sigma x al cuadrado y sigma y al 139 00:16:16,970 --> 00:16:24,129 cuadrado, indicando x e y cuál es la variable a la que se refiere. Nuevamente se calculan únicamente 140 00:16:24,129 --> 00:16:29,950 en el caso de variables cuantitativas. En el caso en el que tengamos tablas bidimensionales simples 141 00:16:29,950 --> 00:16:35,889 se corresponderá con la media de los cuadrados menos el cuadro de la media que corresponda. Lo 142 00:16:35,889 --> 00:16:40,889 mismo en el caso de tablas bidimensionales simples, lo único que en este caso habremos de multiplicar 143 00:16:40,889 --> 00:16:45,710 los valores posibles por las correspondientes frecuencias absolutas. Igualmente en el caso en 144 00:16:45,710 --> 00:16:50,669 que tengamos tablas de doble entrada en el que multiplicaremos los valores posibles por las 145 00:16:50,669 --> 00:16:55,610 correspondientes frecuencias de las distribuciones marginales. Estas tienen las unidades de la 146 00:16:55,610 --> 00:17:01,669 variable, si ésta las tiene, al cuadrado. En cuanto a las desviaciones típicas marginales se va a 147 00:17:01,669 --> 00:17:07,549 denotar sigma x sigma y, la de x la de y, y se calculan únicamente en variables cuantitativas 148 00:17:07,549 --> 00:17:12,430 puesto que únicamente en ese caso se calculan las varianzas como la red cuadrada positiva de la 149 00:17:12,430 --> 00:17:17,809 varianza. Si la varianza tiene las unidades de la variable al cuadrado, la desviación típica 150 00:17:17,809 --> 00:17:26,259 marginal va a tener las propias unidades de la variable. Como primer ejemplo vamos a considerar 151 00:17:26,259 --> 00:17:30,380 el estudio conjunto anterior del consumo de combustible y la distancia recorrida por un 152 00:17:30,380 --> 00:17:36,619 cierto vehículo. La tabla de frecuencias simple es la que teníamos aquí y lo que he hecho es 153 00:17:36,619 --> 00:17:42,299 apuntar aquí arriba a la izquierda en igual a 10 el tamaño de la muestra. ¿Cómo calculamos las 154 00:17:42,299 --> 00:17:56,420 Medias marginales, bueno, pues es conforme a la fórmula que habíamos visto anteriormente, 1 entre el tamaño de la muestra, la suma de todos los valores de x sub i, o bien en el caso de la media marginal de i, 1 partido por el tamaño de la muestra, la suma de todos los valores de i. 155 00:17:56,420 --> 00:18:07,339 Y lo que hemos hecho es sumar 100 más 80 más 50 más 100 más 10 más 100 más 70 más 120 más 150 más 220 entre 10, igual a 100 kilómetros, esa es la media de X. 156 00:18:08,200 --> 00:18:19,579 Y en el caso de Y, 6,5 más 6 más 3 más 6 más 1 más 7 más 5,5 más 7,5 más 10 más 15 entre 10, 6,8 litros, esa es la media de Y. 157 00:18:19,579 --> 00:18:26,279 diga. Habitualmente nos solemos ayudar de una columna auxiliar, que aquí representado con 158 00:18:26,279 --> 00:18:32,440 la letra sigma mayúscula, la suma de los valores de x, la suma de los valores de y, de tal forma 159 00:18:32,440 --> 00:18:37,279 que en lugar de representarlo de esta manera, habitualmente uno suma de corrido a lo largo de 160 00:18:37,279 --> 00:18:42,759 toda la fila, el resultado es este 1000, es el numerador en esta expresión, uno suma de corrido 161 00:18:42,759 --> 00:18:50,640 en esta fila. El resultado es 67,5 y eso es el numerador de esta expresión. Para las 162 00:18:50,640 --> 00:18:55,940 varianzas vamos a aplicar la fórmula de la media de los cuadrados menos el cuadrado de 163 00:18:55,940 --> 00:19:01,799 la media. Lo que vamos a hacer es ir sumando los valores al cuadrado entre el tamaño menos 164 00:19:01,799 --> 00:19:07,480 la media al cuadrado para la x y para la y. Aquí tenemos la varianza marginal de x, la 165 00:19:07,480 --> 00:19:12,920 varianza marginal de idea igualmente en lugar de hacer esta operación entera en 166 00:19:12,920 --> 00:19:17,619 la calculadora habitualmente hay personas que van a calcular la suma de 167 00:19:17,619 --> 00:19:21,799 los cuadrados 100 al cuadrado más 80 al cuadrado más 50 al cuadrado etcétera más 168 00:19:21,799 --> 00:19:29,559 220 al cuadrado es este 129 mil 200 lo mismo con la variable y 6,5 al cuadrado 169 00:19:29,559 --> 00:19:34,220 más 6 al cuadrado más 3 al cuadrado etcétera hasta este más 15 al cuadrado 170 00:19:34,220 --> 00:19:41,920 el resultado es este 584,75. En ese caso el encabezado no se pone sigma como suma de los 171 00:19:41,920 --> 00:19:47,200 valores sino sigma al cuadrado pretendiendo indicar la suma de los valores al cuadrado. 172 00:19:48,380 --> 00:19:53,299 Si utilizamos estos valores auxiliares o bien si directamente introducimos estos valores en la 173 00:19:53,299 --> 00:19:58,680 calculadora, suma de cuadrados entre el tamaño de la muestra menos la media al cuadrado y aquí lo 174 00:19:58,680 --> 00:20:04,759 mismo, suma de los cuadrados entre el tamaño de la muestra menos la media al cuadrado, obtenemos 175 00:20:04,759 --> 00:20:12,339 para la varianza marginal de X 2.920 kilómetros al cuadrado, para la varianza marginal de Y 176 00:20:12,339 --> 00:20:19,119 12,91 litros al cuadrado. Las desviaciones típicas marginales son las redes cuadradas positivas de 177 00:20:19,119 --> 00:20:25,799 estas varianzas. Para X tenemos como desviación típica marginal 54 kilómetros, para Y tenemos 178 00:20:25,799 --> 00:20:32,980 como desviación típica marginal 3,6 litros. En este segundo ejemplo vamos a considerar el 179 00:20:32,980 --> 00:20:37,839 estudio conjunto anterior del número de suspensos en una cierta evaluación y el tiempo diario medio 180 00:20:37,839 --> 00:20:46,740 de estudio. Aquí tenemos la tabla bidimensional con las frecuencias absolutas originaria. Vemos 181 00:20:46,740 --> 00:20:53,319 como también tenemos sombreada la fila y la columna adicionales con las que teníamos las 182 00:20:53,319 --> 00:21:00,039 medias marginales, perdón, las frecuencias absolutas marginales. Aquí tenemos n.j, las frecuencias 183 00:21:00,039 --> 00:21:06,539 absolutas de la distribución marginal de x, ni. las frecuencias absolutas de la distribución 184 00:21:06,539 --> 00:21:12,779 marginal de y, y este 30, n.o, la suma de todas las frecuencias, el tamaño de la población. 185 00:21:14,000 --> 00:21:18,839 Vamos a calcular las medias marginales y las varianzas y desviaciones típicas marginales con 186 00:21:18,839 --> 00:21:22,279 las fórmulas que habíamos visto anteriormente. En el caso de las medias 187 00:21:22,279 --> 00:21:27,700 marginales, x barra y barra será 1 entre el tamaño de la población, n punto a 188 00:21:27,700 --> 00:21:33,740 punto, que es este 30, y tenemos la suma de los distintos valores de xj o bien 189 00:21:33,740 --> 00:21:37,900 y sub i multiplicados por sus frecuencias absolutas de la distribución 190 00:21:37,900 --> 00:21:43,019 marginal, xj por n.j y en el caso de y sub i por ni punto. 191 00:21:43,019 --> 00:21:59,980 Lo que hemos hecho ha sido, para ayudarnos con los cálculos, añadir una fila y una columna extra adicionales con el producto de, en el caso de esta columna adicional, i sub i por n.i, 192 00:21:59,980 --> 00:22:17,359 Y así, 0 por 5 es este 0, 1 por 10 es este 10, 2 por 8 es este 16 y así sucesivamente, la suma de todos estos elementos es este 54, que tenemos aquí como el numerador 54 entre 30 para calcular la media marginal de y. 193 00:22:17,359 --> 00:22:37,279 Lo mismo hemos hecho para las filas 0x3 es este 0, 1x5 es este 5, 2x16 es este 32 y así sucesivamente la suma de estos valores xj por n.j es este 57 que es el numerador dividido entre 30 que tenemos aquí para calcular la media marginal de x. 194 00:22:37,980 --> 00:22:46,200 Operando de esta manera tenemos media marginal de x 1,90 horas puesto que x tiene unidades y media marginal de y 1,80. 195 00:22:47,180 --> 00:22:51,980 Fijaos que esto que estamos haciendo es muy similar a lo que hacíamos en su momento, en la unidad anterior, 196 00:22:52,079 --> 00:22:57,220 hablando de estadística univariante, para el cálculo de la media de la varianza de desviación típica. 197 00:22:57,920 --> 00:23:03,079 Utilizábamos en ciertos momentos columnas adicionales, en aquel momento las tablas de frecuencia se iban por columnas, 198 00:23:03,400 --> 00:23:09,420 para ayudarnos en estos cálculos. No son obligatorias, igual que en este caso, pero en un momento dado pueden ser de mucha ayuda. 199 00:23:10,220 --> 00:23:16,019 Para el caso de las varianzas marginales vamos a utilizar la fórmula que conocemos todos. 200 00:23:16,200 --> 00:23:19,039 La media de los cuadrados menos el cuadrado de la media. 201 00:23:19,700 --> 00:23:29,400 En este caso nos hemos ayudado xj cuadrado por n.j o bien y sub i cuadrado por ni punto de una columna y una fila adicionales. 202 00:23:29,400 --> 00:23:37,819 Igual que antes teníamos una con, por ejemplo, y sub i por ni punto o bien xj por n.j, lo mismo pero con los cuadrados. 203 00:23:37,819 --> 00:23:46,920 Una columna adicional auxiliar y sub i al cuadrado por n y punto xj al cuadrado por n punto j. 204 00:23:47,559 --> 00:23:57,579 En el caso de esta última, 0 al cuadrado por 3 es este 0, 1 al cuadrado por 5 es este 5, 2 al cuadrado por 16 es este 64 y así sucesivamente. 205 00:23:58,180 --> 00:24:06,839 La suma de este 137 es la que entra aquí en este numerador, 137 entre 30 menos la medida al cuadrado. 206 00:24:06,839 --> 00:24:12,240 vemos que la varianza marginal de x es 0,957 horas al cuadrado. 207 00:24:13,539 --> 00:24:18,059 Análogamente, en esta columna, 0 al cuadrado por este 5 es este 0, 208 00:24:18,440 --> 00:24:20,680 1 al cuadrado por este 10 es este 10, 209 00:24:21,240 --> 00:24:24,859 2 al cuadrado por este 8 es este 32 y así sucesivamente. 210 00:24:25,480 --> 00:24:29,799 La suma de todos ellos es 158, que es quien viene en este numerador. 211 00:24:30,779 --> 00:24:33,980 158 entre 30 menos la correspondiente media marginal al cuadrado 212 00:24:33,980 --> 00:24:38,119 es este 2,027, que es la varianza marginal de Y. 213 00:24:38,839 --> 00:24:41,000 ¿Cómo calculamos las desviaciones típicas? 214 00:24:41,220 --> 00:24:44,539 Más la raíz cuadrada de las correspondientes varianzas marginales. 215 00:24:45,180 --> 00:24:50,099 Así que desviación típica de marginal para X es 0,98 horas, esta raíz cuadrada. 216 00:24:51,099 --> 00:24:55,640 Desviación típica marginal de Y es 1,42, esta raíz cuadrada. 217 00:24:55,640 --> 00:25:04,190 En el aula virtual de la asignatura tenéis disponibles otros recursos y cuestionarios. 218 00:25:04,190 --> 00:25:09,029 Asimismo, tenéis más información en las fuentes bibliográficas y en la web 219 00:25:09,029 --> 00:25:14,630 No dudéis en traer vuestras dudas e inquietudes a clase o al foro de dudas en el aula virtual 220 00:25:14,630 --> 00:25:16,549 Un saludo y hasta pronto