1 00:00:05,320 --> 00:00:21,079 Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 2 00:00:21,079 --> 00:00:25,579 Arquitecto Pedro Gumiel de Alcalá de Henares, y os doy la bienvenida a esta serie de videoclases 3 00:00:25,579 --> 00:00:28,800 de la unidad ES2 dedicada a la estadística bivariante. 4 00:00:30,000 --> 00:00:39,549 En la videoclase de hoy estudiaremos la distribución conjunta. 5 00:00:40,670 --> 00:00:52,100 En esta videoclase vamos a iniciar el estudio de la distribución conjunta. 6 00:00:52,100 --> 00:00:59,579 Vamos a tratar de determinar si existe o no existe alguna relación de dependencia entre las dos variables y de existir de qué tipo. 7 00:01:00,579 --> 00:01:07,500 Uno de los primeros parámetros para el estudio de la distribución conjunta es la medida de centralización centro de gravedad. 8 00:01:08,200 --> 00:01:13,739 Es el vector de las medias marginales y se denota, como veis, con las medias marginales en forma de vector. 9 00:01:13,739 --> 00:01:17,400 Entre paréntesis, primero la media marginal de x y luego la media marginal de y. 10 00:01:17,400 --> 00:01:22,219 tiene unidades y cada una de las componentes tiene las unidades de la variable correspondiente. 11 00:01:22,739 --> 00:01:28,319 Como ejemplo, si consideramos el estudio anterior del consumo de combustible y la distancia recorrida 12 00:01:28,319 --> 00:01:32,879 por un cierto vehículo y se nos pide que determinemos el centro de gravedad, calcularemos 13 00:01:32,879 --> 00:01:38,400 como hicimos anteriormente las medias marginales y daremos como tal, como centro de gravedad, 14 00:01:38,700 --> 00:01:45,760 el vector de las medias marginales, media de x, media de y, en este caso igual a 100 km.6,8 litros. 15 00:01:45,760 --> 00:01:50,920 os recuerdo que tiene unidades. En el caso del estudio del número de suspensos en una cierta 16 00:01:50,920 --> 00:01:55,959 evaluación y el tiempo diario medio de estudio, hacemos lo propio. Escribimos el vector de las 17 00:01:55,959 --> 00:02:03,140 medias marginales, ese es el centro de gravedad, x media y media igual a 1,90 horas punto coma 1,80, 18 00:02:03,200 --> 00:02:10,830 1,80 suspensos. Una vez determinada la medida de centralización, centro de gravedad, lo que vamos 19 00:02:10,830 --> 00:02:16,509 a hacer es determinar las medidas de codependencia. Comenzamos por la covarianza, que se denota sigma 20 00:02:16,509 --> 00:02:23,490 sub x y. Puede calcularse únicamente en variables cuantitativas y la fórmula concreta va a depender 21 00:02:23,490 --> 00:02:28,370 de la forma en la que tengamos recogido los datos en las tablas de frecuencias, aunque en esencia 22 00:02:28,370 --> 00:02:35,009 se trata del promedio del producto de las desviaciones de ambas variables con respecto 23 00:02:35,009 --> 00:02:40,689 del centro de gravedad. Vamos a verlo en primer lugar en el caso en el que los datos de la 24 00:02:40,689 --> 00:02:46,169 distribución bidimensional se recogen en tablas bidimensionales simples sin frecuencias absolutas. 25 00:02:46,509 --> 00:03:10,669 Y vemos que sigma xy, la covarianza, se calcula como 1 partido de n, puesto que estamos haciendo un promedio, dividimos entre el tamaño de la población en muestra, y aquí tenemos la suma de los productos de xy menos x media, esta es la desviación de x con respecto a su media marginal, por y sub i menos i media, y aquí tenemos la desviación de y sub i con respecto de su media marginal. 26 00:03:10,669 --> 00:03:17,689 podemos hacer esto de esta manera utilizando esta fórmula o bien aplicando ciertas propiedades 27 00:03:17,689 --> 00:03:23,509 podemos utilizar esta otra expresión equivalente que es mucho más sencilla es la media de los 28 00:03:23,509 --> 00:03:29,870 productos de x y por y sub y menos el producto de las medias en el caso en el que los datos se 29 00:03:29,870 --> 00:03:35,250 recogen en tablas bidimensionales con frecuencias absolutas el cálculo es análogo a este lo único 30 00:03:35,250 --> 00:03:39,430 que tendremos que ir multiplicando todos los datos por las correspondientes frecuencias absolutas 31 00:03:39,430 --> 00:04:02,050 Aquí aparece en el caso en el que utilicemos la definición es el promedio de los productos de las desviaciones con respecto de las medias marginales y tenemos que multiplicar por la frecuencia absoluta o bien como vemos aquí el promedio de los productos y aquí tenemos las frecuencias absolutas menos el producto de los promedios de las medias marginales. 32 00:04:02,990 --> 00:04:09,849 En el caso en el que los datos bidimensionales están recogidos en tablas de doble entrada, operamos de forma análoga. 33 00:04:10,069 --> 00:04:14,490 Y aquí vemos que aparecen las frecuencias absolutas, n sub ij, y aquí también. 34 00:04:14,629 --> 00:04:22,230 Y en este caso estamos dividiendo también por el tamaño de la población o muestra, ya no dividimos entre n, sino que estamos dividiendo entre n punto a punto. 35 00:04:23,149 --> 00:04:28,509 La covarianza tiene unidades y van a ser el producto de las unidades de las variables. 36 00:04:28,509 --> 00:04:39,310 Y dado que la covarianza tiene unidades, no nos va a ser posible comparar las covarianzas en el caso en el que las variables tengan unidades distintas, 37 00:04:39,389 --> 00:04:42,110 puesto que no podemos comparar cosas con unidades diferentes. 38 00:04:43,050 --> 00:04:48,629 La covarianza permite caracterizar el tipo de dependencia y, llegado al caso, el tipo de correlación. 39 00:04:49,730 --> 00:04:55,910 Si la covarianza es nula o aproximadamente nula, las variables son independientes. 40 00:04:55,910 --> 00:05:12,870 Si la covarianza es distinta de cero, entonces nos encontramos con variables que son dependientes. Si la covarianza es negativa, la relación de correlación entre ambas es negativa. Si la covarianza es positiva, la correlación entre ambas va a ser positiva. 41 00:05:13,629 --> 00:05:24,089 Y fijaos que podemos caracterizar el tipo de dependencia, llegado al caso el tipo de correlación, pero como digo aquí, no es posible caracterizar el grado de correlación. 42 00:05:24,709 --> 00:05:28,829 No podemos decidir si la correlación positiva o negativa es fuerte o débil. 43 00:05:29,329 --> 00:05:33,370 Lo primero, aquí no ha aparecido en ningún momento ningún modelo lineal u otro. 44 00:05:33,370 --> 00:05:38,709 Y en segundo lugar, el problema está en que la covarianza no está acotada. 45 00:05:38,709 --> 00:05:51,629 No hay un valor máximo ni mínimo que nos sirva como referencia para decidir si nos aproximamos al valor límite la relación es fuerte mientras que si no la relación es débil. 46 00:05:52,310 --> 00:05:56,310 Únicamente tenemos que si la covarianza es cero, hay independencia. 47 00:05:57,350 --> 00:06:03,350 Podemos pensar que cuanto menor sea la covarianza, más próximos estamos a la relación de independencia, 48 00:06:03,350 --> 00:06:09,949 en principio la correlación sería más débil, que si la covarianza se aleja del valor cero, 49 00:06:10,110 --> 00:06:15,350 tanto en valores negativos como valores positivos, pero realmente no podemos hacer una comparación en términos absolutos. 50 00:06:15,350 --> 00:06:20,670 absolutos. Podemos únicamente comparar covarianzas y únicamente en el caso en el que las variables 51 00:06:20,670 --> 00:06:26,750 tengan las mismas unidades. Para evitar este problema, además de la covarianza y a partir 52 00:06:26,750 --> 00:06:32,129 de ella, se define una nueva medida de codependencia que es el coeficiente de correlación lineal de 53 00:06:32,129 --> 00:06:38,230 Pearson, que se denota por la r minúscula. Se calcula sólo en variables cuantitativas como 54 00:06:38,230 --> 00:06:44,689 el cociente de la covarianza y el producto de las desviaciones típicas marginales. Este es 55 00:06:44,689 --> 00:06:50,449 adimensional, ya no tiene unidades, de tal forma que podemos comparar el coeficiente de correlación 56 00:06:50,449 --> 00:06:57,910 lineal de Pearson en conjuntos de variables diversos y además está acotado por el valor 57 00:06:57,910 --> 00:07:04,029 máximo más 1 y el valor mínimo menos 1. El problema que tiene es que, como su propio nombre indica, 58 00:07:04,389 --> 00:07:10,790 sirve únicamente en el caso en el que la relación de correlación sea lineal, únicamente en el caso 59 00:07:10,790 --> 00:07:17,050 en el que al representar la nube de dispersión o el diagrama de burbujas veamos que efectivamente 60 00:07:17,050 --> 00:07:21,410 los datos se distribuyen conforme a una línea recta. En otro caso tendremos que hacer cosas 61 00:07:21,410 --> 00:07:26,910 distintas pero en el caso más habitual para nosotros en el que los datos se distribuyan 62 00:07:26,910 --> 00:07:32,149 a grosso modo a lo largo de una línea recta podemos utilizar el coeficiente de correlación 63 00:07:32,149 --> 00:07:37,170 lineal de Pearson para caracterizar el tipo de dependencia y en su caso el tipo y el grado 64 00:07:37,170 --> 00:07:44,370 de correlación. En el caso en el que el coeficiente de correlación lineal de Pearson es 0 o próximo 65 00:07:44,370 --> 00:07:50,689 a 0, las variables son independientes. En el caso en el que el coeficiente de correlación 66 00:07:50,689 --> 00:07:58,250 de Pearson es distinto de 0 y positivo, tendremos una correlación positiva. En el caso en el 67 00:07:58,250 --> 00:08:04,290 que el coeficiente de correlación lineal es negativo y distinto de 0, tendremos una 68 00:08:04,290 --> 00:08:10,769 correlación negativa. Y puesto que el coeficiente de correlación está acotado, está comprendido 69 00:08:10,769 --> 00:08:17,529 entre menos 1 y 1, ahora sí tenemos un límite superior con el cual poder decidir si tenemos 70 00:08:17,529 --> 00:08:24,350 una correlación fuerte o débil. En el caso en el que r se aproxime mucho a los valores extremos 71 00:08:24,350 --> 00:08:32,330 más 1 o menos 1, tendremos correlación positiva o negativa fuerte. En el caso en el que el 72 00:08:32,330 --> 00:08:37,570 coeficiente de correlación se aproxime a cero, con valor positivo o negativo, tendremos correlación 73 00:08:37,570 --> 00:08:44,350 positiva o negativa débil. Cuanto más próximo sea a más uno o a menos uno, más fuerte será la 74 00:08:44,350 --> 00:08:49,950 relación de correlación y en el caso extremo, en el que r sea idénticamente igual a uno o bien r 75 00:08:49,950 --> 00:08:58,399 sea idénticamente igual a menos uno, tendremos dependencia funcional. No será habitual. Como 76 00:08:58,399 --> 00:09:03,340 primer ejemplo vamos a considerar el estudio anterior conjunto del consumo de combustible 77 00:09:03,340 --> 00:09:09,559 la distancia recorrida por un cierto vehículo. Aquí tenemos la tabla de frecuencias junto con 78 00:09:09,559 --> 00:09:14,299 esas dos columnas auxiliares que habíamos utilizado en su momento para calcular las 79 00:09:14,299 --> 00:09:20,460 medias marginales, las varianzas y las desviaciones típicas marginales. Puesto que se nos pide que 80 00:09:20,460 --> 00:09:24,679 estudiemos las medidas de codependencia, la covarianza y el coeficiente de correlación 81 00:09:24,679 --> 00:09:29,460 lineal de Pearson, vamos a comenzar calculando la covarianza. En este caso, dado que tenemos 82 00:09:29,460 --> 00:09:33,860 una tabla bidimensional simple sin frecuencias absolutas vamos a utilizar la primera de las 83 00:09:33,860 --> 00:09:39,279 fórmulas que hemos visto anteriormente o varianza igual a 1 partido por n es igual a 10 el número 84 00:09:39,279 --> 00:09:46,220 de elementos en esta muestra y lo que tenemos es la suma de los productos x y por y sub y menos 85 00:09:46,220 --> 00:09:53,100 las medias aritméticas así que calcularemos 100 por 6,5 más 80 por 6 más 50 por 3 etcétera hasta 86 00:09:53,100 --> 00:09:59,320 220 por 15, dividiremos entre 10, que es el tamaño de la muestra, y a esto le restaremos el producto 87 00:09:59,320 --> 00:10:06,120 de las medias que habíamos calculado en su momento, 100 por 6,8. El resultado resulta ser 2.920, 88 00:10:06,419 --> 00:10:13,480 tiene unidades, puesto que x se mide en kilómetros y en litros, pues kilómetro por litro. Vemos que 89 00:10:13,480 --> 00:10:19,200 es distinta de cero, luego existe una relación de dependencia, vemos que la covarianza toma un 90 00:10:19,200 --> 00:10:24,960 valor positivo, así pues existe una relación de correlación positiva entre ambas. Al aumentar la 91 00:10:24,960 --> 00:10:29,200 distancia recorrida vemos que aumenta el volumen de combustible, al aumentar el volumen de combustible 92 00:10:29,200 --> 00:10:36,159 vemos que aumenta la distancia recorrida. Recordemos, aquí tenemos al lado para recordar cómo era la 93 00:10:36,159 --> 00:10:42,720 dispersión, la nube de puntos de estos datos y efectivamente en su momento comentamos que parecía 94 00:10:42,720 --> 00:10:48,460 así, teníamos la sensación de que los datos se distribuían a lo largo de una línea recta y de 95 00:10:48,460 --> 00:10:53,659 que esa línea recta tenía pendiente positiva y veíamos una relación de dependencia positiva, 96 00:10:53,940 --> 00:10:58,080 parecía. Bien, pues ahora no solamente nos lo parece, sino que lo hemos podido determinar 97 00:10:58,080 --> 00:11:03,179 matemáticamente utilizando la covarianza. Puesto que a la vista de estos resultados, 98 00:11:03,379 --> 00:11:08,220 efectivamente, los datos parecen distribuirse a lo largo de una línea recta, tal vez no de 99 00:11:08,220 --> 00:11:12,600 una forma exacta, pero sí de una forma aproximada, no hay una relación de dependencia funcional, 100 00:11:12,960 --> 00:11:17,120 pero sí estocástica, lo que vamos a hacer es determinar el coeficiente de correlación lineal 101 00:11:17,120 --> 00:11:22,279 de Pearson que se calcula dividiendo la covarianza que acabamos de calcular entre el producto de las 102 00:11:22,279 --> 00:11:28,980 desviaciones típicas marginales. En su momento vimos que eran 54 kilómetros y 3,6 horas. Al 103 00:11:28,980 --> 00:11:36,220 hacer esta operación vemos que el coeficiente de correlación lineal toma valor 0,991. Este 104 00:11:36,220 --> 00:11:41,700 coeficiente de correlación lineal nos da un poco más de información que la covarianza, en parte la 105 00:11:41,700 --> 00:11:46,379 misma y un poquito más. Vemos que el coeficiente de correlación lineal es distinto de cero, luego 106 00:11:46,379 --> 00:11:52,019 existe una relación de dependencia, vemos que tomó un valor positivo, luego vemos una relación de 107 00:11:52,019 --> 00:11:57,320 correlación positiva, pero además en este caso vemos que r tomó un valor realmente próximo a la 108 00:11:57,320 --> 00:12:02,019 unidad, más próximo desde luego a la unidad que a cero. Así pues deducimos que la relación de 109 00:12:02,019 --> 00:12:08,299 correlación entre ambas variables no sólo es positiva sino que además es fuerte. En este 110 00:12:08,299 --> 00:12:12,840 siguiente ejemplo se nos pide que consideremos el estudio anterior conjunto del número de 111 00:12:12,840 --> 00:12:17,799 suspensos en una cierta evaluación y el tiempo diario medio de estudio. Aquí tenemos la tabla 112 00:12:17,799 --> 00:12:23,600 de frecuencias, que era una tabla de doble entrada, en la que también vemos esta columna y fila extras 113 00:12:23,600 --> 00:12:29,059 donde tenemos los datos correspondientes a las distribuciones marginales. Vamos a comenzar 114 00:12:29,059 --> 00:12:36,740 calculando la covarianza como la media del producto de los valores de las variables. Aquí vemos xj 115 00:12:36,740 --> 00:12:42,440 que multiplica a y sub i y por las correspondientes frecuencias absolutas n sub ij, dividiendo entre 116 00:12:42,440 --> 00:12:47,360 el tamaño de la población, en este caso n punto punto, menos el producto de las medias 117 00:12:47,360 --> 00:12:52,460 marginales. Para determinar la suma de estos productos lo que vamos a hacer es ir bien 118 00:12:52,460 --> 00:12:58,600 por filas o bien por columnas e ir multiplicando. Deberíamos multiplicar 0 por 0 por la frecuencia 119 00:12:58,600 --> 00:13:04,059 absoluta que es 0, más 0 por 1 por la frecuencia absoluta que es 0, más 0 por 2 por 0, más 120 00:13:04,059 --> 00:13:09,399 0 por 3 por 0, más 0 por 4 por 1, más 0 por 5 por 2, pasamos a la siguiente columna, 121 00:13:09,399 --> 00:13:15,200 más 1 por 0 por 0, más 1 por 1 por 0, más 1 por 2 por 2 y así hasta llegar al final. 122 00:13:16,299 --> 00:13:21,279 Vemos que esto es muy largo y es muy pesado y que hay muchos sumandos de los que acabamos de poner 123 00:13:21,279 --> 00:13:27,659 que son innecesarios, puesto que si la frecuencia absoluta es 0 y son todos aquellos valores que no hemos escrito por convenio, 124 00:13:28,299 --> 00:13:33,019 al multiplicar por 0 el sumando desaparece, no contribuye a la suma puesto que valdría 0. 125 00:13:33,600 --> 00:13:37,480 Así que lo más habitual es escribir la fórmula correcta que es esta con todos los términos, 126 00:13:37,480 --> 00:13:43,120 Pero aquí, al hacer el cálculo, introducir únicamente aquellos con frecuencias absolutas distintas de 0. 127 00:13:43,440 --> 00:13:48,740 Y por eso vemos que el primero es 0 por 4 por 1, a continuación más 0 por 5 por 2, 128 00:13:49,139 --> 00:13:54,360 el siguiente sería más 1 por 2 por 2 y el último sería más 4 por 0 por 2. 129 00:13:55,200 --> 00:13:58,700 Si hacemos todos estos productos, dividimos entre n punto a punto, que es 30, 130 00:13:59,259 --> 00:14:03,019 y restamos el producto de las medias marginales, que eran 1,90 y 1,80, 131 00:14:03,019 --> 00:14:07,919 vemos que calculamos como covarianza el valor menos 1,087 horas. 132 00:14:08,919 --> 00:14:13,440 Puesto que este valor existente de 0 existe una cierta relación de dependencia entre ambas variables 133 00:14:13,440 --> 00:14:18,059 y por tomar un valor negativo deducimos que la correlación entre ambas va a ser negativa. 134 00:14:18,899 --> 00:14:22,840 Aquí tenemos la representación del diagrama de burbujas que habíamos hecho anteriormente 135 00:14:22,840 --> 00:14:31,039 donde en su momento ya pretendimos deducir visualmente que debía existir esta relación de dependencia negativa 136 00:14:31,039 --> 00:14:36,840 puesto que hay burbujas para valores grandes de una variable y pequeñas de la otra, 137 00:14:37,279 --> 00:14:38,519 independientemente de cuál sea, 138 00:14:38,980 --> 00:14:42,779 y no vemos ninguna burbuja para valores pequeños de ambas variables simultáneamente 139 00:14:42,779 --> 00:14:46,539 y valores grandes de ambas variables simultáneamente. 140 00:14:47,840 --> 00:14:51,340 Así que ahora no solamente lo hemos visto o lo hemos querido ver, 141 00:14:51,340 --> 00:14:55,860 sino que además lo hemos determinado cuantitativamente desde el punto de vista matemático. 142 00:14:56,580 --> 00:15:10,200 Si además pensamos en que estas burbujas están organizadas siguiendo una línea recta, más o menos, con una dispersión, con una cierta amplitud, pero aproximadamente siguiendo una línea recta, 143 00:15:10,740 --> 00:15:18,259 tendría sentido que determináramos el coeficiente de correlación lineal de Pearson para añadir algo más de información a la que nos permite dar la covarianza. 144 00:15:18,899 --> 00:15:25,539 Lo vamos a calcular como el cociente de la covarianza que acabamos de calcular entre el producto de las desviaciones típicas marginales. 145 00:15:25,860 --> 00:15:33,340 Si dividimos menos 1,087 entre 0,98 y 1,42 obtenemos el valor menos 0,780. 146 00:15:34,659 --> 00:15:40,000 Coincide con la covarianza en que, puesto que es distinto de cero, existe una relación de dependencia entre las variables, 147 00:15:40,539 --> 00:15:43,860 puesto que es negativo, la relación de correlación entre ambas va a ser negativa. 148 00:15:44,580 --> 00:15:51,200 Pero además vemos que menos 0,78 es relativamente próximo a menos 1, desde luego más próximo a menos 1 que a cero. 149 00:15:52,000 --> 00:16:01,059 Consecuentemente, podemos además decir que la relación de dependencia, esta covarianza negativa entre ambas variables, es relativamente fuerte. 150 00:16:01,500 --> 00:16:04,639 No tan fuerte como en el caso anterior, pero relativamente fuerte. 151 00:16:05,519 --> 00:16:16,519 Fijaos que acabo de comparar el coeficiente de correlación de Pearson de esta distribución y la anterior, y puede hacerse, puesto que es adimensional y tiene la misma escala, está acotado por 1 y menos 1. 152 00:16:16,519 --> 00:16:31,620 No podría comparar las covarianzas. Esta covarianza es menos 1,087 horas y en el caso anterior la covarianza era 2.920 km por litro. Ambos valores de covarianza no son en absoluto comparables, puesto que están en sistemas de unidades diferentes. 153 00:16:32,179 --> 00:16:36,639 Pero en el caso del coeficiente de correlación lineal sí puedo hacer una comparación. 154 00:16:36,679 --> 00:16:41,340 En este caso r es muy próximo a la unidad 0,991. 155 00:16:41,679 --> 00:16:46,740 En este caso r también es muy próximo a la unidad negativa, pero no tanto, menos 0,78. 156 00:16:47,179 --> 00:16:55,820 Y sí puedo decir que la relación de correlación de esta distribución es menos fuerte que en el caso anterior. 157 00:16:55,820 --> 00:17:05,880 De hecho, podíamos ver, podíamos decidir que esta relación es claramente lineal, mientras que en este caso decíamos que era aproximadamente lineal. 158 00:17:25,819 --> 00:17:27,380 Un saludo y hasta pronto.