Saltar navegación

Activa JavaScript para disfrutar de los vídeos de la Mediateca.

ES2. 7 Distribución conjunta. Ejercicios 9-12 resueltos - Contenido educativo

Ajuste de pantalla

El ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:

Subido el 17 de noviembre de 2025 por Raúl C.

2 visualizaciones

Descargar la transcripción

Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 00:00:05
Arquitecto Pedro Gumiel de Alcalá de Henares, y os doy la bienvenida a esta serie de videoclases 00:00:21
de la unidad ES2 dedicada a la estadística bivariante. 00:00:25
En la videoclase de hoy estudiaremos la distribución conjunta. 00:00:30
En esta videoclase vamos a iniciar el estudio de la distribución conjunta. 00:00:40
Vamos a tratar de determinar si existe o no existe alguna relación de dependencia entre las dos variables y de existir de qué tipo. 00:00:52
Uno de los primeros parámetros para el estudio de la distribución conjunta es la medida de centralización centro de gravedad. 00:01:00
Es el vector de las medias marginales y se denota, como veis, con las medias marginales en forma de vector. 00:01:08
Entre paréntesis, primero la media marginal de x y luego la media marginal de y. 00:01:13
tiene unidades y cada una de las componentes tiene las unidades de la variable correspondiente. 00:01:17
Como ejemplo, si consideramos el estudio anterior del consumo de combustible y la distancia recorrida 00:01:22
por un cierto vehículo y se nos pide que determinemos el centro de gravedad, calcularemos 00:01:28
como hicimos anteriormente las medias marginales y daremos como tal, como centro de gravedad, 00:01:32
el vector de las medias marginales, media de x, media de y, en este caso igual a 100 km.6,8 litros. 00:01:38
os recuerdo que tiene unidades. En el caso del estudio del número de suspensos en una cierta 00:01:45
evaluación y el tiempo diario medio de estudio, hacemos lo propio. Escribimos el vector de las 00:01:50
medias marginales, ese es el centro de gravedad, x media y media igual a 1,90 horas punto coma 1,80, 00:01:55
1,80 suspensos. Una vez determinada la medida de centralización, centro de gravedad, lo que vamos 00:02:03
a hacer es determinar las medidas de codependencia. Comenzamos por la covarianza, que se denota sigma 00:02:10
sub x y. Puede calcularse únicamente en variables cuantitativas y la fórmula concreta va a depender 00:02:16
de la forma en la que tengamos recogido los datos en las tablas de frecuencias, aunque en esencia 00:02:23
se trata del promedio del producto de las desviaciones de ambas variables con respecto 00:02:28
del centro de gravedad. Vamos a verlo en primer lugar en el caso en el que los datos de la 00:02:35
distribución bidimensional se recogen en tablas bidimensionales simples sin frecuencias absolutas. 00:02:40
Y vemos que sigma xy, la covarianza, se calcula como 1 partido de n, puesto que estamos haciendo un promedio, dividimos entre el tamaño de la población en muestra, y aquí tenemos la suma de los productos de xy menos x media, esta es la desviación de x con respecto a su media marginal, por y sub i menos i media, y aquí tenemos la desviación de y sub i con respecto de su media marginal. 00:02:46
podemos hacer esto de esta manera utilizando esta fórmula o bien aplicando ciertas propiedades 00:03:10
podemos utilizar esta otra expresión equivalente que es mucho más sencilla es la media de los 00:03:17
productos de x y por y sub y menos el producto de las medias en el caso en el que los datos se 00:03:23
recogen en tablas bidimensionales con frecuencias absolutas el cálculo es análogo a este lo único 00:03:29
que tendremos que ir multiplicando todos los datos por las correspondientes frecuencias absolutas 00:03:35
Aquí aparece en el caso en el que utilicemos la definición es el promedio de los productos de las desviaciones con respecto de las medias marginales y tenemos que multiplicar por la frecuencia absoluta o bien como vemos aquí el promedio de los productos y aquí tenemos las frecuencias absolutas menos el producto de los promedios de las medias marginales. 00:03:39
En el caso en el que los datos bidimensionales están recogidos en tablas de doble entrada, operamos de forma análoga. 00:04:02
Y aquí vemos que aparecen las frecuencias absolutas, n sub ij, y aquí también. 00:04:10
Y en este caso estamos dividiendo también por el tamaño de la población o muestra, ya no dividimos entre n, sino que estamos dividiendo entre n punto a punto. 00:04:14
La covarianza tiene unidades y van a ser el producto de las unidades de las variables. 00:04:23
Y dado que la covarianza tiene unidades, no nos va a ser posible comparar las covarianzas en el caso en el que las variables tengan unidades distintas, 00:04:28
puesto que no podemos comparar cosas con unidades diferentes. 00:04:39
La covarianza permite caracterizar el tipo de dependencia y, llegado al caso, el tipo de correlación. 00:04:43
Si la covarianza es nula o aproximadamente nula, las variables son independientes. 00:04:49
Si la covarianza es distinta de cero, entonces nos encontramos con variables que son dependientes. Si la covarianza es negativa, la relación de correlación entre ambas es negativa. Si la covarianza es positiva, la correlación entre ambas va a ser positiva. 00:04:55
Y fijaos que podemos caracterizar el tipo de dependencia, llegado al caso el tipo de correlación, pero como digo aquí, no es posible caracterizar el grado de correlación. 00:05:13
No podemos decidir si la correlación positiva o negativa es fuerte o débil. 00:05:24
Lo primero, aquí no ha aparecido en ningún momento ningún modelo lineal u otro. 00:05:29
Y en segundo lugar, el problema está en que la covarianza no está acotada. 00:05:33
No hay un valor máximo ni mínimo que nos sirva como referencia para decidir si nos aproximamos al valor límite la relación es fuerte mientras que si no la relación es débil. 00:05:38
Únicamente tenemos que si la covarianza es cero, hay independencia. 00:05:52
Podemos pensar que cuanto menor sea la covarianza, más próximos estamos a la relación de independencia, 00:05:57
en principio la correlación sería más débil, que si la covarianza se aleja del valor cero, 00:06:03
tanto en valores negativos como valores positivos, pero realmente no podemos hacer una comparación en términos absolutos. 00:06:10
absolutos. Podemos únicamente comparar covarianzas y únicamente en el caso en el que las variables 00:06:15
tengan las mismas unidades. Para evitar este problema, además de la covarianza y a partir 00:06:20
de ella, se define una nueva medida de codependencia que es el coeficiente de correlación lineal de 00:06:26
Pearson, que se denota por la r minúscula. Se calcula sólo en variables cuantitativas como 00:06:32
el cociente de la covarianza y el producto de las desviaciones típicas marginales. Este es 00:06:38
adimensional, ya no tiene unidades, de tal forma que podemos comparar el coeficiente de correlación 00:06:44
lineal de Pearson en conjuntos de variables diversos y además está acotado por el valor 00:06:50
máximo más 1 y el valor mínimo menos 1. El problema que tiene es que, como su propio nombre indica, 00:06:57
sirve únicamente en el caso en el que la relación de correlación sea lineal, únicamente en el caso 00:07:04
en el que al representar la nube de dispersión o el diagrama de burbujas veamos que efectivamente 00:07:10
los datos se distribuyen conforme a una línea recta. En otro caso tendremos que hacer cosas 00:07:17
distintas pero en el caso más habitual para nosotros en el que los datos se distribuyan 00:07:21
a grosso modo a lo largo de una línea recta podemos utilizar el coeficiente de correlación 00:07:26
lineal de Pearson para caracterizar el tipo de dependencia y en su caso el tipo y el grado 00:07:32
de correlación. En el caso en el que el coeficiente de correlación lineal de Pearson es 0 o próximo 00:07:37
a 0, las variables son independientes. En el caso en el que el coeficiente de correlación 00:07:44
de Pearson es distinto de 0 y positivo, tendremos una correlación positiva. En el caso en el 00:07:50
que el coeficiente de correlación lineal es negativo y distinto de 0, tendremos una 00:07:58
correlación negativa. Y puesto que el coeficiente de correlación está acotado, está comprendido 00:08:04
entre menos 1 y 1, ahora sí tenemos un límite superior con el cual poder decidir si tenemos 00:08:10
una correlación fuerte o débil. En el caso en el que r se aproxime mucho a los valores extremos 00:08:17
más 1 o menos 1, tendremos correlación positiva o negativa fuerte. En el caso en el que el 00:08:24
coeficiente de correlación se aproxime a cero, con valor positivo o negativo, tendremos correlación 00:08:32
positiva o negativa débil. Cuanto más próximo sea a más uno o a menos uno, más fuerte será la 00:08:37
relación de correlación y en el caso extremo, en el que r sea idénticamente igual a uno o bien r 00:08:44
sea idénticamente igual a menos uno, tendremos dependencia funcional. No será habitual. Como 00:08:49
primer ejemplo vamos a considerar el estudio anterior conjunto del consumo de combustible 00:08:58
la distancia recorrida por un cierto vehículo. Aquí tenemos la tabla de frecuencias junto con 00:09:03
esas dos columnas auxiliares que habíamos utilizado en su momento para calcular las 00:09:09
medias marginales, las varianzas y las desviaciones típicas marginales. Puesto que se nos pide que 00:09:14
estudiemos las medidas de codependencia, la covarianza y el coeficiente de correlación 00:09:20
lineal de Pearson, vamos a comenzar calculando la covarianza. En este caso, dado que tenemos 00:09:24
una tabla bidimensional simple sin frecuencias absolutas vamos a utilizar la primera de las 00:09:29
fórmulas que hemos visto anteriormente o varianza igual a 1 partido por n es igual a 10 el número 00:09:33
de elementos en esta muestra y lo que tenemos es la suma de los productos x y por y sub y menos 00:09:39
las medias aritméticas así que calcularemos 100 por 6,5 más 80 por 6 más 50 por 3 etcétera hasta 00:09:46
220 por 15, dividiremos entre 10, que es el tamaño de la muestra, y a esto le restaremos el producto 00:09:53
de las medias que habíamos calculado en su momento, 100 por 6,8. El resultado resulta ser 2.920, 00:09:59
tiene unidades, puesto que x se mide en kilómetros y en litros, pues kilómetro por litro. Vemos que 00:10:06
es distinta de cero, luego existe una relación de dependencia, vemos que la covarianza toma un 00:10:13
valor positivo, así pues existe una relación de correlación positiva entre ambas. Al aumentar la 00:10:19
distancia recorrida vemos que aumenta el volumen de combustible, al aumentar el volumen de combustible 00:10:24
vemos que aumenta la distancia recorrida. Recordemos, aquí tenemos al lado para recordar cómo era la 00:10:29
dispersión, la nube de puntos de estos datos y efectivamente en su momento comentamos que parecía 00:10:36
así, teníamos la sensación de que los datos se distribuían a lo largo de una línea recta y de 00:10:42
que esa línea recta tenía pendiente positiva y veíamos una relación de dependencia positiva, 00:10:48
parecía. Bien, pues ahora no solamente nos lo parece, sino que lo hemos podido determinar 00:10:53
matemáticamente utilizando la covarianza. Puesto que a la vista de estos resultados, 00:10:58
efectivamente, los datos parecen distribuirse a lo largo de una línea recta, tal vez no de 00:11:03
una forma exacta, pero sí de una forma aproximada, no hay una relación de dependencia funcional, 00:11:08
pero sí estocástica, lo que vamos a hacer es determinar el coeficiente de correlación lineal 00:11:12
de Pearson que se calcula dividiendo la covarianza que acabamos de calcular entre el producto de las 00:11:17
desviaciones típicas marginales. En su momento vimos que eran 54 kilómetros y 3,6 horas. Al 00:11:22
hacer esta operación vemos que el coeficiente de correlación lineal toma valor 0,991. Este 00:11:28
coeficiente de correlación lineal nos da un poco más de información que la covarianza, en parte la 00:11:36
misma y un poquito más. Vemos que el coeficiente de correlación lineal es distinto de cero, luego 00:11:41
existe una relación de dependencia, vemos que tomó un valor positivo, luego vemos una relación de 00:11:46
correlación positiva, pero además en este caso vemos que r tomó un valor realmente próximo a la 00:11:52
unidad, más próximo desde luego a la unidad que a cero. Así pues deducimos que la relación de 00:11:57
correlación entre ambas variables no sólo es positiva sino que además es fuerte. En este 00:12:02
siguiente ejemplo se nos pide que consideremos el estudio anterior conjunto del número de 00:12:08
suspensos en una cierta evaluación y el tiempo diario medio de estudio. Aquí tenemos la tabla 00:12:12
de frecuencias, que era una tabla de doble entrada, en la que también vemos esta columna y fila extras 00:12:17
donde tenemos los datos correspondientes a las distribuciones marginales. Vamos a comenzar 00:12:23
calculando la covarianza como la media del producto de los valores de las variables. Aquí vemos xj 00:12:29
que multiplica a y sub i y por las correspondientes frecuencias absolutas n sub ij, dividiendo entre 00:12:36
el tamaño de la población, en este caso n punto punto, menos el producto de las medias 00:12:42
marginales. Para determinar la suma de estos productos lo que vamos a hacer es ir bien 00:12:47
por filas o bien por columnas e ir multiplicando. Deberíamos multiplicar 0 por 0 por la frecuencia 00:12:52
absoluta que es 0, más 0 por 1 por la frecuencia absoluta que es 0, más 0 por 2 por 0, más 00:12:58
0 por 3 por 0, más 0 por 4 por 1, más 0 por 5 por 2, pasamos a la siguiente columna, 00:13:04
más 1 por 0 por 0, más 1 por 1 por 0, más 1 por 2 por 2 y así hasta llegar al final. 00:13:09
Vemos que esto es muy largo y es muy pesado y que hay muchos sumandos de los que acabamos de poner 00:13:16
que son innecesarios, puesto que si la frecuencia absoluta es 0 y son todos aquellos valores que no hemos escrito por convenio, 00:13:21
al multiplicar por 0 el sumando desaparece, no contribuye a la suma puesto que valdría 0. 00:13:28
Así que lo más habitual es escribir la fórmula correcta que es esta con todos los términos, 00:13:33
Pero aquí, al hacer el cálculo, introducir únicamente aquellos con frecuencias absolutas distintas de 0. 00:13:37
Y por eso vemos que el primero es 0 por 4 por 1, a continuación más 0 por 5 por 2, 00:13:43
el siguiente sería más 1 por 2 por 2 y el último sería más 4 por 0 por 2. 00:13:49
Si hacemos todos estos productos, dividimos entre n punto a punto, que es 30, 00:13:55
y restamos el producto de las medias marginales, que eran 1,90 y 1,80, 00:13:59
vemos que calculamos como covarianza el valor menos 1,087 horas. 00:14:03
Puesto que este valor existente de 0 existe una cierta relación de dependencia entre ambas variables 00:14:08
y por tomar un valor negativo deducimos que la correlación entre ambas va a ser negativa. 00:14:13
Aquí tenemos la representación del diagrama de burbujas que habíamos hecho anteriormente 00:14:18
donde en su momento ya pretendimos deducir visualmente que debía existir esta relación de dependencia negativa 00:14:22
puesto que hay burbujas para valores grandes de una variable y pequeñas de la otra, 00:14:31
independientemente de cuál sea, 00:14:37
y no vemos ninguna burbuja para valores pequeños de ambas variables simultáneamente 00:14:38
y valores grandes de ambas variables simultáneamente. 00:14:42
Así que ahora no solamente lo hemos visto o lo hemos querido ver, 00:14:47
sino que además lo hemos determinado cuantitativamente desde el punto de vista matemático. 00:14:51
Si además pensamos en que estas burbujas están organizadas siguiendo una línea recta, más o menos, con una dispersión, con una cierta amplitud, pero aproximadamente siguiendo una línea recta, 00:14:56
tendría sentido que determináramos el coeficiente de correlación lineal de Pearson para añadir algo más de información a la que nos permite dar la covarianza. 00:15:10
Lo vamos a calcular como el cociente de la covarianza que acabamos de calcular entre el producto de las desviaciones típicas marginales. 00:15:18
Si dividimos menos 1,087 entre 0,98 y 1,42 obtenemos el valor menos 0,780. 00:15:25
Coincide con la covarianza en que, puesto que es distinto de cero, existe una relación de dependencia entre las variables, 00:15:34
puesto que es negativo, la relación de correlación entre ambas va a ser negativa. 00:15:40
Pero además vemos que menos 0,78 es relativamente próximo a menos 1, desde luego más próximo a menos 1 que a cero. 00:15:44
Consecuentemente, podemos además decir que la relación de dependencia, esta covarianza negativa entre ambas variables, es relativamente fuerte. 00:15:52
No tan fuerte como en el caso anterior, pero relativamente fuerte. 00:16:01
Fijaos que acabo de comparar el coeficiente de correlación de Pearson de esta distribución y la anterior, y puede hacerse, puesto que es adimensional y tiene la misma escala, está acotado por 1 y menos 1. 00:16:05
No podría comparar las covarianzas. Esta covarianza es menos 1,087 horas y en el caso anterior la covarianza era 2.920 km por litro. Ambos valores de covarianza no son en absoluto comparables, puesto que están en sistemas de unidades diferentes. 00:16:16
Pero en el caso del coeficiente de correlación lineal sí puedo hacer una comparación. 00:16:32
En este caso r es muy próximo a la unidad 0,991. 00:16:36
En este caso r también es muy próximo a la unidad negativa, pero no tanto, menos 0,78. 00:16:41
Y sí puedo decir que la relación de correlación de esta distribución es menos fuerte que en el caso anterior. 00:16:47
De hecho, podíamos ver, podíamos decidir que esta relación es claramente lineal, mientras que en este caso decíamos que era aproximadamente lineal. 00:16:55
Un saludo y hasta pronto. 00:17:25
Idioma/s:
es
Materias:
Matemáticas
Etiquetas:
Flipped Classroom
Niveles educativos:
▼ Mostrar / ocultar niveles
  • Bachillerato
    • Primer Curso
Autor/es:
Raúl Corraliza Nieto
Subido por:
Raúl C.
Licencia:
Reconocimiento - No comercial - Sin obra derivada
Visualizaciones:
2
Fecha:
17 de noviembre de 2025 - 11:43
Visibilidad:
Público
Centro:
IES ARQUITECTO PEDRO GUMIEL
Duración:
17′ 53″
Relación de aspecto:
1.78:1
Resolución:
1280x720 píxeles
Tamaño:
47.30 MBytes

Del mismo autor…

Ver más del mismo autor


EducaMadrid, Plataforma Educativa de la Comunidad de Madrid

Plataforma Educativa EducaMadrid