Activa JavaScript para disfrutar de los vídeos de la Mediateca.
ES2. 7 Distribución conjunta. Ejercicios 9-12 resueltos - Contenido educativo
Ajuste de pantallaEl ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:
Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES
00:00:05
Arquitecto Pedro Gumiel de Alcalá de Henares, y os doy la bienvenida a esta serie de videoclases
00:00:21
de la unidad ES2 dedicada a la estadística bivariante.
00:00:25
En la videoclase de hoy estudiaremos la distribución conjunta.
00:00:30
En esta videoclase vamos a iniciar el estudio de la distribución conjunta.
00:00:40
Vamos a tratar de determinar si existe o no existe alguna relación de dependencia entre las dos variables y de existir de qué tipo.
00:00:52
Uno de los primeros parámetros para el estudio de la distribución conjunta es la medida de centralización centro de gravedad.
00:01:00
Es el vector de las medias marginales y se denota, como veis, con las medias marginales en forma de vector.
00:01:08
Entre paréntesis, primero la media marginal de x y luego la media marginal de y.
00:01:13
tiene unidades y cada una de las componentes tiene las unidades de la variable correspondiente.
00:01:17
Como ejemplo, si consideramos el estudio anterior del consumo de combustible y la distancia recorrida
00:01:22
por un cierto vehículo y se nos pide que determinemos el centro de gravedad, calcularemos
00:01:28
como hicimos anteriormente las medias marginales y daremos como tal, como centro de gravedad,
00:01:32
el vector de las medias marginales, media de x, media de y, en este caso igual a 100 km.6,8 litros.
00:01:38
os recuerdo que tiene unidades. En el caso del estudio del número de suspensos en una cierta
00:01:45
evaluación y el tiempo diario medio de estudio, hacemos lo propio. Escribimos el vector de las
00:01:50
medias marginales, ese es el centro de gravedad, x media y media igual a 1,90 horas punto coma 1,80,
00:01:55
1,80 suspensos. Una vez determinada la medida de centralización, centro de gravedad, lo que vamos
00:02:03
a hacer es determinar las medidas de codependencia. Comenzamos por la covarianza, que se denota sigma
00:02:10
sub x y. Puede calcularse únicamente en variables cuantitativas y la fórmula concreta va a depender
00:02:16
de la forma en la que tengamos recogido los datos en las tablas de frecuencias, aunque en esencia
00:02:23
se trata del promedio del producto de las desviaciones de ambas variables con respecto
00:02:28
del centro de gravedad. Vamos a verlo en primer lugar en el caso en el que los datos de la
00:02:35
distribución bidimensional se recogen en tablas bidimensionales simples sin frecuencias absolutas.
00:02:40
Y vemos que sigma xy, la covarianza, se calcula como 1 partido de n, puesto que estamos haciendo un promedio, dividimos entre el tamaño de la población en muestra, y aquí tenemos la suma de los productos de xy menos x media, esta es la desviación de x con respecto a su media marginal, por y sub i menos i media, y aquí tenemos la desviación de y sub i con respecto de su media marginal.
00:02:46
podemos hacer esto de esta manera utilizando esta fórmula o bien aplicando ciertas propiedades
00:03:10
podemos utilizar esta otra expresión equivalente que es mucho más sencilla es la media de los
00:03:17
productos de x y por y sub y menos el producto de las medias en el caso en el que los datos se
00:03:23
recogen en tablas bidimensionales con frecuencias absolutas el cálculo es análogo a este lo único
00:03:29
que tendremos que ir multiplicando todos los datos por las correspondientes frecuencias absolutas
00:03:35
Aquí aparece en el caso en el que utilicemos la definición es el promedio de los productos de las desviaciones con respecto de las medias marginales y tenemos que multiplicar por la frecuencia absoluta o bien como vemos aquí el promedio de los productos y aquí tenemos las frecuencias absolutas menos el producto de los promedios de las medias marginales.
00:03:39
En el caso en el que los datos bidimensionales están recogidos en tablas de doble entrada, operamos de forma análoga.
00:04:02
Y aquí vemos que aparecen las frecuencias absolutas, n sub ij, y aquí también.
00:04:10
Y en este caso estamos dividiendo también por el tamaño de la población o muestra, ya no dividimos entre n, sino que estamos dividiendo entre n punto a punto.
00:04:14
La covarianza tiene unidades y van a ser el producto de las unidades de las variables.
00:04:23
Y dado que la covarianza tiene unidades, no nos va a ser posible comparar las covarianzas en el caso en el que las variables tengan unidades distintas,
00:04:28
puesto que no podemos comparar cosas con unidades diferentes.
00:04:39
La covarianza permite caracterizar el tipo de dependencia y, llegado al caso, el tipo de correlación.
00:04:43
Si la covarianza es nula o aproximadamente nula, las variables son independientes.
00:04:49
Si la covarianza es distinta de cero, entonces nos encontramos con variables que son dependientes. Si la covarianza es negativa, la relación de correlación entre ambas es negativa. Si la covarianza es positiva, la correlación entre ambas va a ser positiva.
00:04:55
Y fijaos que podemos caracterizar el tipo de dependencia, llegado al caso el tipo de correlación, pero como digo aquí, no es posible caracterizar el grado de correlación.
00:05:13
No podemos decidir si la correlación positiva o negativa es fuerte o débil.
00:05:24
Lo primero, aquí no ha aparecido en ningún momento ningún modelo lineal u otro.
00:05:29
Y en segundo lugar, el problema está en que la covarianza no está acotada.
00:05:33
No hay un valor máximo ni mínimo que nos sirva como referencia para decidir si nos aproximamos al valor límite la relación es fuerte mientras que si no la relación es débil.
00:05:38
Únicamente tenemos que si la covarianza es cero, hay independencia.
00:05:52
Podemos pensar que cuanto menor sea la covarianza, más próximos estamos a la relación de independencia,
00:05:57
en principio la correlación sería más débil, que si la covarianza se aleja del valor cero,
00:06:03
tanto en valores negativos como valores positivos, pero realmente no podemos hacer una comparación en términos absolutos.
00:06:10
absolutos. Podemos únicamente comparar covarianzas y únicamente en el caso en el que las variables
00:06:15
tengan las mismas unidades. Para evitar este problema, además de la covarianza y a partir
00:06:20
de ella, se define una nueva medida de codependencia que es el coeficiente de correlación lineal de
00:06:26
Pearson, que se denota por la r minúscula. Se calcula sólo en variables cuantitativas como
00:06:32
el cociente de la covarianza y el producto de las desviaciones típicas marginales. Este es
00:06:38
adimensional, ya no tiene unidades, de tal forma que podemos comparar el coeficiente de correlación
00:06:44
lineal de Pearson en conjuntos de variables diversos y además está acotado por el valor
00:06:50
máximo más 1 y el valor mínimo menos 1. El problema que tiene es que, como su propio nombre indica,
00:06:57
sirve únicamente en el caso en el que la relación de correlación sea lineal, únicamente en el caso
00:07:04
en el que al representar la nube de dispersión o el diagrama de burbujas veamos que efectivamente
00:07:10
los datos se distribuyen conforme a una línea recta. En otro caso tendremos que hacer cosas
00:07:17
distintas pero en el caso más habitual para nosotros en el que los datos se distribuyan
00:07:21
a grosso modo a lo largo de una línea recta podemos utilizar el coeficiente de correlación
00:07:26
lineal de Pearson para caracterizar el tipo de dependencia y en su caso el tipo y el grado
00:07:32
de correlación. En el caso en el que el coeficiente de correlación lineal de Pearson es 0 o próximo
00:07:37
a 0, las variables son independientes. En el caso en el que el coeficiente de correlación
00:07:44
de Pearson es distinto de 0 y positivo, tendremos una correlación positiva. En el caso en el
00:07:50
que el coeficiente de correlación lineal es negativo y distinto de 0, tendremos una
00:07:58
correlación negativa. Y puesto que el coeficiente de correlación está acotado, está comprendido
00:08:04
entre menos 1 y 1, ahora sí tenemos un límite superior con el cual poder decidir si tenemos
00:08:10
una correlación fuerte o débil. En el caso en el que r se aproxime mucho a los valores extremos
00:08:17
más 1 o menos 1, tendremos correlación positiva o negativa fuerte. En el caso en el que el
00:08:24
coeficiente de correlación se aproxime a cero, con valor positivo o negativo, tendremos correlación
00:08:32
positiva o negativa débil. Cuanto más próximo sea a más uno o a menos uno, más fuerte será la
00:08:37
relación de correlación y en el caso extremo, en el que r sea idénticamente igual a uno o bien r
00:08:44
sea idénticamente igual a menos uno, tendremos dependencia funcional. No será habitual. Como
00:08:49
primer ejemplo vamos a considerar el estudio anterior conjunto del consumo de combustible
00:08:58
la distancia recorrida por un cierto vehículo. Aquí tenemos la tabla de frecuencias junto con
00:09:03
esas dos columnas auxiliares que habíamos utilizado en su momento para calcular las
00:09:09
medias marginales, las varianzas y las desviaciones típicas marginales. Puesto que se nos pide que
00:09:14
estudiemos las medidas de codependencia, la covarianza y el coeficiente de correlación
00:09:20
lineal de Pearson, vamos a comenzar calculando la covarianza. En este caso, dado que tenemos
00:09:24
una tabla bidimensional simple sin frecuencias absolutas vamos a utilizar la primera de las
00:09:29
fórmulas que hemos visto anteriormente o varianza igual a 1 partido por n es igual a 10 el número
00:09:33
de elementos en esta muestra y lo que tenemos es la suma de los productos x y por y sub y menos
00:09:39
las medias aritméticas así que calcularemos 100 por 6,5 más 80 por 6 más 50 por 3 etcétera hasta
00:09:46
220 por 15, dividiremos entre 10, que es el tamaño de la muestra, y a esto le restaremos el producto
00:09:53
de las medias que habíamos calculado en su momento, 100 por 6,8. El resultado resulta ser 2.920,
00:09:59
tiene unidades, puesto que x se mide en kilómetros y en litros, pues kilómetro por litro. Vemos que
00:10:06
es distinta de cero, luego existe una relación de dependencia, vemos que la covarianza toma un
00:10:13
valor positivo, así pues existe una relación de correlación positiva entre ambas. Al aumentar la
00:10:19
distancia recorrida vemos que aumenta el volumen de combustible, al aumentar el volumen de combustible
00:10:24
vemos que aumenta la distancia recorrida. Recordemos, aquí tenemos al lado para recordar cómo era la
00:10:29
dispersión, la nube de puntos de estos datos y efectivamente en su momento comentamos que parecía
00:10:36
así, teníamos la sensación de que los datos se distribuían a lo largo de una línea recta y de
00:10:42
que esa línea recta tenía pendiente positiva y veíamos una relación de dependencia positiva,
00:10:48
parecía. Bien, pues ahora no solamente nos lo parece, sino que lo hemos podido determinar
00:10:53
matemáticamente utilizando la covarianza. Puesto que a la vista de estos resultados,
00:10:58
efectivamente, los datos parecen distribuirse a lo largo de una línea recta, tal vez no de
00:11:03
una forma exacta, pero sí de una forma aproximada, no hay una relación de dependencia funcional,
00:11:08
pero sí estocástica, lo que vamos a hacer es determinar el coeficiente de correlación lineal
00:11:12
de Pearson que se calcula dividiendo la covarianza que acabamos de calcular entre el producto de las
00:11:17
desviaciones típicas marginales. En su momento vimos que eran 54 kilómetros y 3,6 horas. Al
00:11:22
hacer esta operación vemos que el coeficiente de correlación lineal toma valor 0,991. Este
00:11:28
coeficiente de correlación lineal nos da un poco más de información que la covarianza, en parte la
00:11:36
misma y un poquito más. Vemos que el coeficiente de correlación lineal es distinto de cero, luego
00:11:41
existe una relación de dependencia, vemos que tomó un valor positivo, luego vemos una relación de
00:11:46
correlación positiva, pero además en este caso vemos que r tomó un valor realmente próximo a la
00:11:52
unidad, más próximo desde luego a la unidad que a cero. Así pues deducimos que la relación de
00:11:57
correlación entre ambas variables no sólo es positiva sino que además es fuerte. En este
00:12:02
siguiente ejemplo se nos pide que consideremos el estudio anterior conjunto del número de
00:12:08
suspensos en una cierta evaluación y el tiempo diario medio de estudio. Aquí tenemos la tabla
00:12:12
de frecuencias, que era una tabla de doble entrada, en la que también vemos esta columna y fila extras
00:12:17
donde tenemos los datos correspondientes a las distribuciones marginales. Vamos a comenzar
00:12:23
calculando la covarianza como la media del producto de los valores de las variables. Aquí vemos xj
00:12:29
que multiplica a y sub i y por las correspondientes frecuencias absolutas n sub ij, dividiendo entre
00:12:36
el tamaño de la población, en este caso n punto punto, menos el producto de las medias
00:12:42
marginales. Para determinar la suma de estos productos lo que vamos a hacer es ir bien
00:12:47
por filas o bien por columnas e ir multiplicando. Deberíamos multiplicar 0 por 0 por la frecuencia
00:12:52
absoluta que es 0, más 0 por 1 por la frecuencia absoluta que es 0, más 0 por 2 por 0, más
00:12:58
0 por 3 por 0, más 0 por 4 por 1, más 0 por 5 por 2, pasamos a la siguiente columna,
00:13:04
más 1 por 0 por 0, más 1 por 1 por 0, más 1 por 2 por 2 y así hasta llegar al final.
00:13:09
Vemos que esto es muy largo y es muy pesado y que hay muchos sumandos de los que acabamos de poner
00:13:16
que son innecesarios, puesto que si la frecuencia absoluta es 0 y son todos aquellos valores que no hemos escrito por convenio,
00:13:21
al multiplicar por 0 el sumando desaparece, no contribuye a la suma puesto que valdría 0.
00:13:28
Así que lo más habitual es escribir la fórmula correcta que es esta con todos los términos,
00:13:33
Pero aquí, al hacer el cálculo, introducir únicamente aquellos con frecuencias absolutas distintas de 0.
00:13:37
Y por eso vemos que el primero es 0 por 4 por 1, a continuación más 0 por 5 por 2,
00:13:43
el siguiente sería más 1 por 2 por 2 y el último sería más 4 por 0 por 2.
00:13:49
Si hacemos todos estos productos, dividimos entre n punto a punto, que es 30,
00:13:55
y restamos el producto de las medias marginales, que eran 1,90 y 1,80,
00:13:59
vemos que calculamos como covarianza el valor menos 1,087 horas.
00:14:03
Puesto que este valor existente de 0 existe una cierta relación de dependencia entre ambas variables
00:14:08
y por tomar un valor negativo deducimos que la correlación entre ambas va a ser negativa.
00:14:13
Aquí tenemos la representación del diagrama de burbujas que habíamos hecho anteriormente
00:14:18
donde en su momento ya pretendimos deducir visualmente que debía existir esta relación de dependencia negativa
00:14:22
puesto que hay burbujas para valores grandes de una variable y pequeñas de la otra,
00:14:31
independientemente de cuál sea,
00:14:37
y no vemos ninguna burbuja para valores pequeños de ambas variables simultáneamente
00:14:38
y valores grandes de ambas variables simultáneamente.
00:14:42
Así que ahora no solamente lo hemos visto o lo hemos querido ver,
00:14:47
sino que además lo hemos determinado cuantitativamente desde el punto de vista matemático.
00:14:51
Si además pensamos en que estas burbujas están organizadas siguiendo una línea recta, más o menos, con una dispersión, con una cierta amplitud, pero aproximadamente siguiendo una línea recta,
00:14:56
tendría sentido que determináramos el coeficiente de correlación lineal de Pearson para añadir algo más de información a la que nos permite dar la covarianza.
00:15:10
Lo vamos a calcular como el cociente de la covarianza que acabamos de calcular entre el producto de las desviaciones típicas marginales.
00:15:18
Si dividimos menos 1,087 entre 0,98 y 1,42 obtenemos el valor menos 0,780.
00:15:25
Coincide con la covarianza en que, puesto que es distinto de cero, existe una relación de dependencia entre las variables,
00:15:34
puesto que es negativo, la relación de correlación entre ambas va a ser negativa.
00:15:40
Pero además vemos que menos 0,78 es relativamente próximo a menos 1, desde luego más próximo a menos 1 que a cero.
00:15:44
Consecuentemente, podemos además decir que la relación de dependencia, esta covarianza negativa entre ambas variables, es relativamente fuerte.
00:15:52
No tan fuerte como en el caso anterior, pero relativamente fuerte.
00:16:01
Fijaos que acabo de comparar el coeficiente de correlación de Pearson de esta distribución y la anterior, y puede hacerse, puesto que es adimensional y tiene la misma escala, está acotado por 1 y menos 1.
00:16:05
No podría comparar las covarianzas. Esta covarianza es menos 1,087 horas y en el caso anterior la covarianza era 2.920 km por litro. Ambos valores de covarianza no son en absoluto comparables, puesto que están en sistemas de unidades diferentes.
00:16:16
Pero en el caso del coeficiente de correlación lineal sí puedo hacer una comparación.
00:16:32
En este caso r es muy próximo a la unidad 0,991.
00:16:36
En este caso r también es muy próximo a la unidad negativa, pero no tanto, menos 0,78.
00:16:41
Y sí puedo decir que la relación de correlación de esta distribución es menos fuerte que en el caso anterior.
00:16:47
De hecho, podíamos ver, podíamos decidir que esta relación es claramente lineal, mientras que en este caso decíamos que era aproximadamente lineal.
00:16:55
Un saludo y hasta pronto.
00:17:25
- Idioma/s:
- Materias:
- Matemáticas
- Etiquetas:
- Flipped Classroom
- Niveles educativos:
- ▼ Mostrar / ocultar niveles
- Bachillerato
- Primer Curso
- Autor/es:
- Raúl Corraliza Nieto
- Subido por:
- Raúl C.
- Licencia:
- Reconocimiento - No comercial - Sin obra derivada
- Visualizaciones:
- 2
- Fecha:
- 17 de noviembre de 2025 - 11:43
- Visibilidad:
- Público
- Centro:
- IES ARQUITECTO PEDRO GUMIEL
- Duración:
- 17′ 53″
- Relación de aspecto:
- 1.78:1
- Resolución:
- 1280x720 píxeles
- Tamaño:
- 47.30 MBytes