1 00:00:00,300 --> 00:00:05,599 Hola, vamos a estudiar en esta nueva sesión lo que es la correlación. 2 00:00:05,740 --> 00:00:09,519 La correlación ya sabemos teóricamente lo que es, 3 00:00:09,599 --> 00:00:15,400 que es la relación que existe entre dos variables estadísticas unidimensionales, 4 00:00:15,439 --> 00:00:22,379 que a su vez constituyen en sí una variable estadística bidimensional. 5 00:00:23,179 --> 00:00:29,000 Sería, a ver, en primera aproximación ya vimos que cuando tenemos en nuestro eje X 6 00:00:29,000 --> 00:00:39,619 y en nuestro eje Y cada una de las variables, pues establecíamos cada punto sería lo que corresponde a un par, ¿vale? 7 00:00:39,700 --> 00:00:46,020 Una pareja X y Y de valores, ¿no? De la variable X y de la variable Y. 8 00:00:46,600 --> 00:00:51,700 Y obteníamos un conjunto de puntos que llamamos nube de puntos, ¿vale? 9 00:00:51,700 --> 00:01:12,219 Entonces, así a primera vista, el grado de la correlación que puede existir entre ambas variables puede ser lineal, como por ejemplo en el caso del peso y la altura de unos alumnos, podemos establecer o ajustar esos puntos que están cerca de una recta. 10 00:01:12,219 --> 00:01:29,180 Por tanto, la correlación sería lineal. Y dentro de esta correlación lineal puede ser positiva, es decir, positiva o directa, es decir, que a medida que aumenta una variable, aumenta, por ejemplo, la x, entonces aumenta también la y. 11 00:01:29,180 --> 00:01:37,659 Es decir, la pendiente de esta recta a la cual ajustamos la nube de puntos sería positiva. 12 00:01:37,859 --> 00:01:51,060 Por ejemplo, en este caso, pues bueno, habla del número de horas que hemos visto un ejemplo por ahí dedicadas al estudio de matemáticas y, en teoría, la calificación obtenida. 13 00:01:51,859 --> 00:01:55,120 ¿Qué otro tipo de correlación lineal podemos tener? 14 00:01:55,120 --> 00:02:01,620 pues negativa o inversa, es decir, si aumenta una variable, sería este caso, 15 00:02:01,620 --> 00:02:09,280 aquí tenemos nuestra variable x y la variable y, esa sería nuestra, lo que vamos a llamar luego recta de regresión, 16 00:02:09,400 --> 00:02:14,960 pero en este caso vamos a considerar que es la relación que existe entre la variable x y la variable y 17 00:02:14,960 --> 00:02:21,360 y resulta que a medida que va aumentando la x, ¿qué pasa? Pues que la y disminuye, 18 00:02:21,360 --> 00:02:39,460 Es decir, para X, por ejemplo, imagínate 1, vamos a ver el caso, tenemos esta cantidad. Pues para X, 3, vaya, vamos a tener esta cantidad que es mucho menor. Con lo cual, este tipo de correlación se llama negativa. 19 00:02:40,280 --> 00:02:50,460 Por ejemplo, dice el número de vacunas administradas por cada 1.000 habitantes y el número de casos registrados de la enfermedad que tratemos de ejemplificar. 20 00:02:51,319 --> 00:02:58,539 Por ejemplo, nunca más de moda que ahora, más en la realidad que ahora mismo. 21 00:02:58,539 --> 00:03:10,360 A medida que aumente el número de vacunas, que sería la variable x, pues evidentemente van a disminuir el número de enfermos. 22 00:03:12,120 --> 00:03:16,139 Con lo cual, lo que voy a tener es una correlación negativa. 23 00:03:16,900 --> 00:03:20,939 Luego, eso sería dentro de que veamos el caso que sea lineal. 24 00:03:21,080 --> 00:03:24,439 Lineal es porque se ajusta a una recta de este tipo. 25 00:03:24,960 --> 00:03:26,340 Ahora puede ser curvilínea. 26 00:03:26,340 --> 00:03:36,860 ¿Vale? Curvilínea. Quiere decir que, bueno, podemos ajustar estos puntos a un tipo de función cuadrática o similar. 27 00:03:37,800 --> 00:03:41,039 Entonces, dice, la nueva punto está distribuida alrededor de una curva. 28 00:03:41,400 --> 00:03:50,300 Esta curva, bueno, puede ser una cuadrática, puede ser un logaritmo, puede ser una exponencial, se ajustaría, hay distintos tipos de ajuste. 29 00:03:50,300 --> 00:04:04,620 Y luego tenemos pues nula, es decir, cuando no hay ningún tipo de correlación entre ambos, es decir, no hay ningún tipo de relación, por ejemplo, la altura de un grupo de individuos y su coeficiente intelectual. 30 00:04:04,620 --> 00:04:13,580 a ver, no hay en principio ninguna relación, que los más altos vayan a ser más listos, ni mucho menos. 31 00:04:14,139 --> 00:04:21,259 No hay relación, por lo cual en este caso diríamos que no hay ninguna relación, por tanto la correlación sería nula. 32 00:04:22,060 --> 00:04:28,500 Entonces, una vez que ya hemos visto, dice, la correlación entre las variables será más fuerte 33 00:04:28,500 --> 00:04:34,019 cuanto más cerca estén de los puntos en torno al cual se distribuyen, 34 00:04:34,019 --> 00:04:46,019 Es decir, si tenemos aquí una dispersión mucho mayor, es decir, por aquí más lejos, es decir, pues este punto respecto de aquí va a haber una mayor distancia. 35 00:04:46,579 --> 00:04:48,660 El ajuste va a ser peor, que se llama. 36 00:04:50,199 --> 00:04:53,959 Entonces, la correlación dice será más fuerte cuanto más cerca estén los puntos. 37 00:04:53,959 --> 00:05:02,500 Aquí la correlación sería menor que, por ejemplo, si tenemos todos los puntos ajustados, a lo mejor, como teníamos antes. 38 00:05:02,500 --> 00:05:05,019 aquí, bueno, ahora ya 39 00:05:05,019 --> 00:05:05,779 del todo 40 00:05:05,779 --> 00:05:07,540 a ver 41 00:05:07,540 --> 00:05:10,399 como por ejemplo 42 00:05:10,399 --> 00:05:13,040 si tenemos, a ver un segundito 43 00:05:13,040 --> 00:05:14,899 si logro hacer esto, vale 44 00:05:14,899 --> 00:05:17,019 como teníamos antes que estaban los puntos 45 00:05:17,019 --> 00:05:18,600 más cerquita de 46 00:05:18,600 --> 00:05:21,199 de la recta 47 00:05:21,199 --> 00:05:23,019 ahora vamos con la fórmula 48 00:05:23,019 --> 00:05:24,639 es decir, hasta ahora hemos visto 49 00:05:24,639 --> 00:05:26,579 gráficamente más o menos 50 00:05:26,579 --> 00:05:28,860 como podemos, o como puede ser 51 00:05:28,860 --> 00:05:30,759 esa correlación, una línea 52 00:05:30,759 --> 00:05:34,600 que sería lineal o curva, curvilínea o nula, que no hay relación. 53 00:05:34,800 --> 00:05:37,040 Vamos a ver ahora cómo vamos a medir esto. 54 00:05:37,259 --> 00:05:43,759 Pues bueno, en realidad ya hemos visto que si miramos nuestras distribuciones marginales, 55 00:05:43,899 --> 00:05:48,139 pues correspondería lo mismo a tener la x sola o la y sola, 56 00:05:48,259 --> 00:05:53,399 con lo cual podemos calcular de la x, es decir, de la variable x, 57 00:05:53,399 --> 00:06:02,699 pues podemos calcular su media, su varianza, su desviación típica y el coeficiente de variación de la variable, 58 00:06:02,860 --> 00:06:06,319 que es de forma independiente si tenemos su distribución marginable. 59 00:06:06,839 --> 00:06:09,399 Igualmente para la Y, es decir, podemos hacer lo mismo. 60 00:06:10,199 --> 00:06:17,120 Entonces, es lo que nos viene a contar aquí, que podemos calcular para cada una de las variables los parámetros. 61 00:06:17,120 --> 00:06:34,120 Pues bueno, el punto que se denomina, o sea, el punto P, digamos, que engloba, que tiene como coordenada X la media de la X y coordenada Y la media de la Y, se llama punto medio de la distribución bidimensional. 62 00:06:34,120 --> 00:06:53,139 Y esta sería como el centro de, digamos, de gravedad, ¿vale? El centro de gravedad de la distribución, es decir, si colgamos de ahí apoyándolo en ese diagrama, apoyamos ese con un boli, ¿vale? Ahí la punta se quedaría estable, lo que viene a ser un centro de gravedad. 63 00:06:53,139 --> 00:07:15,560 Entonces, vamos ahora a introducir un nuevo parámetro estadístico. Ya sabemos, conocemos la varianza de x y conocemos la varianza de y, que se calculaba, como sabíamos, haciendo x sub i menos x media al cuadrado partido por n y multiplicando por la f sub i. 64 00:07:15,560 --> 00:07:35,600 ¿Vale? Eso lo calculábamos así o lo que aún nosotros lo hacíamos mejor haciendo el sumatorio de x sub i al cuadrado por f sub i partido por n menos x media al cuadrado. Así es como lo hemos calculado cuando hacíamos unidimensional. 65 00:07:35,600 --> 00:07:46,100 ¿Vale? Hacíamos lo mismo para la y. Pues bueno, ahora vamos a definir lo que se llama la covarianza, ¿vale? De una variable bidimensional que se llama sigma xy. 66 00:07:46,600 --> 00:08:00,860 Sería la media aritmética, es decir, en vez de tener aquí el cuadrado, ¿vale? Como tendríamos, como si no estuviera esta, ¿vale? Pues en realidad sería tener cada producto de cada dato menos su media. 67 00:08:00,860 --> 00:08:22,420 Cada dato menos su media. O podríamos hacer, cuando calculamos la tabla, cuando tenemos la tabla para calcular que teníamos x sub i, teníamos la f sub i y tenemos aquí la y sub i, pues ahora vamos a hacer un nuevo producto que sería x sub i por f sub i y además por y sub i. 68 00:08:22,420 --> 00:08:38,279 Con lo cual, podemos también hallar de esta manera la covarianza, bien como el producto de x sub i menos x media, que lo podemos calcular aquí en otra columna si nos gusta más de esta manera, o bien calculándolo así. 69 00:08:38,279 --> 00:08:57,659 Bien, si observamos las expresiones para la desviación típica de x, la de y y la covarianza, se comprende porque la sigma x y recibe el nombre de covarianza, es decir, es como una varianza conjunta de las dos variables. 70 00:08:57,659 --> 00:09:13,019 Entonces dice la covarianza positiva, ¿qué significa? Pues va a significar que esto y esto tienen el mismo signo, o bien ambas son positivas o bien ambas negativas, porque más por más sería más o menos por menos sería menos. 71 00:09:13,019 --> 00:09:23,220 Si la covarianza es negativa, ¿qué significará? Pues que o bien esta es negativa o se van a tener distintos signos y esta positiva o al revés, siguen signos opuestos. 72 00:09:25,000 --> 00:09:37,360 Es decir, cuando una de las variables se encuentra por encima de su media, la otra está por debajo o lo que es lo mismo, cuando aumenta una de las variables disminuye la otra, es decir, la correlación sería negativa. 73 00:09:37,360 --> 00:09:52,879 Es decir, una covarianza x y positiva implica que la correlación es positiva, ¿vale? Sería una relación tal que así, que aumenta una, va a aumentar la x y va a aumentar la y. 74 00:09:53,399 --> 00:10:07,600 Y una covarianza x y negativa implica que la correlación sería negativa, por lo tanto sería el aspecto que tendrías así, que una aumenta y la otra disminuye o al revés, da igual. 75 00:10:08,799 --> 00:10:26,320 Con lo cual es la teoría que tendríamos que ver hasta ahora. Vamos a pasar luego a resolver este ejercicio que viene ya resuelto, pero vamos a hacerlo con la calculadora y para ver las dudas que podáis tener.