1 00:00:00,620 --> 00:00:11,820 Vamos a estudiar ahora la recta de regresión, que bueno, la hemos visto ya, es decir, tengo mi relación entre x, la variable x, la variable y, 2 00:00:12,099 --> 00:00:19,940 tengo la nube de puntos y esta recta de aquí sería la recta de regresión, ¿vale? 3 00:00:19,940 --> 00:00:42,740 Esta recta de regresión, hemos visto la nube de puntos, de la nube de puntos que teníamos obteníamos el coeficiente r que no era otra cosa que sigma x y la covarianza partido sigma x sigma y y que era el coeficiente r de Pearson de correlación. 4 00:00:42,740 --> 00:00:58,520 Entonces ahora vamos a hallar la recta de regresión. Estamos con una regresión que va a ser tipo lineal, es decir, igual a x más b. 5 00:00:58,979 --> 00:01:08,719 Estamos buscando una recta la que mejor se ajuste a estos puntos y para hallar esta recta lo que aplicamos es el método de mínimos cuadrados. 6 00:01:08,719 --> 00:01:16,900 es la recta de regresión de y sobre x, es decir, y como una cierta función de x, 7 00:01:17,640 --> 00:01:28,099 pues calcularemos la distancia que hay entre un valor de y y su valor correspondiente a la recta real, 8 00:01:28,200 --> 00:01:34,540 es decir, a la recta de regresión. Lo que calcularemos sería, si yo tengo, a ver, por ejemplo, aquí, 9 00:01:35,340 --> 00:01:38,659 Este sería un cierto valor y su i de este punto. 10 00:01:39,359 --> 00:01:53,060 Pues bueno, el valor que le corresponde a la recta, que el punto estuviera aquí en esta recta, pues sería este trocito de aquí. 11 00:01:53,519 --> 00:01:58,319 Es decir, este valor de aquí sería el i sub r sub i. 12 00:01:58,319 --> 00:02:08,259 ¿De acuerdo? Entonces, la distancia entre I sub i menos I ri sería justo este tramo. 13 00:02:09,340 --> 00:02:19,039 Sería este tramo de aquí. Pues así iríamos calculando para todos los puntos y los elevaríamos al cuadrado. 14 00:02:19,560 --> 00:02:23,080 Y haríamos que esa distancia fuera mínima. 15 00:02:23,080 --> 00:02:42,099 Entonces, haciendo esos cálculos, los cálculos necesarios, que no es competencia vuestra, pues llegamos a esta recta, que es la recta de reversión de y sobre x, donde y va a ser el valor que se espera y x en este caso sería también el valor que se espera. 16 00:02:42,099 --> 00:02:51,500 Esto sería la X media y la Y media. Esto sería la covarianza y esto sería la varianza de la X. 17 00:02:52,479 --> 00:02:55,879 Fijaos que esta fórmula permite calcular el valor estimado de Y. 18 00:02:56,060 --> 00:03:01,580 Normalmente en la calculadora aparece como una especie de Y así con gorro, un valor estimado, 19 00:03:02,060 --> 00:03:07,280 y aparece de esta manera A más B por X estimado. 20 00:03:07,280 --> 00:03:29,939 De manera que luego entramos en el menú de regresión y nos sale ya directamente esta recta de aquí, nos sale calculada con este aspecto y luego meteríamos, si queremos saber un valor estimado determinado de y para un determinado valor de x, pues meteríamos o bien el x con gorro este o el y con gorro para obtener uno u otro. 21 00:03:29,939 --> 00:03:46,460 Pero también podemos obtener lo que se llama la recta de regresión de x sobre y, que lo que haríamos sería justo al revés, obtener en vez de la distancia sobre, lo que haríamos en realidad sería cambiar básicamente las x por las y, ¿vale? 22 00:03:46,460 --> 00:03:57,780 y obtendríamos la distancia en vez de sobre el eje de las y, es decir, mirando x sub y sub y menos y sub de la recta, la y sub r y, 23 00:03:57,780 --> 00:04:11,759 pues lo miraríamos sobre las x, la distancia que habría desde el punto hasta el que le correspondería justo situado en la recta 24 00:04:11,759 --> 00:04:26,759 Y todo esto lo elevaríamos al cuadrado y esa distancia tiene que ser mínima, de manera que me va a quedar justo lo mismo x menos x media, es decir, cambiando las x, fijaos, por las y, aquí tendríamos y menos y media. 25 00:04:26,759 --> 00:04:33,079 En vez de tener aquí la varianza de x, tendríamos la varianza de y, ¿vale? Y la covarianza no varía. 26 00:04:34,420 --> 00:04:45,759 Con lo cual, normalmente obtenemos este tipo que sería de recta de regresión de y sobre x, es decir, del tipo y igual a más bx. 27 00:04:47,500 --> 00:04:52,139 Y si la correlación es positiva, pues las rectas de regresión tendrán pendiente positiva. 28 00:04:52,139 --> 00:04:57,579 Esto ya lo hemos comentado, si es negativa, el coeficiente de correlación sería negativo, ¿vale? 29 00:04:58,720 --> 00:05:05,579 Obviamente la pendiente es justo cuando nos la dan de esta manera. 30 00:05:05,779 --> 00:05:19,759 Ya sabemos que la pendiente sería justo la b, que es lo que corresponde a esto de aquí, que sería la pendiente de la recta. 31 00:05:19,759 --> 00:05:29,800 Con lo cual si el coeficiente de la sigma x al cuadrado esto siempre va a ser positivo 32 00:05:29,800 --> 00:05:34,639 Entonces obviamente la pendiente solo depende de la covarianza 33 00:05:34,639 --> 00:05:39,519 Y la covarianza hemos visto que estaba relacionada con el coeficiente de correlación 34 00:05:39,519 --> 00:05:46,600 Con lo cual el signo de r va a dar el signo de la covarianza y va a dar el signo de la pendiente 35 00:05:46,600 --> 00:05:47,759 Que es lo que llevamos diciendo 36 00:05:47,759 --> 00:06:03,560 Y ahora, dentro de que tenemos lo más importante, la recta de revisión, ¿para qué nos sirve? Pues eso, para calcular el valor estimado para una de las variables estadísticas en función de la otra. 37 00:06:03,560 --> 00:06:11,560 Es lo que decíamos, tendríamos que tener un Y estimado, va a ser igual a A más BX estimado. 38 00:06:12,240 --> 00:06:18,600 Y esto nos va a parecer, lo podemos calcular de la manera que lo hemos calculado antes, 39 00:06:18,860 --> 00:06:25,120 es decir, con la recta de regresión de Y sobre X, o al revés, esta sería de Y sobre X, 40 00:06:25,120 --> 00:06:33,319 o bien esto nos lo da en el menú de regresión de la calculadora, que es como lo vamos a utilizar. 41 00:06:33,560 --> 00:06:39,259 fundamentalmente dice, las rectas de división serán tanto más representativas de la distribución bidimensional 42 00:06:39,259 --> 00:06:44,980 cuanto más próximo esté a 1 el valor absoluto del coeficiente de correlación. 43 00:06:45,240 --> 00:06:54,339 Claro, ya hemos dicho que si tenemos un r que es 1 o menos 1, estamos diciendo que se trata de una función, ¿vale? 44 00:06:54,379 --> 00:06:57,420 Una función, en este caso sería una recta, ¿vale? 45 00:06:57,420 --> 00:07:14,379 Y si el R es pequeño, pues, ¿qué estamos diciendo? Para un R0, ¿qué pasaba? Que no había correlación. Entonces, la recta de regresión, pues, no va a representar para nada, ¿no? No va a ser representativo y el ajuste, lo que se llama ajustar la nube de puntos a una recta, no va a tener sentido. 46 00:07:15,040 --> 00:07:21,139 Entonces, en ocasiones, dice, con el fin de calcular la calidad o lo que se llama bondad del ajuste realizado, 47 00:07:21,759 --> 00:07:30,620 se utiliza, por la recta de regresión, se utiliza, y claro, evidentemente, si yo tengo una recta que no representa esos puntos 48 00:07:30,620 --> 00:07:37,060 o que no es muy fiable, vaya, pues me da igual lo que meta que voy a tener datos erróneos. 49 00:07:37,060 --> 00:07:50,439 Entonces, para ver si ese ajuste está bien hecho o no, si representa o no esa recta, esos puntos, existe lo que se llama el coeficiente de determinación. 50 00:07:50,660 --> 00:08:01,160 El coeficiente de determinación R cuadrado es el R que conocemos, es decir, el coeficiente de Pearson, pero elevado al cuadrado. 51 00:08:01,160 --> 00:08:10,220 igual te va a dar la covarianza al cuadrado y en este caso sigma x, sigma y partido por la varianza de x, varianza de y, ¿vale? 52 00:08:10,379 --> 00:08:20,319 Entonces, y esto va a ser en tanto por ciento, es decir, lo voy a multiplicar por 100 y me va a dar si se trata de un ajuste, o sea, que es bueno, ¿vale? 53 00:08:20,620 --> 00:08:28,160 Ya os digo la bondad del ajuste, si es bueno o no, nos da el porcentaje en el que la variable x se justifica por el valor de la variable y, 54 00:08:28,160 --> 00:08:39,279 Es decir, si está bien hecho o no está bien hecho. Entonces, fijaos aquí este ejercicio que viene resuelto, que indica, bueno, inversiones en millones de euros en un sector económico. 55 00:08:39,679 --> 00:08:49,320 Determina la recta de reacción lineal que detalla o que relaciona el año de la inversión para utilizarla para estimar en el año del 2020 qué va a ocurrir. 56 00:08:49,320 --> 00:09:09,360 Bueno, también tienes que calcular la bondad del ajuste, es decir, en base a unos datos que es para lo que se utiliza, tú haces una estimación, vas a ajustar esos datos a una recta de revisión y a partir de ahí vas a poder hacer estimaciones o predicciones en el futuro si no hay otras variables que interfieran. 57 00:09:09,360 --> 00:09:38,120 Entonces, tomas la variable X y la inversión como variable Y. X tienes los años y los millones de euros. Calculamos X cuadrado, Y cuadrado, X por Y. Hacemos los sumatorios, los vemos en la calculadora y tenemos justo aquí, lo veis, cuánto vale la X media, la covarianza, la desviación típica. 58 00:09:38,120 --> 00:09:48,960 Y calculamos la recta de regresión de y sobre x, es decir, y menos y media es igual a sigma x y partido sigma cuadrado, bla, bla, y tenemos que nos queda esta recta. 59 00:09:49,200 --> 00:10:02,220 Esta recta, ¿vale?, es la que nos va a aparecer en la calculadora, que nos aparece, ya os he dicho, como y igual a a más bx, la que se llama la recta de regresión o el menú de regresión, ¿vale?, aparece normalmente tal que así. 60 00:10:02,220 --> 00:10:16,159 Entonces dice la inversión estimada para el año 2020, pues yo para el año 2020 lo que haré, le meteré el año, que sería el X, sería 2020 y me va a dar la I estimada, ¿de acuerdo? 61 00:10:16,159 --> 00:10:33,899 Entonces, ahí estimada me sale que sería esto. Con lo cual, si mi bondad dice, ¿es bueno este ajuste? Pues no lo sé. Vamos a calcular R cuadrado, ¿vale? R cuadrado, tendríamos sigma x y que ya lo tengo. 62 00:10:33,899 --> 00:10:54,759 me hace falta calcular la desviación típica, que la desviación típica es la raíz cuadrada de la varianza, haría estos cálculos, me sale esto y total que me sale que R es esto, pues R, vemos que es un R, una correlación, están muy correlacionados estos datos porque están muy próximos además a 1 63 00:10:54,759 --> 00:11:13,639 Y la punta del ajuste sería, fíjate, del 94%, que sería R cuadrado y por 100. Por lo tanto, entiendo que es un ajuste bueno el que he hecho por esta recta y que los datos que estoy prediciendo, ¿vale? De Y, respecto a la variable Y que estoy estimando, son buenos. 64 00:11:13,639 --> 00:11:27,279 Y fijaos, aquí al revés, aquí lo que tenemos que calcular, dice porque ahora me dan los datos del ejemplo y te pidan determinar el año, es decir, te están pidiendo cuál es la x, ¿vale? La x estimada. 65 00:11:27,279 --> 00:11:33,600 Pues bueno, en este caso sería hacer la estimación de X, o sea, la regresión de X sobre Y. 66 00:11:33,820 --> 00:11:39,360 Pues bueno, hacemos los cálculos. Esta es mi ecuación de recta que me tengo que apuntar. 67 00:11:39,460 --> 00:11:48,559 Obviamente me tengo que aprender y aquí veis lo que tengo que meter es justamente, en este caso, mi dato X. 68 00:11:49,120 --> 00:11:56,639 Como veis, la recta es otra y el año en el cual se va a superar sería este. 69 00:11:56,639 --> 00:12:09,840 Y luego te dice aquí, dibuja la nube de puntos que corresponde a los dos ejemplos anteriores de las rectas de regresión. Esta es la primera, la de y sobre x, y esta es la segunda, que era la de x sobre y. 70 00:12:09,840 --> 00:12:19,240 vale y bueno pues vas viendo y bueno van a quedar muy muy muy como veis tanto la de y sobre x como 71 00:12:19,240 --> 00:12:25,559 la de x sobre y difieren muy poco no dice se puede observar en la figura del margen que las 72 00:12:25,559 --> 00:12:31,299 dos rectas de regresión se cortan en el punto que se llama centro de gravedad es decir tanto 73 00:12:31,299 --> 00:12:38,120 la de x sobre y como la de y sobre x se cortan en el centro de gravedad que es x media y media 74 00:12:38,120 --> 00:13:01,519 Y bueno, por último la regresión curvilínea que no da lugar a utilizarla en este libro, aunque en la calculadora veréis que hay posibilidad de coger la lineal, coger logarítmica, coger parabólica, exponencial y se trata igualmente mediante métodos de mínimos cuadrados, pues intentar ajustar a ese tipo de curva.