1 00:00:05,320 --> 00:00:21,079 Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 2 00:00:21,079 --> 00:00:25,579 arquitecto Pedro Gumiel de Alcalá de Henares y os doy la bienvenida a esta serie de videoclases 3 00:00:25,579 --> 00:00:37,939 de la unidad ES2 dedicada a la estadística bivariante. En la videoclase de hoy estudiaremos 4 00:00:37,939 --> 00:00:52,679 la regresión. Vamos a finalizar esta unidad con el estudio de la regresión. Ahora ya buscamos 5 00:00:52,679 --> 00:00:58,340 no describir los datos que hemos obtenido sino hacer predicciones y para ello vamos a utilizar 6 00:00:58,340 --> 00:01:04,819 un modelo de regresión con el que vamos a determinar una expresión algebraica, una función con la cual 7 00:01:04,819 --> 00:01:09,939 vamos a poder ajustar o vamos a pretender ajustar de la forma más exacta posible la nube de puntos 8 00:01:09,939 --> 00:01:16,180 y vamos a utilizar esa expresión algebraica para con los valores de una variable determinar de una 9 00:01:16,180 --> 00:01:22,620 forma aproximada en el caso de una dependencia estocástica los valores de la otra. Dependiendo 10 00:01:22,620 --> 00:01:27,260 el tipo de función que vayamos a utilizar, tendremos distintos tipos de regresión. Los más 11 00:01:27,260 --> 00:01:33,140 comunes son modelos lineales, cuadráticos, exponenciales y logarítmicos, en los cuales la 12 00:01:33,140 --> 00:01:38,359 función de ajuste va a ser respectivamente una recta, una parábola, una función exponencial y 13 00:01:38,359 --> 00:01:45,560 una función logarítmica. En función de cómo se mida que la función ajuste de la mejor forma o de 14 00:01:45,560 --> 00:01:51,760 la forma más exacta posible los datos de que disponemos, tendremos distintos tipos de regresión. 15 00:01:51,760 --> 00:01:55,840 No hablamos ya del modelo matemático, sino del tipo de regresión. 16 00:01:56,400 --> 00:02:00,739 Nosotros lo que vamos a discutir aquí es la más utilizada, el método de mínimos cuadrados, 17 00:02:00,939 --> 00:02:06,239 en el que lo que vamos a buscar es minimizar, como veis aquí, la suma de los cuadrados, 18 00:02:06,640 --> 00:02:13,759 de las diferencias entre los valores que predice la función y los valores reales, los valores que tenemos en la tabla de frecuencias. 19 00:02:14,979 --> 00:02:21,560 En el estudio de la distribución conjunta vamos a poder determinar dos sistemas de regresión. 20 00:02:21,759 --> 00:02:30,500 La regresión de y sobre x, que se representa de esta manera, nos va a permitir calcular valores de y en función de los de x. 21 00:02:30,879 --> 00:02:38,180 Y la regresión de x sobre y nos va a permitir calcular los valores de x en función de los valores de y. 22 00:02:39,080 --> 00:02:45,800 Con el método de mínimos cuadrados hacemos asunciones distintas para ambos tipos de regresión. 23 00:02:45,800 --> 00:03:01,900 En el caso de la regresión de y sobre x se considera por hipótesis que los valores de x se determinan de una forma exacta y que toda la variabilidad que podemos ver en la nube de puntos o en el diagrama de burbujas se debe a la variable y. 24 00:03:01,900 --> 00:03:08,560 griega. En el caso de la regresión de x sobre y es al revés. Lo que hacemos es considerar que los 25 00:03:08,560 --> 00:03:13,180 valores de y se miden de una forma exacta y que toda la variabilidad en la nube de puntos o en 26 00:03:13,180 --> 00:03:19,080 el diagrama de burbujas se debe a la variable x. Por esta razón, cuando estamos utilizando el 27 00:03:19,080 --> 00:03:24,979 método de mínimos cuadrados, hemos de tener cuidado en cuál es la expresión de la función 28 00:03:24,979 --> 00:03:30,840 de ajuste que utilizamos. Si nosotros tenemos la función de regresión de y sobre x, es para 29 00:03:30,840 --> 00:03:37,199 calcular valores de y en función de x. Esa función será invertible y podremos utilizarla para calcular 30 00:03:37,199 --> 00:03:44,139 valores de x en función de y, pero no es lícito puesto que la asunción básica en el modelo de 31 00:03:44,139 --> 00:03:50,199 mínimos cuadrados es distinta. Si queremos calcular valores de x en función de los de y, no podremos 32 00:03:50,199 --> 00:03:55,439 nunca utilizar la regresión de y sobre x invertida, sino que habremos de calcular necesariamente la 33 00:03:55,439 --> 00:04:01,620 regresión de x sobre y. Cada recta de regresión, en el caso del método de regresión lineal o cada 34 00:04:01,620 --> 00:04:07,219 función de regresión, debe utilizarse exclusivamente para el fin para el que se determina y hay que 35 00:04:07,219 --> 00:04:13,419 tener cuidado. El modelo de regresión que nosotros vamos a estudiar es el de regresión lineal por el 36 00:04:13,419 --> 00:04:19,680 método de mínimos cuadrados. En este caso vamos a poder determinar cómo de buenos el ajuste, cómo 37 00:04:19,680 --> 00:04:26,199 se ajustan los valores predichos mediante las rectas de regresión y los valores reales 38 00:04:26,199 --> 00:04:30,740 observados que tiene la tabla de frecuencia, lo que se llama la bondad del ajuste, utilizando 39 00:04:30,740 --> 00:04:35,339 el denominado coeficiente de determinación r mayúscula al cuadrado, que en este caso 40 00:04:35,339 --> 00:04:39,459 se va a calcular a partir del coeficiente de correlación lineal de Pearson como su 41 00:04:39,459 --> 00:04:44,660 cuadrado. Y aquí vemos coeficiente de determinación r mayúscula al cuadrado igual al cuadrado 42 00:04:44,660 --> 00:04:50,139 del coeficiente de correlación lineal. Puesto que el coeficiente de correlación está acotado 43 00:04:50,139 --> 00:04:55,139 tomando valores entre menos 1 y 1 al elevar al cuadrado, el coeficiente de determinación también 44 00:04:55,139 --> 00:05:01,000 va a estar acotado pero tomando valores entre 0 y 1. Y este coeficiente de determinación lo que 45 00:05:01,000 --> 00:05:08,180 representa es la fracción de la variabilidad de la nube de puntos o del diagrama de burbujas que 46 00:05:08,180 --> 00:05:15,379 es explicada por el modelo de regresión lineal. Cuanto mayor sea r más próximo a 1 la variabilidad 47 00:05:15,379 --> 00:05:21,319 que nosotros observamos en los datos se ajusta tanto mejor con el modelo de regresión lineal 48 00:05:21,319 --> 00:05:27,540 y cuanto más próximo a 0 tanto peor. Tenemos los extremos r cuadrado igual a 0 o próximo a 0 en 49 00:05:27,540 --> 00:05:32,199 cuyo caso las variables son independientes o bien puede ser que existe una relación de dependencia 50 00:05:32,199 --> 00:05:38,959 que no sea lineal, puesto que r al cuadrado es únicamente para relaciones lineales. En el caso 51 00:05:38,959 --> 00:05:43,540 en el que r al cuadrado sea 1, toda la variación es explicada por el modelo lineal. Lo que tenemos 52 00:05:43,540 --> 00:05:49,879 es una relación de dependencia funcional lineal. Y en el caso en el que r al cuadrado tome valores 53 00:05:49,879 --> 00:05:55,139 arbitrarios entre 0 y 1, el modelo lineal, como decía antes, va a ser tanto mejor cuanto más 54 00:05:55,139 --> 00:06:03,519 próximo sea el coeficiente de determinación a 1. ¿Cómo de alto debe ser r cuadrado para considerar 55 00:06:03,519 --> 00:06:10,379 que el modelo lineal es suficientemente bueno? Va a depender de la naturaleza de los datos con los 56 00:06:10,379 --> 00:06:16,339 que estemos trabajando y también de cuál sea el ámbito dentro del cual estemos haciendo el estudio. 57 00:06:17,339 --> 00:06:22,860 Habitualmente cuando estamos haciendo un estudio de esta naturaleza dentro del ámbito de las 58 00:06:22,860 --> 00:06:28,079 ciencias naturales, física, química, matemáticas, etcétera, lo que buscamos son valores de 59 00:06:28,079 --> 00:06:36,160 recuadrado realmente próximos a 1 y por esto quiero decir valores 0,99, 0,999 de ese estilo. 60 00:06:36,620 --> 00:06:41,720 En el caso en el que tenemos datos con una dispersión por su propia naturaleza mayor y 61 00:06:41,720 --> 00:06:47,220 estamos haciendo un estudio sociológico o un estudio de poblaciones, en ciertas ocasiones 62 00:06:47,220 --> 00:06:53,959 un valor de r cuadrado próximo a 0,6 ya va a ser suficientemente bueno. Como os decía dependiendo 63 00:06:53,959 --> 00:06:59,540 de la naturaleza de los datos y dependiendo sobre todo de naturaleza del estudio necesitaremos para 64 00:06:59,540 --> 00:07:05,139 decidir que el estudio que el modelo en lineal es suficientemente bueno una aproximación a 1 mayor 65 00:07:05,139 --> 00:07:12,829 o ligeramente menor. Aquí os presento los modelos de regresión lineal por el método de mínimos 66 00:07:12,829 --> 00:07:21,689 cuadrados de y sobre x para calcular y en función de x y de x sobre y para calcular x en función de 67 00:07:21,689 --> 00:07:28,850 y. En este caso de la regresión de y sobre x el modelo de regresión es y predicho que es lo que 68 00:07:28,850 --> 00:07:35,769 significa este asterisco igual a la pendiente de la recta m del modelo de regresión de y sobre x 69 00:07:35,769 --> 00:07:42,629 por x más la ordenada en el origen n del modelo de regresión de y sobre x. Vamos a comparar con 70 00:07:42,629 --> 00:07:47,810 el modelo de regresión de x sobre y. Aquí lo que tenemos es x, valor predicho, de ahí el asterisco, 71 00:07:48,269 --> 00:07:55,970 igual a la pendiente de este modelo de x sobre y por y más la ordenada en el origen de este modelo, 72 00:07:56,310 --> 00:08:03,889 la regresión de x sobre y. Estos parámetros m y n de y sobre x o de x sobre y, conforme al método 73 00:08:03,889 --> 00:08:08,850 mínimos cuadrados, se calculan de la siguiente manera. La pendiente de la regresión de y sobre 74 00:08:08,850 --> 00:08:16,870 x es la covarianza dividido entre la varianza marginal de x. Y, análogamente, la pendiente 75 00:08:16,870 --> 00:08:22,829 en el modelo de regresión de x sobre y se calcula como la covarianza dividido entre 76 00:08:22,829 --> 00:08:28,990 la varianza marginal de y. Fijaos que el que tengo aquí, condicionando, es la varianza 77 00:08:28,990 --> 00:08:34,950 que tengo dividiendo. Las unidades de la pendiente se calcularán a partir de las unidades de 78 00:08:34,950 --> 00:08:41,470 la covarianza y de la correspondiente varianza marginal. En cuanto a la ordenada en el origen se 79 00:08:41,470 --> 00:08:48,149 van a calcular con estas expresiones. La ordenada del origen del modelo de y sobre x es o se calcula 80 00:08:48,149 --> 00:08:53,330 como la media marginal de y menos la pendiente del modelo por la media marginal de x de forma 81 00:08:53,330 --> 00:08:59,950 análoga a la regresión de x sobre y. En este caso se calculará como la media marginal de x menos la 82 00:08:59,950 --> 00:09:04,649 pendiente del modelo por la media marginal de y. Las unidades dependerán de cuál sea el modelo de 83 00:09:04,649 --> 00:09:11,110 regresión que estemos utilizando. Una característica de ambas rectas de regresión es que se van a 84 00:09:11,110 --> 00:09:17,110 cortar en un único punto. Ambas rectas tienen en común el centro de gravedad de la distribución, 85 00:09:17,490 --> 00:09:24,950 de tal forma que ambas rectas van a pasar por el punto x media y media, x marginal, x media marginal 86 00:09:24,950 --> 00:09:32,519 y media marginal. Como primer ejemplo se nos pide que consideremos el estudio conjunto anterior del 87 00:09:32,519 --> 00:09:37,639 consumo de combustible y la distancia recorrida por un cierto vehículo. En primer lugar se nos 88 00:09:37,639 --> 00:09:42,639 pide que determinemos las ecuaciones de las rectas de regresión para determinar el volumen de 89 00:09:42,639 --> 00:09:48,399 combustible en función de la distancia recorrida y viceversa. El volumen de combustible era la 90 00:09:48,399 --> 00:09:53,399 variable y así que para determinar el volumen de combustible en función de la distancia recorrida 91 00:09:53,399 --> 00:10:00,360 que era x lo que tenemos que hacer es calcular la recta de regresión de y sobre x. Vamos a calcular 92 00:10:00,360 --> 00:10:06,320 la pendiente como la covarianza dividido entre la varianza marginal de x y vemos que obtenemos 93 00:10:06,320 --> 00:10:13,240 el valor 0,066 litro partido por kilómetro y la ordenada en el origen como la media marginal de 94 00:10:13,240 --> 00:10:18,820 y menos la media perdón la pendiente que acabamos de calcular en este modelo por la media marginal 95 00:10:18,820 --> 00:10:26,659 de x y vemos que obtenemos el valor 0,158 litros. Consecuentemente la ecuación de regresión para 96 00:10:26,659 --> 00:10:35,899 calcular y, y asterisco porque son valores predichos, será igual a 0,066 por x más 0,158 97 00:10:35,899 --> 00:10:42,659 y obtendremos los valores de y predichos en litros como corresponde si ponemos los valores de x en 98 00:10:42,659 --> 00:10:48,179 kilómetros como corresponde. Esto en cuanto a la determinación del volumen de combustible en 99 00:10:48,179 --> 00:10:53,519 función de la distancia recorrida. Si queremos obtener la recta regresión para hacer predicciones 100 00:10:53,519 --> 00:10:59,019 es en sentido contrario, la distancia recorrida en función del volumen de combustible, no podemos 101 00:10:59,019 --> 00:11:04,139 invertir este modelo sino que debemos calcular de nuevo el modelo de regresión, en este caso, 102 00:11:04,299 --> 00:11:10,679 como vemos aquí, de x sobre y. La pendiente del modelo de regresión se calcula como la covarianza 103 00:11:10,679 --> 00:11:18,600 entre la varianza marginal de y, vemos que obtenemos el valor 14,908 kilómetros partido por litro, 104 00:11:18,600 --> 00:11:24,360 y la ordenada en el origen como la media marginal de x menos la pendiente del modelo de regresión 105 00:11:24,360 --> 00:11:32,059 por la media marginal de y y obtenemos el valor de menos 0,629 kilómetros. Entonces la ecuación 106 00:11:32,059 --> 00:11:38,259 de la recta de regresión de x sobre y será x asterisco puesto que se trata de un valor predicho 107 00:11:38,259 --> 00:11:47,899 igual a 14,908 por x menos 0,629 y obtendremos x los valores predichos en kilómetros como debe ser 108 00:11:47,899 --> 00:11:55,480 si introducimos y en litros también como debe ser. A continuación se nos pide que representemos las 109 00:11:55,480 --> 00:12:00,580 dos rectas de regresión y sobre x y x sobre y sobre el diagrama de dispersión de la distribución 110 00:12:00,580 --> 00:12:07,000 conjunta para poder comparar. Ese es el diagrama que tenemos aquí. Tenemos la nube de puntos, los 111 00:12:07,000 --> 00:12:12,360 cuadrados azules que hemos pintado en una de las videoclases anteriores y tenemos en naranja oscuro 112 00:12:12,360 --> 00:12:18,700 La recta de regresión de y sobre x y en naranja claro, la recta de regresión de x sobre y. 113 00:12:19,179 --> 00:12:24,679 Y podemos ver cómo, en primer lugar, ambas rectas se aproximan muy bien a los datos de que disponemos 114 00:12:24,679 --> 00:12:28,620 y también vemos que ambas rectas casi se superponen. 115 00:12:29,039 --> 00:12:32,000 Esto va a ser una característica, el hecho de que se superpongan, 116 00:12:32,440 --> 00:12:37,659 es una característica típica de distribuciones con una relación de dependencia, 117 00:12:37,820 --> 00:12:40,460 con una correlación muy fuerte, casi funcional. 118 00:12:40,460 --> 00:12:49,019 vemos como en los extremos las dos rectas se separan y es que realmente no son completamente una encima de la otra 119 00:12:49,019 --> 00:12:57,980 y el punto donde ambas se superponen, el punto de corte, debería ser el centro de gravedad de la distribución conjunta 120 00:12:57,980 --> 00:13:08,159 con x igual a 100 km, y la media de x 100 km y la media de y 6,8 litros, el punto que estaría más o menos por aquí 121 00:13:09,000 --> 00:13:18,860 A continuación, se nos pide que calculemos cuál es el volumen de combustible consumido que esperamos consumir cuando se recorre una distancia de 32 km. 122 00:13:19,379 --> 00:13:26,419 Y también se nos pide que calculemos la distancia recorrida que esperamos recorrer al consumirse un volumen de 24 litros de combustible. 123 00:13:26,840 --> 00:13:31,120 En cada uno de los casos tenemos que utilizar la recta de regresión correspondiente. 124 00:13:31,580 --> 00:13:37,519 Para calcular el volumen en función de la distancia, tenemos que utilizar la recta de regresión de y sobre x. 125 00:13:38,159 --> 00:13:49,320 Vamos a calcular el volumen de combustible que esperamos, es un valor calculado, un valor predicho, por eso le ponemos un asterisco, cuando recorremos una distancia de 32 km. 126 00:13:49,320 --> 00:14:00,440 Calculamos y de 32, 0,066 por 32 más 0,158, esperamos consumir un volumen de 2,27 litros. 127 00:14:00,980 --> 00:14:07,259 En el caso en el que queremos calcular la distancia que esperamos recorrer cuando consumimos un volumen de 24 litros, 128 00:14:07,419 --> 00:14:12,440 hemos de utilizar la otra recta de regresión, la que tenemos para x asterisco, su valor predicho. 129 00:14:12,440 --> 00:14:16,320 Y en este caso sustituimos el valor de y que es igual a 24 litros. 130 00:14:16,639 --> 00:14:25,700 x de 24 será 14,908 por 24 menos 0,629 y obtenemos el valor de 357,16 kilómetros. 131 00:14:25,700 --> 00:14:32,700 para finalizar este ejercicio se nos pide que discutamos cuál es la adecuación de los cálculos 132 00:14:32,700 --> 00:14:37,659 anteriores a la vista del coeficiente de determinación así que empezaremos calculando 133 00:14:37,659 --> 00:14:42,600 el coeficiente de determinación r mayúscula cuadrado como el cuadrado del coeficiente de 134 00:14:42,600 --> 00:14:52,159 correlación 0,991 que hemos calculado al cuadrado resulta ser 0,983 este valor indica que el modelo 135 00:14:52,159 --> 00:14:58,500 lineal que hemos utilizado para hacer estas dos predicciones explica un 98,3% de la variabilidad 136 00:14:58,500 --> 00:15:05,240 de las variables, un valor realmente significativo y entonces el ajuste del modelo lineal es adecuado 137 00:15:05,240 --> 00:15:10,379 y estas dos predicciones que hemos hecho son correctas y las ecuaciones, ya que estamos las 138 00:15:10,379 --> 00:15:16,960 ecuaciones del modelo de regresión, son adecuadas. Hemos hecho los cálculos en el orden en el que se 139 00:15:16,960 --> 00:15:22,899 nos ha pedido pero quisiera aprovechar para indicar que en realidad antes de calcular siquiera los 140 00:15:22,899 --> 00:15:28,700 modelos de regresión habríamos de empezar calculando el coeficiente de determinación pues si r cuadrado 141 00:15:28,700 --> 00:15:34,820 no toma un valor suficientemente elevado en ese caso las rectas de regresión que estamos calculando 142 00:15:34,820 --> 00:15:40,779 no son útiles y estos valores que calcularíamos con las rectas de regresión no son significativos 143 00:15:40,779 --> 00:15:46,240 así pues nosotros habitualmente calcularemos en primer lugar el coeficiente de determinación y 144 00:15:46,240 --> 00:15:51,059 solamente haremos el resto de cálculos si decidimos que esos valores, el valor del coeficiente de 145 00:15:51,059 --> 00:15:58,190 determinación, es suficientemente alto. En el siguiente ejemplo se nos pide que hagamos algo 146 00:15:58,190 --> 00:16:03,929 análogo en el estudio anterior conjunto del número de suspensos en una cierta evaluación y el tiempo 147 00:16:03,929 --> 00:16:09,929 diario medio de estudio. Vamos a comenzar determinando las rectas de regresión para 148 00:16:09,929 --> 00:16:14,129 calcular el número de suspensos en función del tiempo diario medio de estudio, sería la regresión 149 00:16:14,129 --> 00:16:20,330 de y sobre x y posteriormente para determinar el tiempo diario medio de estudio en función 150 00:16:20,330 --> 00:16:26,110 del número de suspensos, la regresión de x sobre y. En la regresión de y sobre x calculamos 151 00:16:26,110 --> 00:16:32,210 en primer lugar la pendiente como la covarianza dividido entre la varianza marginal de las 152 00:16:32,210 --> 00:16:39,970 x, vemos que obtenemos el valor menos 1,136 horas a la menos 1 y la ordenada en el origen 153 00:16:39,970 --> 00:16:46,149 del modelo de regresión de y sobre x como la media marginal de y menos la pendiente del modelo por la 154 00:16:46,149 --> 00:16:53,129 media marginal de x y obtenemos el valor 3,958. Así pues, en el modelo de regresión lineal será 155 00:16:53,129 --> 00:17:03,850 y valor predicho y asterisco igual a menos 1,136 por x más 3,958 y al dimensional cuando pongamos 156 00:17:03,850 --> 00:17:12,589 x en horas. Aquí tenemos los cálculos para la regresión de x sobre y para determinar el tiempo 157 00:17:12,589 --> 00:17:17,529 diario medio de estudio en función del número de suspensos. La pendiente se calcula como la 158 00:17:17,529 --> 00:17:24,890 covarianza entre la varianza marginal de las y, vemos el valor menos 0,536 horas y la ordenada 159 00:17:24,890 --> 00:17:30,170 en el origen como la media marginal de x menos la pendiente del modelo por la media marginal de y 160 00:17:30,170 --> 00:17:34,329 Y obtenemos el valor de 2,865 horas. 161 00:17:34,890 --> 00:17:49,369 Consecuentemente, la recta de regresión será x asterisco, puesto que estamos determinando valores predichos, con la función igual a menos 0,536 por x más 2,865. 162 00:17:49,890 --> 00:17:56,049 Y tendremos x asterisco en horas si y es adimensional, cuando introduzcamos y sin unidades. 163 00:17:56,789 --> 00:18:03,089 También se nos pide, como en el caso anterior, que representemos sobre el diagrama de burbujas las rectas de regresión. 164 00:18:03,089 --> 00:18:16,269 Y aquí tenemos en azul los círculos que corresponden con las burbujas, en color anaranjado oscuro la recta de regresión de y sobre x y en color anaranjado claro la recta de regresión de x sobre y. 165 00:18:17,269 --> 00:18:34,769 Podemos ver cómo las rectas no coinciden, no se superponen, esto es algo característico de las distribuciones en las cuales la correlación no es excesivamente fuerte, se separan, y ambas se cortan en un único punto que va a ser el centro de gravedad de la distribución. 166 00:18:35,430 --> 00:18:44,750 En este caso la media marginal de x era 1,90 horas y la media marginal de y era 1,80 y aquí tenemos ese punto. 167 00:18:45,750 --> 00:18:55,430 A continuación, se nos pide que utilicemos las rectas de regresión para calcular el número esperado de suspensos cuando se estudia un tiempo diario medio de 1,5 horas 168 00:18:55,430 --> 00:19:03,769 y también el tiempo esperado medio de estudio que esperamos cuando se tienen tres suspensos. 169 00:19:04,369 --> 00:19:08,369 Para cada uno de estos cálculos tenemos que hacer uso de la recta de regresión correspondiente. 170 00:19:08,369 --> 00:19:14,230 Para calcular el número de suspensos esperado estudiando un tiempo medio diario de 1,5 horas 171 00:19:14,230 --> 00:19:17,329 utilizamos la recta de regresión de y sobre x 172 00:19:17,329 --> 00:19:26,910 y asterisco cuando la x vale 1,5 es igual a menos 1,136 por 1,5 más 3,958 igual a 2,3 173 00:19:26,910 --> 00:19:33,250 Así pues es esperado encontrar entre 2 y 3 suspensos, algo más próximo a 2 174 00:19:33,710 --> 00:19:42,650 Para calcular el tiempo diario medio de estudio que esperamos necesitar cuando se tienen tres suspensos, lo que se emplea es la recta de regresión de x sobre y. 175 00:19:43,109 --> 00:19:46,609 Calculamos x asterisco de 3, cuando y vale 3. 176 00:19:47,430 --> 00:19:54,089 Será menos 0,536 por 3 más 2,865 y eso resulta ser 1,3 horas. 177 00:19:55,069 --> 00:20:04,130 Para finalizar, al igual que en el ejemplo anterior, se nos pide que discutamos la adecuación de estos cálculos que hemos hecho a la vista del coeficiente de determinación. 178 00:20:04,710 --> 00:20:12,390 Comenzaremos calculando ese coeficiente de determinación como el cuadrado del coeficiente de correlación lineal de Pearson, que da menos 0,78. 179 00:20:13,150 --> 00:20:16,930 Al elevar al cuadrado tenemos 0,609. 180 00:20:17,490 --> 00:20:22,910 Eso quiere decir que el modelo lineal explica un 60,1% de la variabilidad de las variables. 181 00:20:22,910 --> 00:20:40,549 Si para nosotros ese 60% es suficientemente elevado, lo que diremos es que el ajuste del modelo lineal es, en este caso, relativamente adecuado, puesto que no es realmente próximo a 1, pero si para nosotros es suficientemente elevado, pues será suficientemente adecuado. 182 00:20:40,549 --> 00:20:48,930 En el aula virtual de la asignatura tenéis disponibles otros recursos y cuestionarios. 183 00:20:49,650 --> 00:20:53,750 Asimismo, tenéis más información en las fuentes bibliográficas y en la web. 184 00:20:54,589 --> 00:20:59,329 No dudéis en traer vuestras dudas e inquietudes a clase o al foro de dudas en el aula virtual. 185 00:20:59,890 --> 00:21:01,289 Un saludo y hasta pronto.