Activa JavaScript para disfrutar de los vídeos de la Mediateca.
ES2. 8 Regresión. Ejercicios 13 y 14 resueltos - Contenido educativo
Ajuste de pantallaEl ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:
Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES
00:00:05
arquitecto Pedro Gumiel de Alcalá de Henares y os doy la bienvenida a esta serie de videoclases
00:00:21
de la unidad ES2 dedicada a la estadística bivariante. En la videoclase de hoy estudiaremos
00:00:25
la regresión. Vamos a finalizar esta unidad con el estudio de la regresión. Ahora ya buscamos
00:00:37
no describir los datos que hemos obtenido sino hacer predicciones y para ello vamos a utilizar
00:00:52
un modelo de regresión con el que vamos a determinar una expresión algebraica, una función con la cual
00:00:58
vamos a poder ajustar o vamos a pretender ajustar de la forma más exacta posible la nube de puntos
00:01:04
y vamos a utilizar esa expresión algebraica para con los valores de una variable determinar de una
00:01:09
forma aproximada en el caso de una dependencia estocástica los valores de la otra. Dependiendo
00:01:16
el tipo de función que vayamos a utilizar, tendremos distintos tipos de regresión. Los más
00:01:22
comunes son modelos lineales, cuadráticos, exponenciales y logarítmicos, en los cuales la
00:01:27
función de ajuste va a ser respectivamente una recta, una parábola, una función exponencial y
00:01:33
una función logarítmica. En función de cómo se mida que la función ajuste de la mejor forma o de
00:01:38
la forma más exacta posible los datos de que disponemos, tendremos distintos tipos de regresión.
00:01:45
No hablamos ya del modelo matemático, sino del tipo de regresión.
00:01:51
Nosotros lo que vamos a discutir aquí es la más utilizada, el método de mínimos cuadrados,
00:01:56
en el que lo que vamos a buscar es minimizar, como veis aquí, la suma de los cuadrados,
00:02:00
de las diferencias entre los valores que predice la función y los valores reales, los valores que tenemos en la tabla de frecuencias.
00:02:06
En el estudio de la distribución conjunta vamos a poder determinar dos sistemas de regresión.
00:02:14
La regresión de y sobre x, que se representa de esta manera, nos va a permitir calcular valores de y en función de los de x.
00:02:21
Y la regresión de x sobre y nos va a permitir calcular los valores de x en función de los valores de y.
00:02:30
Con el método de mínimos cuadrados hacemos asunciones distintas para ambos tipos de regresión.
00:02:39
En el caso de la regresión de y sobre x se considera por hipótesis que los valores de x se determinan de una forma exacta y que toda la variabilidad que podemos ver en la nube de puntos o en el diagrama de burbujas se debe a la variable y.
00:02:45
griega. En el caso de la regresión de x sobre y es al revés. Lo que hacemos es considerar que los
00:03:01
valores de y se miden de una forma exacta y que toda la variabilidad en la nube de puntos o en
00:03:08
el diagrama de burbujas se debe a la variable x. Por esta razón, cuando estamos utilizando el
00:03:13
método de mínimos cuadrados, hemos de tener cuidado en cuál es la expresión de la función
00:03:19
de ajuste que utilizamos. Si nosotros tenemos la función de regresión de y sobre x, es para
00:03:24
calcular valores de y en función de x. Esa función será invertible y podremos utilizarla para calcular
00:03:30
valores de x en función de y, pero no es lícito puesto que la asunción básica en el modelo de
00:03:37
mínimos cuadrados es distinta. Si queremos calcular valores de x en función de los de y, no podremos
00:03:44
nunca utilizar la regresión de y sobre x invertida, sino que habremos de calcular necesariamente la
00:03:50
regresión de x sobre y. Cada recta de regresión, en el caso del método de regresión lineal o cada
00:03:55
función de regresión, debe utilizarse exclusivamente para el fin para el que se determina y hay que
00:04:01
tener cuidado. El modelo de regresión que nosotros vamos a estudiar es el de regresión lineal por el
00:04:07
método de mínimos cuadrados. En este caso vamos a poder determinar cómo de buenos el ajuste, cómo
00:04:13
se ajustan los valores predichos mediante las rectas de regresión y los valores reales
00:04:19
observados que tiene la tabla de frecuencia, lo que se llama la bondad del ajuste, utilizando
00:04:26
el denominado coeficiente de determinación r mayúscula al cuadrado, que en este caso
00:04:30
se va a calcular a partir del coeficiente de correlación lineal de Pearson como su
00:04:35
cuadrado. Y aquí vemos coeficiente de determinación r mayúscula al cuadrado igual al cuadrado
00:04:39
del coeficiente de correlación lineal. Puesto que el coeficiente de correlación está acotado
00:04:44
tomando valores entre menos 1 y 1 al elevar al cuadrado, el coeficiente de determinación también
00:04:50
va a estar acotado pero tomando valores entre 0 y 1. Y este coeficiente de determinación lo que
00:04:55
representa es la fracción de la variabilidad de la nube de puntos o del diagrama de burbujas que
00:05:01
es explicada por el modelo de regresión lineal. Cuanto mayor sea r más próximo a 1 la variabilidad
00:05:08
que nosotros observamos en los datos se ajusta tanto mejor con el modelo de regresión lineal
00:05:15
y cuanto más próximo a 0 tanto peor. Tenemos los extremos r cuadrado igual a 0 o próximo a 0 en
00:05:21
cuyo caso las variables son independientes o bien puede ser que existe una relación de dependencia
00:05:27
que no sea lineal, puesto que r al cuadrado es únicamente para relaciones lineales. En el caso
00:05:32
en el que r al cuadrado sea 1, toda la variación es explicada por el modelo lineal. Lo que tenemos
00:05:38
es una relación de dependencia funcional lineal. Y en el caso en el que r al cuadrado tome valores
00:05:43
arbitrarios entre 0 y 1, el modelo lineal, como decía antes, va a ser tanto mejor cuanto más
00:05:49
próximo sea el coeficiente de determinación a 1. ¿Cómo de alto debe ser r cuadrado para considerar
00:05:55
que el modelo lineal es suficientemente bueno? Va a depender de la naturaleza de los datos con los
00:06:03
que estemos trabajando y también de cuál sea el ámbito dentro del cual estemos haciendo el estudio.
00:06:10
Habitualmente cuando estamos haciendo un estudio de esta naturaleza dentro del ámbito de las
00:06:17
ciencias naturales, física, química, matemáticas, etcétera, lo que buscamos son valores de
00:06:22
recuadrado realmente próximos a 1 y por esto quiero decir valores 0,99, 0,999 de ese estilo.
00:06:28
En el caso en el que tenemos datos con una dispersión por su propia naturaleza mayor y
00:06:36
estamos haciendo un estudio sociológico o un estudio de poblaciones, en ciertas ocasiones
00:06:41
un valor de r cuadrado próximo a 0,6 ya va a ser suficientemente bueno. Como os decía dependiendo
00:06:47
de la naturaleza de los datos y dependiendo sobre todo de naturaleza del estudio necesitaremos para
00:06:53
decidir que el estudio que el modelo en lineal es suficientemente bueno una aproximación a 1 mayor
00:06:59
o ligeramente menor. Aquí os presento los modelos de regresión lineal por el método de mínimos
00:07:05
cuadrados de y sobre x para calcular y en función de x y de x sobre y para calcular x en función de
00:07:12
y. En este caso de la regresión de y sobre x el modelo de regresión es y predicho que es lo que
00:07:21
significa este asterisco igual a la pendiente de la recta m del modelo de regresión de y sobre x
00:07:28
por x más la ordenada en el origen n del modelo de regresión de y sobre x. Vamos a comparar con
00:07:35
el modelo de regresión de x sobre y. Aquí lo que tenemos es x, valor predicho, de ahí el asterisco,
00:07:42
igual a la pendiente de este modelo de x sobre y por y más la ordenada en el origen de este modelo,
00:07:48
la regresión de x sobre y. Estos parámetros m y n de y sobre x o de x sobre y, conforme al método
00:07:56
mínimos cuadrados, se calculan de la siguiente manera. La pendiente de la regresión de y sobre
00:08:03
x es la covarianza dividido entre la varianza marginal de x. Y, análogamente, la pendiente
00:08:08
en el modelo de regresión de x sobre y se calcula como la covarianza dividido entre
00:08:16
la varianza marginal de y. Fijaos que el que tengo aquí, condicionando, es la varianza
00:08:22
que tengo dividiendo. Las unidades de la pendiente se calcularán a partir de las unidades de
00:08:28
la covarianza y de la correspondiente varianza marginal. En cuanto a la ordenada en el origen se
00:08:34
van a calcular con estas expresiones. La ordenada del origen del modelo de y sobre x es o se calcula
00:08:41
como la media marginal de y menos la pendiente del modelo por la media marginal de x de forma
00:08:48
análoga a la regresión de x sobre y. En este caso se calculará como la media marginal de x menos la
00:08:53
pendiente del modelo por la media marginal de y. Las unidades dependerán de cuál sea el modelo de
00:08:59
regresión que estemos utilizando. Una característica de ambas rectas de regresión es que se van a
00:09:04
cortar en un único punto. Ambas rectas tienen en común el centro de gravedad de la distribución,
00:09:11
de tal forma que ambas rectas van a pasar por el punto x media y media, x marginal, x media marginal
00:09:17
y media marginal. Como primer ejemplo se nos pide que consideremos el estudio conjunto anterior del
00:09:24
consumo de combustible y la distancia recorrida por un cierto vehículo. En primer lugar se nos
00:09:32
pide que determinemos las ecuaciones de las rectas de regresión para determinar el volumen de
00:09:37
combustible en función de la distancia recorrida y viceversa. El volumen de combustible era la
00:09:42
variable y así que para determinar el volumen de combustible en función de la distancia recorrida
00:09:48
que era x lo que tenemos que hacer es calcular la recta de regresión de y sobre x. Vamos a calcular
00:09:53
la pendiente como la covarianza dividido entre la varianza marginal de x y vemos que obtenemos
00:10:00
el valor 0,066 litro partido por kilómetro y la ordenada en el origen como la media marginal de
00:10:06
y menos la media perdón la pendiente que acabamos de calcular en este modelo por la media marginal
00:10:13
de x y vemos que obtenemos el valor 0,158 litros. Consecuentemente la ecuación de regresión para
00:10:18
calcular y, y asterisco porque son valores predichos, será igual a 0,066 por x más 0,158
00:10:26
y obtendremos los valores de y predichos en litros como corresponde si ponemos los valores de x en
00:10:35
kilómetros como corresponde. Esto en cuanto a la determinación del volumen de combustible en
00:10:42
función de la distancia recorrida. Si queremos obtener la recta regresión para hacer predicciones
00:10:48
es en sentido contrario, la distancia recorrida en función del volumen de combustible, no podemos
00:10:53
invertir este modelo sino que debemos calcular de nuevo el modelo de regresión, en este caso,
00:10:59
como vemos aquí, de x sobre y. La pendiente del modelo de regresión se calcula como la covarianza
00:11:04
entre la varianza marginal de y, vemos que obtenemos el valor 14,908 kilómetros partido por litro,
00:11:10
y la ordenada en el origen como la media marginal de x menos la pendiente del modelo de regresión
00:11:18
por la media marginal de y y obtenemos el valor de menos 0,629 kilómetros. Entonces la ecuación
00:11:24
de la recta de regresión de x sobre y será x asterisco puesto que se trata de un valor predicho
00:11:32
igual a 14,908 por x menos 0,629 y obtendremos x los valores predichos en kilómetros como debe ser
00:11:38
si introducimos y en litros también como debe ser. A continuación se nos pide que representemos las
00:11:47
dos rectas de regresión y sobre x y x sobre y sobre el diagrama de dispersión de la distribución
00:11:55
conjunta para poder comparar. Ese es el diagrama que tenemos aquí. Tenemos la nube de puntos, los
00:12:00
cuadrados azules que hemos pintado en una de las videoclases anteriores y tenemos en naranja oscuro
00:12:07
La recta de regresión de y sobre x y en naranja claro, la recta de regresión de x sobre y.
00:12:12
Y podemos ver cómo, en primer lugar, ambas rectas se aproximan muy bien a los datos de que disponemos
00:12:19
y también vemos que ambas rectas casi se superponen.
00:12:24
Esto va a ser una característica, el hecho de que se superpongan,
00:12:29
es una característica típica de distribuciones con una relación de dependencia,
00:12:32
con una correlación muy fuerte, casi funcional.
00:12:37
vemos como en los extremos las dos rectas se separan y es que realmente no son completamente una encima de la otra
00:12:40
y el punto donde ambas se superponen, el punto de corte, debería ser el centro de gravedad de la distribución conjunta
00:12:49
con x igual a 100 km, y la media de x 100 km y la media de y 6,8 litros, el punto que estaría más o menos por aquí
00:12:57
A continuación, se nos pide que calculemos cuál es el volumen de combustible consumido que esperamos consumir cuando se recorre una distancia de 32 km.
00:13:09
Y también se nos pide que calculemos la distancia recorrida que esperamos recorrer al consumirse un volumen de 24 litros de combustible.
00:13:19
En cada uno de los casos tenemos que utilizar la recta de regresión correspondiente.
00:13:26
Para calcular el volumen en función de la distancia, tenemos que utilizar la recta de regresión de y sobre x.
00:13:31
Vamos a calcular el volumen de combustible que esperamos, es un valor calculado, un valor predicho, por eso le ponemos un asterisco, cuando recorremos una distancia de 32 km.
00:13:38
Calculamos y de 32, 0,066 por 32 más 0,158, esperamos consumir un volumen de 2,27 litros.
00:13:49
En el caso en el que queremos calcular la distancia que esperamos recorrer cuando consumimos un volumen de 24 litros,
00:14:00
hemos de utilizar la otra recta de regresión, la que tenemos para x asterisco, su valor predicho.
00:14:07
Y en este caso sustituimos el valor de y que es igual a 24 litros.
00:14:12
x de 24 será 14,908 por 24 menos 0,629 y obtenemos el valor de 357,16 kilómetros.
00:14:16
para finalizar este ejercicio se nos pide que discutamos cuál es la adecuación de los cálculos
00:14:25
anteriores a la vista del coeficiente de determinación así que empezaremos calculando
00:14:32
el coeficiente de determinación r mayúscula cuadrado como el cuadrado del coeficiente de
00:14:37
correlación 0,991 que hemos calculado al cuadrado resulta ser 0,983 este valor indica que el modelo
00:14:42
lineal que hemos utilizado para hacer estas dos predicciones explica un 98,3% de la variabilidad
00:14:52
de las variables, un valor realmente significativo y entonces el ajuste del modelo lineal es adecuado
00:14:58
y estas dos predicciones que hemos hecho son correctas y las ecuaciones, ya que estamos las
00:15:05
ecuaciones del modelo de regresión, son adecuadas. Hemos hecho los cálculos en el orden en el que se
00:15:10
nos ha pedido pero quisiera aprovechar para indicar que en realidad antes de calcular siquiera los
00:15:16
modelos de regresión habríamos de empezar calculando el coeficiente de determinación pues si r cuadrado
00:15:22
no toma un valor suficientemente elevado en ese caso las rectas de regresión que estamos calculando
00:15:28
no son útiles y estos valores que calcularíamos con las rectas de regresión no son significativos
00:15:34
así pues nosotros habitualmente calcularemos en primer lugar el coeficiente de determinación y
00:15:40
solamente haremos el resto de cálculos si decidimos que esos valores, el valor del coeficiente de
00:15:46
determinación, es suficientemente alto. En el siguiente ejemplo se nos pide que hagamos algo
00:15:51
análogo en el estudio anterior conjunto del número de suspensos en una cierta evaluación y el tiempo
00:15:58
diario medio de estudio. Vamos a comenzar determinando las rectas de regresión para
00:16:03
calcular el número de suspensos en función del tiempo diario medio de estudio, sería la regresión
00:16:09
de y sobre x y posteriormente para determinar el tiempo diario medio de estudio en función
00:16:14
del número de suspensos, la regresión de x sobre y. En la regresión de y sobre x calculamos
00:16:20
en primer lugar la pendiente como la covarianza dividido entre la varianza marginal de las
00:16:26
x, vemos que obtenemos el valor menos 1,136 horas a la menos 1 y la ordenada en el origen
00:16:32
del modelo de regresión de y sobre x como la media marginal de y menos la pendiente del modelo por la
00:16:39
media marginal de x y obtenemos el valor 3,958. Así pues, en el modelo de regresión lineal será
00:16:46
y valor predicho y asterisco igual a menos 1,136 por x más 3,958 y al dimensional cuando pongamos
00:16:53
x en horas. Aquí tenemos los cálculos para la regresión de x sobre y para determinar el tiempo
00:17:03
diario medio de estudio en función del número de suspensos. La pendiente se calcula como la
00:17:12
covarianza entre la varianza marginal de las y, vemos el valor menos 0,536 horas y la ordenada
00:17:17
en el origen como la media marginal de x menos la pendiente del modelo por la media marginal de y
00:17:24
Y obtenemos el valor de 2,865 horas.
00:17:30
Consecuentemente, la recta de regresión será x asterisco, puesto que estamos determinando valores predichos, con la función igual a menos 0,536 por x más 2,865.
00:17:34
Y tendremos x asterisco en horas si y es adimensional, cuando introduzcamos y sin unidades.
00:17:49
También se nos pide, como en el caso anterior, que representemos sobre el diagrama de burbujas las rectas de regresión.
00:17:56
Y aquí tenemos en azul los círculos que corresponden con las burbujas, en color anaranjado oscuro la recta de regresión de y sobre x y en color anaranjado claro la recta de regresión de x sobre y.
00:18:03
Podemos ver cómo las rectas no coinciden, no se superponen, esto es algo característico de las distribuciones en las cuales la correlación no es excesivamente fuerte, se separan, y ambas se cortan en un único punto que va a ser el centro de gravedad de la distribución.
00:18:17
En este caso la media marginal de x era 1,90 horas y la media marginal de y era 1,80 y aquí tenemos ese punto.
00:18:35
A continuación, se nos pide que utilicemos las rectas de regresión para calcular el número esperado de suspensos cuando se estudia un tiempo diario medio de 1,5 horas
00:18:45
y también el tiempo esperado medio de estudio que esperamos cuando se tienen tres suspensos.
00:18:55
Para cada uno de estos cálculos tenemos que hacer uso de la recta de regresión correspondiente.
00:19:04
Para calcular el número de suspensos esperado estudiando un tiempo medio diario de 1,5 horas
00:19:08
utilizamos la recta de regresión de y sobre x
00:19:14
y asterisco cuando la x vale 1,5 es igual a menos 1,136 por 1,5 más 3,958 igual a 2,3
00:19:17
Así pues es esperado encontrar entre 2 y 3 suspensos, algo más próximo a 2
00:19:26
Para calcular el tiempo diario medio de estudio que esperamos necesitar cuando se tienen tres suspensos, lo que se emplea es la recta de regresión de x sobre y.
00:19:33
Calculamos x asterisco de 3, cuando y vale 3.
00:19:43
Será menos 0,536 por 3 más 2,865 y eso resulta ser 1,3 horas.
00:19:47
Para finalizar, al igual que en el ejemplo anterior, se nos pide que discutamos la adecuación de estos cálculos que hemos hecho a la vista del coeficiente de determinación.
00:19:55
Comenzaremos calculando ese coeficiente de determinación como el cuadrado del coeficiente de correlación lineal de Pearson, que da menos 0,78.
00:20:04
Al elevar al cuadrado tenemos 0,609.
00:20:13
Eso quiere decir que el modelo lineal explica un 60,1% de la variabilidad de las variables.
00:20:17
Si para nosotros ese 60% es suficientemente elevado, lo que diremos es que el ajuste del modelo lineal es, en este caso, relativamente adecuado, puesto que no es realmente próximo a 1, pero si para nosotros es suficientemente elevado, pues será suficientemente adecuado.
00:20:22
En el aula virtual de la asignatura tenéis disponibles otros recursos y cuestionarios.
00:20:40
Asimismo, tenéis más información en las fuentes bibliográficas y en la web.
00:20:49
No dudéis en traer vuestras dudas e inquietudes a clase o al foro de dudas en el aula virtual.
00:20:54
Un saludo y hasta pronto.
00:20:59
- Idioma/s:
- Materias:
- Matemáticas
- Etiquetas:
- Flipped Classroom
- Niveles educativos:
- ▼ Mostrar / ocultar niveles
- Bachillerato
- Primer Curso
- Autor/es:
- Raúl Corraliza Nieto
- Subido por:
- Raúl C.
- Licencia:
- Reconocimiento - No comercial - Sin obra derivada
- Visualizaciones:
- 4
- Fecha:
- 17 de noviembre de 2025 - 11:46
- Visibilidad:
- Público
- Centro:
- IES ARQUITECTO PEDRO GUMIEL
- Duración:
- 21′ 27″
- Relación de aspecto:
- 1.78:1
- Resolución:
- 1280x720 píxeles
- Tamaño:
- 54.67 MBytes