Activa JavaScript para disfrutar de los vídeos de la Mediateca.
Regresión - Contenido educativo
Ajuste de pantallaEl ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:
En el siguiente vídeo vamos a resolver el ejercicio 13 del tema de estadística bidimensional.
00:00:00
En él nos dan una tabla con datos de 10 viviendas donde nos indican el número de habitaciones de cada una de las viviendas y el número de personas que habitan en dichas viviendas.
00:00:08
En el primer apartado lo que nos piden es que calcule la recta de regresión.
00:00:21
Por tanto, voy a necesitar una serie de parámetros estadísticos que voy a calcular utilizando una hoja Excel.
00:00:25
En esta hoja Excel he copiado los datos que me venían.
00:00:35
La variable X, si queréis, voy a poner aquí, que era el número de habitaciones.
00:00:40
Y la variable Y, que era el número de personas, de habitantes.
00:00:45
Número de habitante. Bueno, vamos a poner personas para que no haya confusión. De acuerdo. Entonces, yo lo que he ido copiando los datos, una de las primeras cosas que voy a necesitar es la suma de todas las habitaciones totales y la suma de las personas totales que habitan.
00:00:50
En ese caso puedo utilizar la función suma o fijaros esta función de aquí que es autosuma. Si yo me coloco por ejemplo en esta casilla donde voy a sumar el número de habitaciones le doy autosuma y fijaos que por defecto me suma las casillas que ve al lado.
00:01:14
Las puedo seleccionar también para que no haya ninguna duda. Yo selecciono todas estas casillas que son las que voy a sumar, le doy a autosuma y ya sabe que en la siguiente casilla es donde voy a querer indicar el sumatorio total.
00:01:35
Como ya sabéis en muchos de los problemas de estadística bidimensional la fila en este caso frecuencia absoluta no aparece porque por ejemplo el dato una casa con dos habitaciones donde vive una persona pues únicamente se repite una vez.
00:01:52
Yo ya sabéis que para conseguir la n y tenerla siempre como un dato que puede variar, lo que hago es en cada una de las columnas de cada dato pongo un 1 y sumo, por ejemplo, con el autosuma, sumaría estas casillas que son 10.
00:02:09
Exactamente, el número de viviendas son 10. Por lo tanto, esta sería la n.
00:02:31
De acuerdo, vamos a necesitar para calcular la media, estos dos sumatorios, para calcular las medias marginales y para calcular la varianza, vamos a necesitar tanto la variable x al cuadrado como y al cuadrado.
00:02:36
Para eso os explico. Me coloco en esta casilla. Aquí voy a calcular el cuadrado del primer dato. Es importante, chicos, no escribir con el teclado el valor 2, sino seleccionarlo.
00:02:52
Yo ya he puesto un igual y ahora con el ratón selecciono el 2 y elevar al cuadrado, ya sabéis, tengo que utilizar este símbolo, bueno, el símbolo de elevado a 2, ¿de acuerdo?
00:03:08
Efectivamente el cuadrado de 2 es 4 y esta fórmula la puedo arrastrar a todas las demás casillas.
00:03:20
Entonces me calculará, como veis, los cuadrados de las variables x, ¿sí?
00:03:29
De la misma forma haría lo mismo con las variables y.
00:03:34
Cuando yo tengo calculados todos los cuadrados lo que puedo hacer es seleccionar las casillas que quiero sumar para calcular el sumatorio y utilizar autosuma. Aquí me ha aparecido 140 o directamente en la casilla en la que quiero sumar las casillas de al lado le doy autosuma.
00:03:38
Ah, bueno, en este caso, fijaros, aquí tengo que tener cuidado porque se ha pensado que lo que quiero sumar son las casillas de arriba. No, cuando veo que la selección ha sido errónea, pues yo misma soy la que selecciono las casillas que quiero sumar.
00:03:58
Y por último, en la última casilla, para la covarianza, voy a necesitar el producto del valor de la X por el valor de la Y.
00:04:14
Acordaros de seleccionar la casilla y no meter los datos por teclado.
00:04:25
Esta es la fórmula, la arrastro al resto de casillas y aquí utilizo la autosuma a vuelta a equivocarse,
00:04:31
pero bueno, yo hago la selección correcta y ya tengo todos los sumatorios que necesito.
00:04:39
Para calcular los parámetros estadísticos marginales de la X y de la Y voy a utilizar también la hoja Excel
00:04:47
y todos los sumatorios que aparecen en estas casillas.
00:04:55
Por ejemplo, para la media de la X yo me acuerdo de ponerlo igual porque voy a utilizar una de las fórmulas
00:04:58
y voy a dividir el sumatorio de los valores de la X, que es la casilla L1, entre el número de datos, que es la casilla L6.
00:05:05
Esta fórmula la puedo arrastrar para calcular los datos de la Y, porque como veis, el sumatorio que voy a utilizar en la Y está justo debajo del de la X.
00:05:14
Lo único que tengo que dividir también entre la misma casilla, el número de datos, la L6.
00:05:26
Para fijar esta casilla utilizo el símbolo del dólar.
00:05:32
Entonces ahora arrastro la fórmula.
00:05:38
Como veréis voy a seleccionar esta casilla y ha dividido L2, el sumatorio justo que estaba debajo,
00:05:41
del L1 que he utilizado para la X, pero ha dividido entre la misma casilla fija.
00:05:48
La había fijado por el símbolo del dólar. De esta misma forma, por ejemplo, en la varianza, yo utilizaré en la X el sumatorio de X al cuadrado, que es la casilla L3, entre el número de datos, que es la L6.
00:05:54
Esta ya voy a poner que va a ser una casilla fija, porque para la Y voy a tener que dividir entre esa misma casilla y voy a restar la media, pero fijaros, la media elijo la casilla, la B7.
00:06:10
elevado al cuadrado. Si yo esta fórmula la traspaso, bueno, la duplico en la casilla
00:06:23
de abajo, como veréis, la única casilla que, digamos, la única celda que ha quedado
00:06:32
fija es la L6, porque el sumatorio al que ha dividido es el L4, que era justamente el
00:06:40
sumatorio de las 6 al cuadrado y le he restado la casilla B8 que justamente es la media pero
00:06:46
de la Y, es justo lo que está debajo. ¿Por qué? Porque como he arrastrado la fórmula
00:06:54
abajo ha hecho lo mismo pero con las celdas de debajo y de la misma forma puedo calcular
00:06:58
la desviación típica. En la desviación típica, por cierto, la función raíz cuadrada
00:07:05
aparece también en Excel poniendo únicamente raíz y para no arrastrar, para no cometer ningún error y coger una aproximación, lo que elijo es la casilla y así no arrastro ningún error,
00:07:13
sino que Excel lo que va haciendo son los cálculos, tomando todos los decimales posibles y arrastra abajo.
00:07:30
La función de la covarianza sí que tendré que introducirla y no podría arrastrarla de ninguna de las fórmulas de arriba.
00:07:38
La covarianza es positiva, 1,3, por lo tanto estas dos variables parece que tienen una relación directa,
00:08:02
directa, es decir, a mayor número de habitaciones, mayor número de personas habitarán en la
00:08:09
vivienda. La fórmula de la recta de regresión que me piden en el apartado A, ya sabéis
00:08:15
que es y menos la media marginal de y igual a covarianza y como es la recta de regresión
00:08:23
sobre x, varianza de x por x menos la media de la x. Como tengo todos los datos calculados
00:08:32
por la hoja Excel, la recta de regresión será y menos 3,5 igual a 1,3 partido 1,04
00:08:42
por x menos 3,6. Esta recta arreglada sería la siguiente fórmula, y igual a 1,25x menos 1. Y esta será la recta de regresión que utilizaremos a partir de ahora.
00:08:54
En el apartado B nos han pedido que calculemos los coeficientes de determinación y correlación y valoremos el ajuste de la recta a la nube de puntos.
00:09:20
Mirad, la nube de puntos sería esta de aquí. Como veis, parece ser que la nube de puntos sí que se ajusta a una de las rectas. Esta recta de aquí sería justamente la que hemos calculado en el apartado A.
00:09:31
Los coeficientes que me piden son el coeficiente de determinación y el coeficiente de correlación, que en realidad uno es la raíz cuadrada del otro.
00:09:46
El coeficiente de correlación sería la covarianza al cuadrado dividida entre cada una de las varianzas.
00:10:00
En este caso lo que tendría es el 1,3 que ya había calculado al cuadrado entre el 1,04 por 2,85 y esto da un total de 0,5702.
00:10:09
El coeficiente de correlación sería la covarianza sin el cuadrado dividida entre las desviaciones típicas. En realidad coincide con la raíz del coeficiente de correlación que hemos dicho era 0,5702 y su valor va a dar aproximadamente 0,7551.
00:10:36
En este apartado me piden que yo estime cuál es el ajuste de la recta a la nube de puntos. Como el coeficiente de correlación es 0,75, aproximadamente 0,76 y redondeo, la verdad es que es un ajuste aceptable.
00:11:06
pero no indica que la correlación que existe entre la variable X e Y sea fuerte, es simplemente aceptable.
00:11:29
Sería fuerte si se aproximara a 0,9, pero con 0,75 únicamente podemos decir que la correlación es aceptable.
00:11:37
En el apartado C me piden cuál es el porcentaje de variabilidad del número de habitantes por vivienda explicado por el número de habitaciones.
00:11:46
Este porcentaje lo tengo que determinar a partir del coeficiente de determinación, r al cuadrado, el cual en el apartado B he calculado que era 0,5702.
00:11:56
Este coeficiente de determinación actúa como un tanto por uno, por tanto la variabilidad yo la puedo dar como forma de porcentaje multiplicando este coeficiente por 100.
00:12:08
En este caso la variabilidad sería 57,02%. Esta sería la variabilidad de la Y sobre la X. No es usual que me lo pidan, pero en el caso de que lo hagan ya sé que lo que necesito es el coeficiente de determinación.
00:12:19
Ahora, en el apartado D, debo recordar que la recta de regresión era Y igual a 1,25 por X menos 1.
00:12:38
Lo tengo que utilizar en el apartado D porque en el apartado D lo que me están diciendo es que yo estime cuál sería el número estimado de personas que habitan en una vivienda de tres habitaciones.
00:12:52
Si la vivienda tiene tres habitaciones, implica que la X es 3. Por lo tanto, yo voy a estimar cuánto valdría la Y utilizando la recta de regresión. Sustituyo aquí la X por 3 y lo que obtengo es 2,75 personas.
00:13:03
En la solución, por supuesto, no puedo decir que en esta vivienda se estima que vivan 2,75 personas. Sería más ajustado o más creíble decir que se estima que en esta vivienda de tres habitaciones vivan unas tres personas.
00:13:23
Aunque, por supuesto, a la hora de resolver el ejercicio tengo que indicar de dónde salen esas tres personas. Pues el 2,75 es aproximadamente 3. Espero que no haya ninguna duda y en el caso de que sí, pues ya sabéis, utilizad el foro.
00:14:03
- Idioma/s:
- Autor/es:
- MARIA JOSE GARRO CEBALLOS
- Subido por:
- Maria Jose G.
- Licencia:
- Dominio público
- Visualizaciones:
- 90
- Fecha:
- 13 de octubre de 2020 - 23:03
- Visibilidad:
- Público
- Centro:
- IES LAS ROZAS I
- Duración:
- 14′ 25″
- Relación de aspecto:
- 4:3 Hasta 2009 fue el estándar utilizado en la televisión PAL; muchas pantallas de ordenador y televisores usan este estándar, erróneamente llamado cuadrado, cuando en la realidad es rectangular o wide.
- Resolución:
- 640x480 píxeles
- Tamaño:
- 41.55 MBytes