1 00:00:00,880 --> 00:00:07,639 En el siguiente vídeo vamos a resolver el ejercicio 13 del tema de estadística bidimensional. 2 00:00:08,240 --> 00:00:20,760 En él nos dan una tabla con datos de 10 viviendas donde nos indican el número de habitaciones de cada una de las viviendas y el número de personas que habitan en dichas viviendas. 3 00:00:21,379 --> 00:00:25,460 En el primer apartado lo que nos piden es que calcule la recta de regresión. 4 00:00:25,460 --> 00:00:33,579 Por tanto, voy a necesitar una serie de parámetros estadísticos que voy a calcular utilizando una hoja Excel. 5 00:00:35,219 --> 00:00:39,240 En esta hoja Excel he copiado los datos que me venían. 6 00:00:40,179 --> 00:00:43,840 La variable X, si queréis, voy a poner aquí, que era el número de habitaciones. 7 00:00:45,520 --> 00:00:50,359 Y la variable Y, que era el número de personas, de habitantes. 8 00:00:50,359 --> 00:01:14,700 Número de habitante. Bueno, vamos a poner personas para que no haya confusión. De acuerdo. Entonces, yo lo que he ido copiando los datos, una de las primeras cosas que voy a necesitar es la suma de todas las habitaciones totales y la suma de las personas totales que habitan. 9 00:01:14,700 --> 00:01:35,680 En ese caso puedo utilizar la función suma o fijaros esta función de aquí que es autosuma. Si yo me coloco por ejemplo en esta casilla donde voy a sumar el número de habitaciones le doy autosuma y fijaos que por defecto me suma las casillas que ve al lado. 10 00:01:35,680 --> 00:01:52,659 Las puedo seleccionar también para que no haya ninguna duda. Yo selecciono todas estas casillas que son las que voy a sumar, le doy a autosuma y ya sabe que en la siguiente casilla es donde voy a querer indicar el sumatorio total. 11 00:01:52,659 --> 00:02:09,639 Como ya sabéis en muchos de los problemas de estadística bidimensional la fila en este caso frecuencia absoluta no aparece porque por ejemplo el dato una casa con dos habitaciones donde vive una persona pues únicamente se repite una vez. 12 00:02:09,639 --> 00:02:31,139 Yo ya sabéis que para conseguir la n y tenerla siempre como un dato que puede variar, lo que hago es en cada una de las columnas de cada dato pongo un 1 y sumo, por ejemplo, con el autosuma, sumaría estas casillas que son 10. 13 00:02:31,740 --> 00:02:36,180 Exactamente, el número de viviendas son 10. Por lo tanto, esta sería la n. 14 00:02:36,180 --> 00:02:52,060 De acuerdo, vamos a necesitar para calcular la media, estos dos sumatorios, para calcular las medias marginales y para calcular la varianza, vamos a necesitar tanto la variable x al cuadrado como y al cuadrado. 15 00:02:52,060 --> 00:03:08,539 Para eso os explico. Me coloco en esta casilla. Aquí voy a calcular el cuadrado del primer dato. Es importante, chicos, no escribir con el teclado el valor 2, sino seleccionarlo. 16 00:03:08,539 --> 00:03:18,979 Yo ya he puesto un igual y ahora con el ratón selecciono el 2 y elevar al cuadrado, ya sabéis, tengo que utilizar este símbolo, bueno, el símbolo de elevado a 2, ¿de acuerdo? 17 00:03:20,659 --> 00:03:28,599 Efectivamente el cuadrado de 2 es 4 y esta fórmula la puedo arrastrar a todas las demás casillas. 18 00:03:29,120 --> 00:03:33,699 Entonces me calculará, como veis, los cuadrados de las variables x, ¿sí? 19 00:03:34,219 --> 00:03:37,479 De la misma forma haría lo mismo con las variables y. 20 00:03:38,539 --> 00:03:58,479 Cuando yo tengo calculados todos los cuadrados lo que puedo hacer es seleccionar las casillas que quiero sumar para calcular el sumatorio y utilizar autosuma. Aquí me ha aparecido 140 o directamente en la casilla en la que quiero sumar las casillas de al lado le doy autosuma. 21 00:03:58,479 --> 00:04:14,199 Ah, bueno, en este caso, fijaros, aquí tengo que tener cuidado porque se ha pensado que lo que quiero sumar son las casillas de arriba. No, cuando veo que la selección ha sido errónea, pues yo misma soy la que selecciono las casillas que quiero sumar. 22 00:04:14,199 --> 00:04:25,720 Y por último, en la última casilla, para la covarianza, voy a necesitar el producto del valor de la X por el valor de la Y. 23 00:04:25,939 --> 00:04:30,379 Acordaros de seleccionar la casilla y no meter los datos por teclado. 24 00:04:31,519 --> 00:04:39,899 Esta es la fórmula, la arrastro al resto de casillas y aquí utilizo la autosuma a vuelta a equivocarse, 25 00:04:39,899 --> 00:04:44,680 pero bueno, yo hago la selección correcta y ya tengo todos los sumatorios que necesito. 26 00:04:47,449 --> 00:04:55,069 Para calcular los parámetros estadísticos marginales de la X y de la Y voy a utilizar también la hoja Excel 27 00:04:55,069 --> 00:04:58,110 y todos los sumatorios que aparecen en estas casillas. 28 00:04:58,589 --> 00:05:05,329 Por ejemplo, para la media de la X yo me acuerdo de ponerlo igual porque voy a utilizar una de las fórmulas 29 00:05:05,329 --> 00:05:13,550 y voy a dividir el sumatorio de los valores de la X, que es la casilla L1, entre el número de datos, que es la casilla L6. 30 00:05:14,350 --> 00:05:25,910 Esta fórmula la puedo arrastrar para calcular los datos de la Y, porque como veis, el sumatorio que voy a utilizar en la Y está justo debajo del de la X. 31 00:05:26,850 --> 00:05:32,069 Lo único que tengo que dividir también entre la misma casilla, el número de datos, la L6. 32 00:05:32,509 --> 00:05:35,949 Para fijar esta casilla utilizo el símbolo del dólar. 33 00:05:38,009 --> 00:05:40,230 Entonces ahora arrastro la fórmula. 34 00:05:41,750 --> 00:05:48,089 Como veréis voy a seleccionar esta casilla y ha dividido L2, el sumatorio justo que estaba debajo, 35 00:05:48,089 --> 00:05:54,029 del L1 que he utilizado para la X, pero ha dividido entre la misma casilla fija. 36 00:05:54,029 --> 00:06:10,389 La había fijado por el símbolo del dólar. De esta misma forma, por ejemplo, en la varianza, yo utilizaré en la X el sumatorio de X al cuadrado, que es la casilla L3, entre el número de datos, que es la L6. 37 00:06:10,709 --> 00:06:23,550 Esta ya voy a poner que va a ser una casilla fija, porque para la Y voy a tener que dividir entre esa misma casilla y voy a restar la media, pero fijaros, la media elijo la casilla, la B7. 38 00:06:23,550 --> 00:06:32,990 elevado al cuadrado. Si yo esta fórmula la traspaso, bueno, la duplico en la casilla 39 00:06:32,990 --> 00:06:40,410 de abajo, como veréis, la única casilla que, digamos, la única celda que ha quedado 40 00:06:40,410 --> 00:06:46,490 fija es la L6, porque el sumatorio al que ha dividido es el L4, que era justamente el 41 00:06:46,490 --> 00:06:54,310 sumatorio de las 6 al cuadrado y le he restado la casilla B8 que justamente es la media pero 42 00:06:54,310 --> 00:06:58,790 de la Y, es justo lo que está debajo. ¿Por qué? Porque como he arrastrado la fórmula 43 00:06:58,790 --> 00:07:05,410 abajo ha hecho lo mismo pero con las celdas de debajo y de la misma forma puedo calcular 44 00:07:05,410 --> 00:07:13,610 la desviación típica. En la desviación típica, por cierto, la función raíz cuadrada 45 00:07:13,610 --> 00:07:30,069 aparece también en Excel poniendo únicamente raíz y para no arrastrar, para no cometer ningún error y coger una aproximación, lo que elijo es la casilla y así no arrastro ningún error, 46 00:07:30,069 --> 00:07:37,850 sino que Excel lo que va haciendo son los cálculos, tomando todos los decimales posibles y arrastra abajo. 47 00:07:38,410 --> 00:07:47,709 La función de la covarianza sí que tendré que introducirla y no podría arrastrarla de ninguna de las fórmulas de arriba. 48 00:08:02,110 --> 00:08:09,670 La covarianza es positiva, 1,3, por lo tanto estas dos variables parece que tienen una relación directa, 49 00:08:09,670 --> 00:08:15,750 directa, es decir, a mayor número de habitaciones, mayor número de personas habitarán en la 50 00:08:15,750 --> 00:08:23,810 vivienda. La fórmula de la recta de regresión que me piden en el apartado A, ya sabéis 51 00:08:23,810 --> 00:08:32,809 que es y menos la media marginal de y igual a covarianza y como es la recta de regresión 52 00:08:32,809 --> 00:08:42,210 sobre x, varianza de x por x menos la media de la x. Como tengo todos los datos calculados 53 00:08:42,210 --> 00:08:54,450 por la hoja Excel, la recta de regresión será y menos 3,5 igual a 1,3 partido 1,04 54 00:08:54,450 --> 00:09:20,480 por x menos 3,6. Esta recta arreglada sería la siguiente fórmula, y igual a 1,25x menos 1. Y esta será la recta de regresión que utilizaremos a partir de ahora. 55 00:09:20,480 --> 00:09:30,299 En el apartado B nos han pedido que calculemos los coeficientes de determinación y correlación y valoremos el ajuste de la recta a la nube de puntos. 56 00:09:31,000 --> 00:09:46,220 Mirad, la nube de puntos sería esta de aquí. Como veis, parece ser que la nube de puntos sí que se ajusta a una de las rectas. Esta recta de aquí sería justamente la que hemos calculado en el apartado A. 57 00:09:46,220 --> 00:09:59,759 Los coeficientes que me piden son el coeficiente de determinación y el coeficiente de correlación, que en realidad uno es la raíz cuadrada del otro. 58 00:10:00,500 --> 00:10:09,620 El coeficiente de correlación sería la covarianza al cuadrado dividida entre cada una de las varianzas. 59 00:10:09,620 --> 00:10:36,700 En este caso lo que tendría es el 1,3 que ya había calculado al cuadrado entre el 1,04 por 2,85 y esto da un total de 0,5702. 60 00:10:36,700 --> 00:11:05,779 El coeficiente de correlación sería la covarianza sin el cuadrado dividida entre las desviaciones típicas. En realidad coincide con la raíz del coeficiente de correlación que hemos dicho era 0,5702 y su valor va a dar aproximadamente 0,7551. 61 00:11:06,700 --> 00:11:29,100 En este apartado me piden que yo estime cuál es el ajuste de la recta a la nube de puntos. Como el coeficiente de correlación es 0,75, aproximadamente 0,76 y redondeo, la verdad es que es un ajuste aceptable. 62 00:11:29,100 --> 00:11:36,539 pero no indica que la correlación que existe entre la variable X e Y sea fuerte, es simplemente aceptable. 63 00:11:37,320 --> 00:11:45,980 Sería fuerte si se aproximara a 0,9, pero con 0,75 únicamente podemos decir que la correlación es aceptable. 64 00:11:46,700 --> 00:11:56,139 En el apartado C me piden cuál es el porcentaje de variabilidad del número de habitantes por vivienda explicado por el número de habitaciones. 65 00:11:56,139 --> 00:12:08,519 Este porcentaje lo tengo que determinar a partir del coeficiente de determinación, r al cuadrado, el cual en el apartado B he calculado que era 0,5702. 66 00:12:08,940 --> 00:12:19,919 Este coeficiente de determinación actúa como un tanto por uno, por tanto la variabilidad yo la puedo dar como forma de porcentaje multiplicando este coeficiente por 100. 67 00:12:19,919 --> 00:12:38,080 En este caso la variabilidad sería 57,02%. Esta sería la variabilidad de la Y sobre la X. No es usual que me lo pidan, pero en el caso de que lo hagan ya sé que lo que necesito es el coeficiente de determinación. 68 00:12:38,080 --> 00:12:51,940 Ahora, en el apartado D, debo recordar que la recta de regresión era Y igual a 1,25 por X menos 1. 69 00:12:52,240 --> 00:13:03,860 Lo tengo que utilizar en el apartado D porque en el apartado D lo que me están diciendo es que yo estime cuál sería el número estimado de personas que habitan en una vivienda de tres habitaciones. 70 00:13:03,860 --> 00:13:23,100 Si la vivienda tiene tres habitaciones, implica que la X es 3. Por lo tanto, yo voy a estimar cuánto valdría la Y utilizando la recta de regresión. Sustituyo aquí la X por 3 y lo que obtengo es 2,75 personas. 71 00:13:23,100 --> 00:14:03,039 En la solución, por supuesto, no puedo decir que en esta vivienda se estima que vivan 2,75 personas. Sería más ajustado o más creíble decir que se estima que en esta vivienda de tres habitaciones vivan unas tres personas. 72 00:14:03,039 --> 00:14:22,480 Aunque, por supuesto, a la hora de resolver el ejercicio tengo que indicar de dónde salen esas tres personas. Pues el 2,75 es aproximadamente 3. Espero que no haya ninguna duda y en el caso de que sí, pues ya sabéis, utilizad el foro.