1 00:00:00,000 --> 00:00:08,900 Hola, este vídeo sirve para ayudaros a realizar la segunda parte del trabajo de estadística que es sobre estadística bidimensional. 2 00:00:09,320 --> 00:00:14,839 Básicamente vamos a estudiar cómo de correladas están las dos variables que hemos elegido. 3 00:00:15,019 --> 00:00:18,379 ¿Qué significa correlación o que dos variables estén correladas? 4 00:00:18,519 --> 00:00:22,219 Cómo de relacionadas están y cómo influye una en la otra. 5 00:00:22,359 --> 00:00:27,500 Por ejemplo, eso lo habéis estado utilizando desde que sois pequeñitos en las reglas de 3. 6 00:00:27,500 --> 00:00:38,140 Entonces, si una variable aumenta, la otra aumenta, si una aumenta, la otra disminuye, estamos diciendo que esas dos variables actúan la una sobre la otra, son dependientes. 7 00:00:38,600 --> 00:00:49,719 Entonces, en estadística bidimensional utilizamos herramientas que nos permiten de forma objetiva saber si dos variables están relacionadas o no tienen absolutamente nada que ver, 8 00:00:49,719 --> 00:00:58,299 y van cada uno por su lado y en qué confianza tenemos nosotros de que eso sea así. 9 00:00:58,479 --> 00:01:05,799 Entonces, lo que vamos a hacer es simplemente calcularlo con el programita, con el libro fiscal, 10 00:01:06,400 --> 00:01:15,079 pero aprenderéis a calcularlo vosotros a mano en cursos superiores, en bachillerato y o en la universidad. 11 00:01:15,079 --> 00:01:25,519 Entonces, nuestro punto de partida, ¿cuál es? El trabajo de estadística unidimensional, la hoja de cálculo que ya hemos tenido que realizar con nuestros datos. 12 00:01:27,239 --> 00:01:40,980 Bien, pues partiendo de la hoja de cálculo que tengo ya de estadística unidimensional, voy a trabajar para calcular lo que me piden de estadística bidimensional. 13 00:01:40,980 --> 00:01:46,560 Recordad que esto lo tenéis que hacer para la comparación de países y para la evolución temporal 14 00:01:46,560 --> 00:01:53,159 Lo primero que voy a hacer es crearme otra hoja para trabajar mejor con las dos variables 15 00:01:53,159 --> 00:01:58,939 Entonces inserto una nueva hoja, detrás de la hoja actual 16 00:01:58,939 --> 00:02:02,760 Y la llamo correlation 17 00:02:02,760 --> 00:02:08,860 Entonces vamos a copiarnos estas dos columnas 18 00:02:08,860 --> 00:02:19,500 Vamos a pegar aquí, control copy, control y, estoy haciendo, o sea, control c y control v, para los que no sepáis tanto inglés. 19 00:02:22,919 --> 00:02:28,180 Y nada, ya tenemos nuestros datos copiados y ya podemos empezar a trabajar. 20 00:02:30,590 --> 00:02:35,389 Bien, lo primero que vamos a hacer es calcular el coeficiente de correlación. ¿Y qué es eso? 21 00:02:35,389 --> 00:02:47,689 Bueno, la correlación indica cómo depende una variable una de otra y el coeficiente de relación lo que hace es medir esa dependencia, cómo desrelacionadas están. 22 00:02:47,689 --> 00:02:58,669 Por si estáis en cuarto más empresa y os perdéis esa parte cuando la demos en clase, voy a coger un poquillo el libro y nada, os cuento un poco. 23 00:02:58,669 --> 00:03:09,509 Mirad, el coeficiente de correlación, aquí tenéis varias gráficas, las que podéis ver diferentes series de datos con diferentes coeficientes de correlación. 24 00:03:09,870 --> 00:03:14,710 Los puntitos rojos son, es lo que se conoce como un diagrama de dispersión, ¿vale? 25 00:03:14,710 --> 00:03:19,050 Estamos representando una variable frente a la otra y los puntitos de nuestros datos. 26 00:03:19,849 --> 00:03:25,449 Veis también una recta, eso es lo que se llama línea de regresión o recta de tendencia, ¿vale? 27 00:03:25,449 --> 00:03:30,590 minimiza el error o la distancia de la recta hacia todos esos puntos. 28 00:03:31,409 --> 00:03:39,349 Bien, mirad, si os dais cuenta, en las dos primeras, las que tenéis aquí, 29 00:03:39,770 --> 00:03:43,810 tenéis un coeficiente de correlación r de 1 y de menos 1. 30 00:03:44,289 --> 00:03:49,710 Veis que todos los datos están justo en la recta. 31 00:03:49,770 --> 00:03:52,810 Esto es lo que se conoce como una correlación perfecta. 32 00:03:52,810 --> 00:04:01,069 Vale, ¿qué significa que la correlación sea menos 1? Pues fijaos que si una variable aumenta, la otra está disminuyendo. 33 00:04:01,530 --> 00:04:08,490 Si es positivo, pues una variable aumenta, la otra aumenta. No sé si os suena esto un poquito a las reglas de 3, ¿vale? 34 00:04:09,030 --> 00:04:19,750 Mirad que para distintos valores de la correlación, para valores más pequeños o más cercanos a 0, la dispersión de los puntos cada vez es mayor. 35 00:04:19,750 --> 00:04:36,649 Fijaos en la del coeficiente correlación de 0,59 y de menos 0,41. Aquí estamos ya empezando, ya empezamos a sospechar que las dos variables no tienen mucha relación entre sí, que no tiene nada que ver. 36 00:04:36,649 --> 00:04:43,170 mientras que en estas, en las de la izquierda, podéis ver que efectivamente parece que hay una relación. 37 00:04:43,449 --> 00:04:52,170 ¿Y por qué se separan de la recta? Bueno, pues puede ser por errores experimentales o por algún factor que no estemos teniendo en cuenta. 38 00:04:52,310 --> 00:05:00,410 Entonces, lo primero que vamos a calcular es este valor del coeficiente de correlación 39 00:05:00,410 --> 00:05:07,730 y luego vamos a sacar la línea de tendencia que va a ser una recta de regresión o de mínimos cuadrados, ¿vale? 40 00:05:07,850 --> 00:05:14,610 Que ya digo que minimiza la distancia hacia todos los puntos de nuestros datos. 41 00:05:14,990 --> 00:05:22,009 Bien, con esto entendido, y si no nos preguntáis en clase, vamos a sacar el coeficiente de correlación. 42 00:05:22,009 --> 00:05:36,350 ¿Cómo hacemos eso? Vamos a seleccionar estas dos columnas, nos vamos a datos, estadísticas, doy correlación y le doy a la celda E porque es donde quiero que me los muestre. 43 00:05:36,350 --> 00:05:50,490 Que esto me está pidiendo ahora que dónde quiero que los pinte. Y bueno, pues ya lo tenemos. Fijaos, hay dos datos que no nos sirven para nada. Es este y este. ¿Por qué? Porque me he sacado la correlación de la columna 1 consigo mismo. 44 00:05:50,490 --> 00:06:04,750 ¿Esto qué significa? Que si pintáis en unos ejes esta variable y dándole a este valor el valor del eje X y el valor del eje Y, os va a salir la recta Y igual a X, justo correlación 1. 45 00:06:05,250 --> 00:06:10,509 Lo mismo para el producto interior bruto. Entonces esto ya lo sabíamos, no nos vale para mucho. 46 00:06:10,509 --> 00:06:36,310 El que nos interesa es este de aquí. Fijaos, me da 0,95. Bueno, 0,96 redondeado. Esto es un valor bastante alto de correlación. Sí, efectivamente, tiene todo el sentido del mundo. ¿Por qué? Porque si el producto interior bruto es todo lo que se produce en un país en cuanto a bienes y servicios, cuanta más población tenga, tiene sentido. Si tiene más población, ¿qué más producirá? 47 00:06:36,310 --> 00:06:46,449 Fijaos que esto no hay que cogerlo con pinzas porque, y lo vamos a ver en la gráfica, que hay países que tienen menos población pero que producen más que otros. 48 00:06:46,870 --> 00:06:55,410 ¿Y esto a qué se puede deber? Pues fijaos, tecnología o recursos naturales o mayor eficiencia productiva de la población. 49 00:06:55,410 --> 00:07:06,750 Pero ya digo, eso lo vamos a ver en el gráfico. De todas formas, esto lo debería poner yo en mi trabajo en conclusiones. 50 00:07:07,089 --> 00:07:14,430 Perfecto, pues ahora vamos a terminar con el último gráfico y lo último que vamos a presentar en nuestro informe. 51 00:07:15,810 --> 00:07:22,410 Para ello vamos a seleccionar estas dos columnas otra vez y nos vamos a gráfico. Vamos a hacer un gráfico de dispersión. 52 00:07:22,410 --> 00:07:39,410 Vale, esto nos lo vamos a currar un poquito más que antes y vamos a trabajar con los intervalos de datos. ¿Por qué? Porque a mí me va a interesar ver qué país tiene cada dato, ¿vale? 53 00:07:39,410 --> 00:07:49,370 Entonces, en intervalo de datos, fijaos que vienen aquí, aquí no tenéis que tocar nada, pero en serie de datos sí que vamos a ir tocando cosas. 54 00:07:49,509 --> 00:07:58,089 Lo primero, clico en valores X. Fijaos, me está dando como eje X la población. Yo voy a añadir etiquetas de datos, ¿vale? 55 00:07:58,569 --> 00:08:03,149 Etiquetas de datos, ¿para qué? Pues algo parecido a lo que hacíamos en el diagrama de sectores, ¿vale? 56 00:08:03,149 --> 00:08:21,370 Entonces, voy a dar como etiquetas de datos los países, ¿vale? Tiene que aparecer aquí la primera columna. Ahora voy a hacer lo mismo con los valores y, ¿vale? Fijaos que no ha habido que hacer nada porque ya aparecen estos datos como etiquetas de datos, ¿vale? 57 00:08:21,370 --> 00:08:36,620 Como elementos del gráfico vamos a quitar la leyenda y vamos a poner GDP versus Population como título del gráfico. 58 00:08:36,620 --> 00:08:58,419 Vamos a dar también títulos a los ejes. Vamos a dar aquí Population, ¿vale? Para indicar que el eje X tiene población y en el eje Y vamos a añadir Product Interior Bruto Constant. 59 00:09:02,309 --> 00:09:08,669 ¿Por qué hago esto? Para indicarle a la persona que está viendo el gráfico que es cada cosa, ¿vale? Porque si no, no se va a enterar. 60 00:09:08,669 --> 00:09:28,549 Vale, y le damos a finalizar y ya tenemos nuestro gráfico de dispersión. Vale, vamos a añadir una línea de tendencia, una recta de regresión. ¿Cómo hacemos eso? Clicamos en un punto cualquiera con botón derecho y le damos a insertar línea de tendencia. 61 00:09:28,549 --> 00:09:50,690 Mirad, nos da varias opciones. Hay varias formas de hacer una regresión. La más normal, la más usual es la regresión lineal. Podemos hacer regresión polinómica de grado 2, que sería intentar ajustar los datos a una parábola y hacer una exponencial, que sería una función exponencial. 62 00:09:50,690 --> 00:09:56,769 nosotros lo vamos a ver y la que más se usa es la regresión lineal 63 00:09:56,769 --> 00:10:02,490 entonces, nada, ya viene por defecto seleccionada la lineal 64 00:10:02,490 --> 00:10:07,269 y lo que vamos a hacer, por curiosidad y por repasar un poquito de geometría 65 00:10:07,269 --> 00:10:11,350 vamos a clicar en mostrar ecuación 66 00:10:11,350 --> 00:10:16,389 le damos a aceptar y fijaos, nos sale una recta 67 00:10:16,389 --> 00:10:23,990 ¿Vale? Una recta F de X con su pendiente y su ordenada en el origen. 68 00:10:24,649 --> 00:10:32,409 Bien, pues nada, vamos ahora a editar un poquito este gráfico para poder sacar conclusiones. 69 00:10:33,029 --> 00:10:43,529 Bueno, lo primero que vamos a hacer, y esto es una manía personal, me da un poquillo así de top, es insertar una cuadrícula vertical. 70 00:10:43,529 --> 00:10:52,330 Normalmente en Excel y en LibreOffice solo te ponen las líneas horizontales y a mí me gusta también ver las verticales, no sé por qué. 71 00:10:52,789 --> 00:11:02,370 Incluso si queréis, si estáis más cómodos, que sea un papel cuadriculado podéis insertar una cuadrícula secundaria tanto aquí como aquí. 72 00:11:02,370 --> 00:11:28,250 Estoy haciendo, por si esto lo estáis perdiendo, estoy clicando con botón derecho justo al eje X y al eje Y. Estoy dándole a insertar cuadrícula principal y cuadrícula secundaria. A mí ahora el gráfico me parece ya más decente, con sus títulos y además pudiendo seguir las líneas de una forma más visual. 73 00:11:28,250 --> 00:11:56,230 Voy a insertar también etiquetas de datos. ¿Por qué? Para saber a qué país se corresponde cada uno. Y veis que ahora nos salen números. Mirad, el número es la variable del eje Y. Nosotros no queremos que salga la variable del eje Y, así que vamos a darle botón derecho, formato de etiquetas de datos y nos vamos a etiquetas de datos y quitamos valor como número y vamos a darle a categoría. 74 00:11:56,230 --> 00:12:12,830 Vamos a poner que se posicione arriba y vamos a darle a aceptar. Bueno, si veis, aquí hay un montón de países donde no se ve nada, no pasa nada, pero bueno, ya podemos ver ciertas cosillas. 75 00:12:12,830 --> 00:12:41,169 Fijaos, tenemos a los Países Bajos que tienen menor población que Rumanía y veis que tiene un producto interior bruto mucho mayor. ¿Qué quiere decir? Lo que os decía antes, que en los Países Bajos es un país que tiene a nivel tecnológico, para que os hagáis una idea, tiene sedes de la Agencia Espacial Europea, tiene fábricas, es un centro además en el que se procesan diamantes, 76 00:12:41,169 --> 00:13:05,009 Es un centro productivo enorme. Fijaos, comparado con Rumanía, a nivel de Producto Interior Bruto, de lo que vale lo que produce, a pesar de tener menor población, produce mucho más. Entonces, para que os deis cuenta de que no siempre, esto nos da una idea de la tendencia, de cómo eso se debería comportar, pero que no siempre es así. 77 00:13:05,009 --> 00:13:23,950 A nivel de gráfico, lo que vamos a hacer es, veis que aquí hay un amasijo de nombres que no nos está aportando nada, entonces lo que vamos a hacer es hacer un gráfico ampliando esta zona de aquí para poder ver esto con más detalle. 78 00:13:23,950 --> 00:13:42,710 Entonces, este no lo borramos, lo que voy a hacer es copiarlo y lo voy a pegar, ¿vale? Y lo que voy a hacer es centrarme en toda esta zona de aquí. Fijaos que toda esta zona de aquí termina más o menos con 20 millones de población. 79 00:13:42,710 --> 00:13:54,889 Entonces, ¿cómo hago eso? ¿Cómo consigo? Hago doble clic para poder editar el gráfico y hago botón derecho, clic derecho en el eje X, ¿vale? 80 00:13:55,309 --> 00:14:02,889 Entonces, me voy a ir a formato de eje y veis que aquí aparecen los valores máximos y mínimos. 81 00:14:02,889 --> 00:14:14,490 Normalmente lo queremos dejar en automático, pero como ahí no se ve nada, vamos a cambiar el automático por un valor fijo que le voy a dar yo, que van a ser 20 millones. 82 00:14:15,450 --> 00:14:25,750 Fijaos, ahora ya se ve algo. Vamos a mover un poquito la ecuación de la línea de tendencia, ahora se ve un poquito mejor. 83 00:14:25,750 --> 00:14:49,610 Entonces vamos a ampliar, a ver si conseguimos que se vea algo mejor, se separe, pero bueno, aún así incluso ya se ve algo mejor y podemos ver, incluso clicando aquí, podemos ver los valores que van teniendo y podríamos ampliar un poco más en esta zona para que se separaran. 84 00:14:49,610 --> 00:15:19,590 Pero bueno, eso ya si queréis lo hacéis vosotros. 85 00:15:19,610 --> 00:15:24,289 internet que nos indique por el porqué de estas diferencias y eso es lo que 86 00:15:24,289 --> 00:15:30,529 tenéis que hacer en el apartado de conclusiones vale espero que os resulte 87 00:15:30,529 --> 00:15:35,389 útil este vídeo y que y mucho ánimo para realizar la última parte del trabajo la 88 00:15:35,389 --> 00:15:39,169 verdad yo creo que esta es la parte más interesante