1 00:00:05,320 --> 00:00:21,079 Hola a todos, soy Raúl Corraliza, profesor de matemáticas de bachillerato en el IES 2 00:00:21,079 --> 00:00:25,579 Arquitecto Pedro Gumiel de Alcalá de Henares y os doy la bienvenida a esta serie de videoclases 3 00:00:25,579 --> 00:00:28,800 de la unidad ES2 dedicada a la estadística bivariante. 4 00:00:30,019 --> 00:00:39,659 En la videoclase de hoy estudiaremos las representaciones gráficas. 5 00:00:40,719 --> 00:00:53,390 En esta videoclase vamos a estudiar las representaciones gráficas que podemos realizar para variables 6 00:00:53,390 --> 00:00:59,530 estadísticas bidimensionales. Nosotros utilizaremos fundamentalmente dos, diagramas de dispersión y 7 00:00:59,530 --> 00:01:03,850 diagramas de burbujas, como veis aquí, dependiendo de cuál sea la naturaleza de los datos y 8 00:01:03,850 --> 00:01:09,090 fundamentalmente de cuál sea el tipo de tabla de frecuencias que hayamos construido. En el caso en 9 00:01:09,090 --> 00:01:13,349 el que tengamos vectores de datos que no se repiten y entonces hayamos construido una tabla de 10 00:01:13,349 --> 00:01:18,310 frecuencias bidimensional simple, haremos un diagrama de dispersión. Para ello lo que haremos 11 00:01:18,310 --> 00:01:24,230 será utilizar un sistema de ejes cartesianos ortogonales entre sí. En uno de ellos representaremos 12 00:01:24,230 --> 00:01:29,230 los valores posibles de la variable estadística x, en el otro los valores posibles de la variable 13 00:01:29,230 --> 00:01:34,849 estadística y, y entonces los datos se van a representar dentro de ese sistema de ejes como 14 00:01:34,849 --> 00:01:40,629 marcas en los correspondientes puntos. De tal forma que si tenemos una observación para un cierto 15 00:01:40,629 --> 00:01:47,250 vector de datos xy y sub y, buscaremos cuál es la intersección de los valores de xy e y sub y 16 00:01:47,250 --> 00:01:52,170 dentro del diagrama, dentro del sistema de ejes cartesianos y allí pondremos una marca. 17 00:01:52,329 --> 00:01:56,750 Habitualmente se suelen utilizar puntos o bien figuras pequeñitas, pequeñas marcas. 18 00:01:57,969 --> 00:02:02,549 En el caso en el que los vectores de datos sí se repitan y entonces tengamos o bien una tabla 19 00:02:02,549 --> 00:02:07,870 de frecuencias bidimensional simple con frecuencias absolutas o lo más común una tabla bidimensional, 20 00:02:08,349 --> 00:02:14,990 utilizaremos un diagrama de burbujas. El marco de referencia, el marco de representación es igual 21 00:02:14,990 --> 00:02:19,789 al caso del diagrama de dispersión tendremos un sistema de ejes coordenados ortogonales entre sí 22 00:02:19,789 --> 00:02:24,509 en uno de ellos representaremos los valores posibles de la variable estadística x en el 23 00:02:24,509 --> 00:02:31,330 otro los valores posibles de la variable estadística y y lo que ocurre es que ahora los vectores de 24 00:02:31,330 --> 00:02:35,629 datos no se van a representar como marcas sencillamente sino que los representaremos 25 00:02:35,629 --> 00:02:42,150 como círculos y el área ocupada por los círculos debe ser necesariamente proporcional a las 26 00:02:42,150 --> 00:02:49,650 correspondientes frecuencias absolutas. Así pues, en el caso en el que para un determinado valor de 27 00:02:49,650 --> 00:02:55,830 xj y sub i, en este caso estoy pensando en una tabla bidimensional como la última que veíamos 28 00:02:55,830 --> 00:03:02,150 en la videoclase anterior. Bien, como decía, en el caso en el que para una observación, para un 29 00:03:02,150 --> 00:03:09,110 vector de datos xj y sub i, la frecuencia absoluta sea igual a 1, en ese punto de intersección 30 00:03:09,110 --> 00:03:15,430 dibujaremos un círculo pequeño en general con una cierta área. En el caso en el que para otro 31 00:03:15,430 --> 00:03:22,270 valor distinto de vector de datos xj y sub i la frecuencia absoluta sea 2 pintaremos un círculo 32 00:03:22,270 --> 00:03:28,750 pero que tenga un área doble y así sucesivamente. Esto de que el área ocupada por los círculos 33 00:03:28,750 --> 00:03:33,189 deba necesariamente ser proporcional a las correspondientes frecuencias absolutas guarda 34 00:03:33,189 --> 00:03:38,210 relación con lo que ya mencioné en su momento en la video clase de representaciones gráficas para 35 00:03:38,210 --> 00:03:43,750 variables estadísticas unidimensionales. En aquel momento decía que cuando el cerebro interpreta 36 00:03:43,750 --> 00:03:51,409 una serie de masas de colores, interpreta el tamaño en función del área. De tal forma que si yo quiero 37 00:03:51,409 --> 00:03:56,870 ver dos círculos y tener la idea de que en uno de ellos hay una frecuencia absoluta doble que en el 38 00:03:56,870 --> 00:04:03,590 otro, necesariamente el área debe ser el doble. Por eso lo más sencillo es comenzar con círculos 39 00:04:03,590 --> 00:04:08,909 de un cierto área dada, pequeños en general, y a partir de ahí buscar área doble, triple, 40 00:04:09,050 --> 00:04:13,370 cuádruple, etcétera, de la anterior para representar observaciones con frecuencia absoluta 41 00:04:13,370 --> 00:04:16,930 que sea 2, 3, 4, etcétera. 42 00:04:17,189 --> 00:04:22,089 Como primer ejemplo vamos a considerar el estudio conjunto anterior del consumo de combustible 43 00:04:22,089 --> 00:04:24,069 a la distancia recorrida por un cierto vehículo. 44 00:04:24,990 --> 00:04:29,730 En aquel momento construimos una tabla bidimensional simple, puesto que tenemos observaciones que 45 00:04:29,730 --> 00:04:32,009 no se repetían y que he reproducido aquí. 46 00:04:32,009 --> 00:04:40,689 Se nos pide que dibujemos el diagrama de dispersión, que es lo que corresponde a esta situación, en el caso en el que tenemos observaciones individuales que no se repiten. 47 00:04:41,050 --> 00:04:47,389 Y lo que hemos hecho ha sido representar este sistema de ejes cartesianos, ortogonales entre sí. 48 00:04:48,209 --> 00:04:57,350 En el eje de abscisas hemos puesto la variable aleatoria x, distancia recorrida en kilómetros, y lo tenemos con marcas 0, 50, 100, 150, 200, 250. 49 00:04:57,350 --> 00:05:03,269 en cuenta. En el eje de ordenadas hemos representado el volumen de combustible consumido en litros. 50 00:05:03,410 --> 00:05:09,329 En este caso, pues tenemos desde 0, 2, 4, 6, etc. hasta 16 litros. Y lo que hemos hecho 51 00:05:09,329 --> 00:05:14,189 ha sido ir siguiendo los vectores de datos, identificar el punto que corresponde dentro 52 00:05:14,189 --> 00:05:19,930 de nuestro sistema de referencia y allí pintar no un punto, sino un pequeño cuadrado. Por 53 00:05:19,930 --> 00:05:25,889 ejemplo, el primer valor, el primer vector de datos es el 100, 6,5. Buscamos el valor 54 00:05:25,889 --> 00:05:32,029 de x que sea 100, el valor de y que sea 6,5 estaría por aquí y aquí pintamos un primer 55 00:05:32,029 --> 00:05:39,970 cuadrado. El siguiente vector de datos es el 80, 6,0. Buscamos el valor de x que sea 56 00:05:39,970 --> 00:05:45,529 80, estaría por aquí, el valor de y que fuera 6,0 estaría aquí y en la intersección 57 00:05:45,529 --> 00:05:51,269 pintamos otro cuadrado. En total tenemos 10 vectores de datos diferentes y aquí lo que 58 00:05:51,269 --> 00:05:57,290 tenemos son 10 marcas, en este caso 10 cuadrados, todos ellos con el mismo color, todos ellos con 59 00:05:57,290 --> 00:06:04,740 el mismo tamaño. Algo que no habíamos visto en la tabla de frecuencias y no porque los datos estén 60 00:06:04,740 --> 00:06:09,680 desordenados, recuerdo que habíamos puesto los datos ordenados, los vectores de datos según los 61 00:06:09,680 --> 00:06:15,399 habíamos leído en los datos brutos, no por estar desordenados, quita para que no podamos ver 62 00:06:15,399 --> 00:06:20,740 regularidades que sí podemos ver en la representación gráfica y esa es la razón de ser. En las 63 00:06:20,740 --> 00:06:25,980 representaciones gráficas tenemos información visual y podemos extraer conclusiones sólo con 64 00:06:25,980 --> 00:06:31,319 ver los datos. Y aquí, antes de hacer ningún estudio, que haremos anteriormente, vemos que 65 00:06:31,319 --> 00:06:36,980 parece existir una cierta relación entre la distancia recorrida y el consumo de combustible. 66 00:06:38,120 --> 00:06:43,079 Parece que los datos no están distribuidos, los puntos no están distribuidos al azar, sino que 67 00:06:43,079 --> 00:07:03,040 Parece aparecer una cierta ordenación. Yo me atrevería a pensar que están colocados, grosso modo, no exactamente, pero grosso modo, a lo largo de una línea recta y parece que existe una cierta relación de dependencia entre las variables. 68 00:07:03,040 --> 00:07:08,199 esa relación de dependencia es directa. Parece que cuanto mayor es la distancia recorrida, 69 00:07:08,339 --> 00:07:12,620 mayor es el consumo de combustible. Cuanto menor es la distancia recorrida, menor es 70 00:07:12,620 --> 00:07:18,860 el consumo de combustible. Nosotros más adelante veremos cómo enfrentarnos a esta situación 71 00:07:18,860 --> 00:07:23,839 con herramientas matemáticas y extraer conclusiones. Esto que parece que nosotros estamos viendo 72 00:07:23,839 --> 00:07:28,740 podremos comprobarlo desde el punto de vista numérico en videoclases posteriores, cuando 73 00:07:28,740 --> 00:07:36,180 estudiamos la distribución conjunta e incluso cuando estudiamos la regresión. En este segundo 74 00:07:36,180 --> 00:07:40,259 ejemplo vamos a considerar el estudio conjunto anterior del número de suspensos en una cierta 75 00:07:40,259 --> 00:07:46,160 evaluación y el tiempo medio diario de estudio. Aquí tenemos una vez más la tabla de frecuencias 76 00:07:46,160 --> 00:07:51,980 en una tabla bidimensional y lo que vamos a hacer para hacer la representación es representar estos 77 00:07:51,980 --> 00:07:57,620 ejes coordenados. En el eje de abstizas vamos a poner la variable estadística x, tiempo de estudio 78 00:07:57,620 --> 00:08:03,699 en horas y los valores observados 0, 1, 2, 3, 4, los valores posibles están aquí, 0, 1, 2, 3 y 4. 79 00:08:04,500 --> 00:08:10,220 En el eje de ordenadas vamos a representar la variable estadística y, número de suspensos, 80 00:08:10,300 --> 00:08:15,639 como vemos aquí. Los valores posibles son 0, 1, 2, 3, 4, 5 y son los que aquí tenemos representados, 81 00:08:15,759 --> 00:08:24,319 0, 1, 2, 3, 4, 5. Y ahora lo que vamos a hacer es pintar círculos. Vamos a, para ello, buscar dentro 82 00:08:24,319 --> 00:08:29,120 de la tabla de frecuencias, donde nos encontramos con frecuencias absolutas que son igual a la unidad, 83 00:08:29,279 --> 00:08:37,039 igual a 1. Uno de ellos que vemos es este que tenemos aquí. Este 1, este valor de n, se encuentra 84 00:08:37,039 --> 00:08:45,000 en la quinta fila y primera columna. Luego esto es el valor de n sub 5 1, que es igual a 1. El segundo 85 00:08:45,000 --> 00:08:52,279 subíndice me indica el número de columna, así que tenemos el valor xj, que es x1, igual a 0. Y tenemos 86 00:08:52,279 --> 00:08:58,960 el valor de y sub i que sería y sub 5 que toma el valor 4. Esta frecuencia absoluta n sub 5 1 igual 87 00:08:58,960 --> 00:09:08,379 a 1 se corresponde al vector de datos x 1 y sub 5 que sería el vector 0 4. Buscamos 0 4 dentro de 88 00:09:08,379 --> 00:09:13,019 nuestro sistema, aquí lo tenemos, y aquí vamos a pintar un círculo pequeño que es el que vamos a 89 00:09:13,019 --> 00:09:20,340 utilizar como unidad para todos los demás. En todas aquellas intersecciones de valor x j y sub i 90 00:09:20,340 --> 00:09:26,000 Donde aparece una frecuencia absoluta igual a 1, pintaremos un círculo igual que este, con su misma área. 91 00:09:26,440 --> 00:09:36,200 Por ejemplo, aquí tenemos la frecuencia n sub 5 2, que se corresponde con el vector de datos 1 hora 4 suspensos. 92 00:09:36,580 --> 00:09:40,480 1 hora 4 suspensos. Aquí pintamos un círculo con la área igual a la anterior. 93 00:09:41,500 --> 00:09:43,419 También nos lo encontramos, por ejemplo, aquí. 94 00:09:44,139 --> 00:09:51,840 Este sería el valor de frecuencia absoluta n sub 1, 4, primera fila, cuarta columna. 95 00:09:51,840 --> 00:09:57,799 Y se corresponde con el vector de datos xj, que sería x4, en este caso 3 horas, 96 00:09:58,320 --> 00:10:02,179 e i sub i, que sería i sub 1, en este caso 0 suspensos. 97 00:10:02,620 --> 00:10:08,860 Así que buscamos 3, 0, estaría aquí, y evitamos un círculo con la misma área que los anteriores. 98 00:10:09,779 --> 00:10:12,220 ¿Qué ocurre cuando la frecuencia absoluta es 2? 99 00:10:12,220 --> 00:10:24,840 Por ejemplo, aquí. Aquí tenemos el valor de frecuencia n sub 6 1. Corresponde con xjx1, que sería 0, y con y sub i, que sería y sub 6, que en este caso es 5. 100 00:10:25,600 --> 00:10:32,620 0 horas, 5 suspensos, estaría aquí. Bueno, pues aquí pintaremos también un círculo, pero con área que sea el doble de la anterior. 101 00:10:33,299 --> 00:10:35,840 Insisto en que tiene que ser área doble, no radio doble. 102 00:10:36,700 --> 00:10:38,360 Haremos lo mismo con todos los demás. 103 00:10:38,559 --> 00:10:46,460 Cuando la frecuencia absoluta sea 5, pintaremos un círculo con área que sea el quíntuple de la de frecuencia absoluta igual a 1, 104 00:10:47,120 --> 00:10:53,799 con frecuencia absoluta 8, que sea el octuple del círculo con frecuencia absoluta igual a 1, y así sucesivamente. 105 00:10:54,740 --> 00:10:57,840 Y aquí lo que tenemos es la representación que corresponde. 106 00:10:57,840 --> 00:11:02,360 Hay un círculo en cada una de estas celdas que sean distintas de 0. 107 00:11:02,360 --> 00:11:09,039 el círculo estelar más pequeño con frecuencia absoluta igual a 1, área doble con frecuencia absoluta igual a 2, 108 00:11:09,600 --> 00:11:13,019 área triple con frecuencia absoluta igual a 3 y así sucesivamente. 109 00:11:14,080 --> 00:11:20,700 Igual que pasaba antes, la representación gráfica, en este caso el diagrama de burbujas, 110 00:11:21,080 --> 00:11:26,879 nos sirve para de un vistazo percibir si existe o no una cierta regularidad. 111 00:11:27,559 --> 00:11:44,500 Es cierto que en el caso de la tabla bidimensional la forma en la que estamos poniendo las frecuencias absolutas también ayuda, pero es todo mucho más claro en el caso de la representación gráfica que se hace precisamente por eso, para que quede de un vistazo manifiesta la información dentro de los datos. 112 00:11:44,500 --> 00:12:03,980 En este caso no vemos que los datos estén organizados siguiendo una línea recta, pero grosso modo sí parece que tal vez estén orientados en una cierta franja, con más o menos esta dirección natural. Franja o tal vez una curva, no queda muy claro. 113 00:12:03,980 --> 00:12:18,440 En cuanto a si existe una relación de dependencia directa o inversa, hombre, pues, grosso modo, podríamos decir que existe una, o parece existir, una relación de dependencia inversa. 114 00:12:19,159 --> 00:12:35,279 Tenemos valores en este extremo con un elevado número de suspensos y un bajo tiempo de estudio y también tenemos valores en este otro extremo que se corresponden con un bajo número de suspensos y un elevado tiempo de estudio. 115 00:12:36,740 --> 00:12:41,120 Podría parecer que tal vez existiera una cierta relación de dependencia inversa. 116 00:12:41,559 --> 00:12:46,980 Igual que en el caso anterior, vuelvo atrás, parecía existir una cierta relación de dependencia directa. 117 00:12:46,980 --> 00:13:16,000 Estas ideas subjetivas y posiblemente cargadas de prejuicios por nuestra parte nos van a orientar en el estudio posterior y este es el que vamos a necesitar hacer desde el punto de vista matemático para tratar de decidir si existe o no esta relación de dependencia, si es directa o inversa y podremos cuantificar la confianza que tenemos en esa descripción de que la relación es que existe una relación de dependencia y si es directa o inversa. 118 00:13:16,980 --> 00:13:24,539 En el aula virtual de la asignatura tenéis disponibles otros recursos y cuestionarios. 119 00:13:25,279 --> 00:13:29,379 Asimismo, tenéis más información en las fuentes bibliográficas y en la web. 120 00:13:30,200 --> 00:13:34,960 No dudéis en traer vuestras dudas e inquietudes a clase o al foro de dudas en el aula virtual. 121 00:13:35,500 --> 00:13:36,899 Un saludo y hasta pronto.