1
00:00:02,930 --> 00:00:11,089
Bienvenidos a este breve vídeo donde vamos a hacer un pequeño resumen sobre los contenidos

2
00:00:11,089 --> 00:00:20,679
básicos de la estadística unidimensional. Primero comenzamos definiendo qué se entiende

3
00:00:20,679 --> 00:00:26,739
por estadística. La estadística es la ciencia que trata de la recopilación, organización,

4
00:00:26,739 --> 00:00:35,000
presentación, análisis e interpretación de datos numéricos con el fin de tomar la decisión más

5
00:00:35,000 --> 00:00:43,579
efectiva. Es decir, yo voy a recopilar una serie de datos, los voy a analizar y luego voy a sacar

6
00:00:43,579 --> 00:00:55,679
conclusiones sobre los datos obtenidos. Lo primero que tengo que saber es a quién quiero dirigir ese

7
00:00:55,679 --> 00:01:03,780
estudio. A ese conjunto de personas u objetos a los que va dirigido dicho estudio se le llama

8
00:01:03,780 --> 00:01:11,900
población y a cada uno de las personas u objetos se le llama individuo. Cuando la población es

9
00:01:11,900 --> 00:01:23,060
demasiado grande utilizo una parte de ella que le llamaré muestra y al número total de elementos

10
00:01:23,060 --> 00:01:28,459
u objetos que forman esta muestra se le llama tamaño de la muestra.

11
00:01:32,450 --> 00:01:35,950
Lo siguiente será definir qué es lo que yo quiero estudiar

12
00:01:35,950 --> 00:01:38,250
y sobre qué voy a hacer el estudio.

13
00:01:38,849 --> 00:01:41,129
Pues la característica que yo voy a estudiar

14
00:01:41,129 --> 00:01:45,290
es lo que se conoce con el nombre de variable estadística.

15
00:01:45,650 --> 00:01:48,849
Las variables estadísticas pueden ser de dos tipos

16
00:01:48,849 --> 00:01:52,370
o bien variable estadística cualitativa

17
00:01:52,370 --> 00:02:02,549
cuando lo que yo voy a estudiar es una cualidad, por ejemplo en un concesionario quieren saber de los coches que han vendido

18
00:02:02,549 --> 00:02:07,189
cuál es el color más vendido o el que más gusta a la gente.

19
00:02:08,430 --> 00:02:16,629
Sin embargo, si yo quiero saber el número de hermanos que hay en una ciudad, en un conjunto de familias,

20
00:02:16,629 --> 00:02:24,250
entonces estaré evaluando algo numérico y por tanto hablaré de una variable cuantitativa.

21
00:02:24,710 --> 00:02:31,590
Dentro de las variables estadísticas cuantitativas tengo que distinguir entre variable cuantitativa discreta

22
00:02:31,590 --> 00:02:33,909
y variable cuantitativa continua.

23
00:02:34,550 --> 00:02:40,370
La variable será discreta si los datos son valores aislados, por ejemplo, número de hermanos

24
00:02:40,370 --> 00:02:44,270
y será continua cuando pueden tomar valores intermedios.

25
00:02:44,270 --> 00:02:47,750
Por ejemplo, la estatura de mis alumnos.

26
00:02:51,379 --> 00:03:01,199
Una vez que yo ya tengo la población y tengo el estudio, procedo a realizar mi encuesta y obtengo una serie de valores.

27
00:03:01,919 --> 00:03:09,939
Esos valores, lo primero que hago es organizarlos en lo que se conocen como tablas de frecuencias.

28
00:03:10,740 --> 00:03:14,340
Vamos a definir los distintos tipos de frecuencias que tenemos.

29
00:03:14,680 --> 00:03:21,819
Tenemos la frecuencia absoluta, que es el número total de veces que se repite un dato.

30
00:03:22,439 --> 00:03:29,620
La frecuencia relativa es el cociente entre la frecuencia absoluta y el número total de datos

31
00:03:29,620 --> 00:03:32,340
y cuya suma tiene que ser 1.

32
00:03:33,240 --> 00:03:39,520
La frecuencia absoluta acumulada es la suma de las frecuencias absolutas correspondientes

33
00:03:39,520 --> 00:03:47,539
a los datos menores o iguales y la frecuencia relativa acumulada de un dato es la suma de las

34
00:03:47,539 --> 00:03:59,280
frecuencias relativas correspondientes a los datos menores o iguales. Lo organizaría en una tabla

35
00:03:59,280 --> 00:04:10,539
donde pongo en la primera columna los diferentes datos. Por ejemplo, si estoy estudiando el color

36
00:04:10,539 --> 00:04:16,720
de los coches que se venden en un concesionario, pues pondría color rojo, color azul, color verde,

37
00:04:17,019 --> 00:04:23,920
color gris... A continuación pondría la frecuencia absoluta, es decir, el número de coches que se han

38
00:04:23,920 --> 00:04:29,439
vendido que son rojos, el número de coches que se han vendido que son azules, el número de coches

39
00:04:29,439 --> 00:04:34,540
que se han vendido que son verdes, el número de coches que se han vendido que son grises...

40
00:04:34,540 --> 00:04:56,319
Entonces, luego colocaría la frecuencia relativa, que es la absoluta dividida entre el total de datos, para cada uno de los datos, la frecuencia absoluta acumulada, en el primer dato coincide con la frecuencia absoluta y luego siempre voy sumando la anterior, ¿vale?

41
00:04:56,319 --> 00:05:00,620
y lo mismo ocurre con la frecuencia relativa acumulada.

42
00:05:01,399 --> 00:05:09,319
Una vez que yo ya tengo mi encuesta, he organizado mis datos en una tabla de frecuencias,

43
00:05:10,300 --> 00:05:16,560
ahora voy a proceder a organizar los datos a través de gráficos estadísticos.

44
00:05:17,300 --> 00:05:20,560
Existen distintos tipos de gráficos estadísticos.

45
00:05:20,560 --> 00:05:29,939
Tenemos el diagrama de barras, tenemos el diagrama de sectores y tenemos el histograma.

46
00:05:29,939 --> 00:05:41,639
El diagrama de barras es muy fácil de realizar. Lo único que tengo que hacer es colocar sobre el eje horizontal todos los datos.

47
00:05:41,639 --> 00:05:45,579
En este caso tengo 2, 4, 6, 8 y 10.

48
00:05:46,439 --> 00:05:51,480
Y luego levanto una barra vertical sobre cada uno de los datos

49
00:05:51,480 --> 00:06:00,379
de forma que la altura de dicha barra coincida exactamente con la frecuencia absoluta.

50
00:06:03,209 --> 00:06:11,189
En el caso del diagrama de sectores, yo lo que pretendo hacer es repartir un círculo

51
00:06:11,189 --> 00:06:16,350
de forma proporcional a las frecuencias absolutas.

52
00:06:16,670 --> 00:06:23,550
Es decir, yo en este círculo tengo que repartir rojo, azul, verde, blanco y negro

53
00:06:23,550 --> 00:06:29,230
de forma proporcional a 5, 3, 10, 12 y 6.

54
00:06:29,230 --> 00:06:36,889
Entonces lo que tengo que hacer es averiguar qué proporción de círculo

55
00:06:36,889 --> 00:06:40,889
le corresponde a cada frecuencia relativa.

56
00:06:41,189 --> 00:07:00,089
Perdón, a cada frecuencia absoluta y eso lo hago con ayuda de esta regla de tres, donde me relaciona el total de datos con los 360 grados que tiene la circunferencia y cada frecuencia absoluta con el número de grados que le corresponde en el círculo.

57
00:07:00,089 --> 00:07:10,800
Y por último, el último tipo de gráfico es el histograma.

58
00:07:10,800 --> 00:07:15,819
El histograma es de apariencia algo similar al diagrama de Valls,

59
00:07:16,560 --> 00:07:23,860
pero este tipo de gráfico se suele utilizar cuando tratamos con una variable cualitativa continua.

60
00:07:24,779 --> 00:07:32,439
Sobre el eje horizontal colocaremos los intervalos en los que está dividida esa variable

61
00:07:32,439 --> 00:07:40,860
y la altura del rectángulo no es en este caso la frecuencia absoluta,

62
00:07:41,899 --> 00:07:51,060
sino que es el cociente entre la frecuencia absoluta y la amplitud del intervalo.

63
00:07:51,060 --> 00:08:02,360
¿Esto por qué es así? Porque el área de cada uno de los rectángulos es la que tiene que coincidir exactamente con la frecuencia absoluta.

64
00:08:08,759 --> 00:08:15,560
Ahora vamos a comenzar a hacer cálculos con esos datos que hemos obtenido.

65
00:08:16,860 --> 00:08:20,019
Los cálculos que vamos a hacer van a ser de dos tipos.

66
00:08:20,019 --> 00:08:25,899
Yo voy a calcular lo que se conoce con el nombre de medidas de centralización

67
00:08:25,899 --> 00:08:32,460
y lo que se conoce con el nombre de medidas de dispersión.

68
00:08:32,779 --> 00:08:36,649
¿Qué nos van a dar estos datos?

69
00:08:37,269 --> 00:08:45,389
Pues las medidas de centralización nos va a decir cómo descentrada está nuestra variable estadística.

70
00:08:45,389 --> 00:08:52,210
Es decir, si existe algún dato alrededor del cual se van a situar el resto de datos.

71
00:08:52,970 --> 00:09:05,990
Y las medidas de dispersión, como su propio nombre indica, nos van a explicar si esa variable estadística es muy dispersa o está muy concentrada.

72
00:09:05,990 --> 00:09:22,100
Medidas de centralización tenemos tres, que son la media aritmética, la moda y la mediana

73
00:09:22,100 --> 00:09:37,700
Y medidas de dispersión tenemos cinco, que son la desviación mediana, el rango, la varianza, la desviación típica

74
00:09:37,700 --> 00:09:40,919
y el coeficiente de variación.

75
00:09:42,220 --> 00:09:45,919
Vamos a ver un poquito cómo se calculan cada una de ellas.

76
00:09:46,539 --> 00:09:52,980
La media aritmética, aquí tenemos la fórmula que recoge la forma de calcular la media aritmética,

77
00:09:53,960 --> 00:10:02,919
que sería la suma del producto de cada dato por su frecuencia dividido entre el total de datos.

78
00:10:03,860 --> 00:10:09,200
Es decir, yo tengo que he hecho un estudio sobre el número de móviles

79
00:10:09,200 --> 00:10:13,460
y las posibles respuestas han sido 1, 2, 3, 4 y 5.

80
00:10:15,600 --> 00:10:18,740
Personas que han respondido que tienen un móvil han sido 15,

81
00:10:19,539 --> 00:10:21,639
que han respondido que tienen 2 ha sido 8,

82
00:10:22,139 --> 00:10:24,320
que han respondido que tienen 3 ha sido 4,

83
00:10:25,399 --> 00:10:27,799
que han respondido que tienen 4 ha sido 1

84
00:10:27,799 --> 00:10:31,240
y que han respondido que tienen 5 ha sido 2.

85
00:10:31,240 --> 00:10:36,940
Pues ahora lo que tengo que hacer es multiplicar cada dato por su frecuencia relativa

86
00:10:36,940 --> 00:10:39,960
Perdón, por su frecuencia absoluta

87
00:10:39,960 --> 00:10:45,860
1 por 15, 2 por 8, 3 por 4, 4 por 1 y 5 por 2

88
00:10:45,860 --> 00:10:51,799
Tengo que sumar todas esas cantidades y dividirla entre el total de datos que son 30

89
00:10:51,799 --> 00:10:56,679
Por tanto, la media aritmética de estos datos es 1,9

90
00:10:56,679 --> 00:11:23,320
La moda. La moda es el valor con mayor frecuencia absoluta. En este caso la moda sería 1, es decir, la respuesta que más se ha dado ha sido un móvil y la mediana es el dato que está justo situado en medio.

91
00:11:23,320 --> 00:11:33,980
Yo tengo todas las respuestas, las ordeno de menor a mayor y localizo el dato que está justo situado en medio.

92
00:11:34,759 --> 00:11:50,929
En este caso, como tengo, pues, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 y 15,

93
00:11:50,929 --> 00:12:01,470
y por aquí otros 15, 30 datos, pues el que está justo en medio estaría entre 1 y 2 que es 1,5

94
00:12:01,470 --> 00:12:09,210
y eso es lo que conocemos como mediana, es decir, el valor que deja la mitad de la población a la izquierda

95
00:12:09,210 --> 00:12:11,610
y la mitad de la población a la derecha.

96
00:12:14,000 --> 00:12:17,860
Pasamos ahora a calcular las medidas de dispersión.

97
00:12:17,860 --> 00:12:34,360
Las medidas de dispersión son la desviación mediana, el rango, que es la diferencia entre el dato mayor y el dato menor, la varianza, la desviación típica y el coeficiente de variación.

98
00:12:35,100 --> 00:12:47,419
Para calcular todas estas medidas, lo que hago es que realizo los cálculos sobre una tabla.

99
00:12:47,419 --> 00:12:51,379
Es decir, a mí me dan de partida estos datos, ¿vale?

100
00:12:51,539 --> 00:12:56,100
Estos serían los x sub i y estas son sus frecuencias absolutas y los pongo en mi tabla.

101
00:12:56,500 --> 00:12:57,779
x sub i, n sub i.

102
00:12:58,639 --> 00:13:01,000
Luego calculo la x por la n.

103
00:13:01,840 --> 00:13:04,559
¿Esto para qué me hace falta? Para calcular la media.

104
00:13:05,759 --> 00:13:08,860
Luego calculo el x sub i al cuadrado por n sub i.

105
00:13:09,360 --> 00:13:12,039
Esto me hace falta para calcular la varianza.

106
00:13:12,899 --> 00:13:17,960
Luego calculo cada dato menos la media en valor absoluto y lo multiplico por n.

107
00:13:18,440 --> 00:13:22,000
¿Y esto para qué me hace falta? Para la desviación medial.

108
00:13:22,000 --> 00:13:31,100
Una vez que tengo construida esta tabla, ya solo me quedaría sustituir cada uno de los datos en las fórmulas que hemos visto anteriormente

109
00:13:31,100 --> 00:13:36,000
y así podríamos calcular todas las medidas de dispersión.