ESTADIGRAFOS DE POSICION Y DISPERSION
Los capítulos anteriores están referidos, con cierto detalle, a la clasificación de variables, recolección de datos, construcción de tablas de frecuencia y a la representación gráfica, como fase preliminar en la descripción y análisis estadístico. El objetivo principal de esta primera etapa, ha sido determinar la naturaleza y formas de la distribución de frecuencias, como base para la “reducción de los datos” a través de ciertas características descriptivas y medidas de resumen. En el problema de comparar dos o más distribuciones de frecuencias, puede resultar fácil hacer una comparación gráfica de las frecuencias, sin embargo, existen dificultades para hacer comparaciones cuantitativas. Estadísticamente para facilitar este análisis comparativo es necesario disponer de algunos indicadores o medidas de resumen. Aún cuando la comparación de los histogramas (o gráficos) puede proporcionar valiosa información general, siempre es posible obtener información más precisa y útil, como la comparación directa de los datos tabulados (tablas de frecuencia) y mucho mejor si se dispone de elementos o valores representativos (medidas de resumen) del conjunto de observaciones.
Como respuesta, la Estadística plantea reducir los datos y sustituir toda la tabla de frecuencias por unos pocos valores representativos del conjunto, es decir, reemplazar la distribución de frecuencias por unas pocas características descriptivas de los aspectos fundamentales de la distribución considerada. Estas características descriptivas (cantidad), constituyen los llamados ESTADÍGRAFOS, que son indicadores o medidas de resumen estadístico. Por tanto, en vez de comparar totalmente dos distribuciones de frecuencia o gráficos, sólo bastará comparar los estadígrafos de ambas distribuciones.
Estadígrafo Es la medida que en Estadística se aplica sobre una muestra. En general se utilizan dos tipos: Estadígrafos de Posición o de Tendencia Central y los Estadígrafos de Dispersión.
Estadígrafos de Posición o Medidas de Posición Tenemos: a. Las medidas denominadas promedios, ósea aquellas que tratan de localizarse hacia el centro de la serie; MODA, MEDIA Y MEDIANA.
b. Los cuartiles y deciles, o cuartas y décimas partes de las observaciones; esto sólo se aplican en los datos agrupados.
Estadígrafos de Dispersión Tenemos: a. El rango, la varianza, la desviación estándar, el coeficiente de variación, las medidas de forma; dentro de ellas están el coeficiente de correlación y la regresión lineal.
ESTADIGRAFOS DE POSICION O MEDIDAS DE TENDENCIA CENTRAL Los Estadígrafos, son indicadores ó medidas de resumen estadístico. Describen la posición que ocupa una distribución de frecuencia alrededor “de un valor” de la variable. Los estadígrafos no son valores determinantes, ni menos valores exactos, pero si los mas representativos de una variable. Las medidas de tendencia central mas utilizadas son 3: MEDIANA MEDIA ARITMETICA MODA
MEDIANA En el ámbito de la estadística, la mediana representa el valor de la variable de posición central en un conjunto de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. En otras palabras es un indicador, dicho valor de la serie de datos se sitúa justamente en el centro de la muestra, luego de ordenarlos (un 50% de valores son inferiores y otro 50% son superiores). Para calcular la mediana debemos tener en cuenta:
Calculo de la mediana para datos no agrupados: Cuando el número de DATOS ES IMPAR: Si tenemos un número de datos impar, primero se debe ordenar los datos, luego ubicar la posición central de los datos, este valor en la posición central será la mediana del conjunto de datos. Si N es impar, hay un termino central, el termino que será el valor de la mediana. Me = (N + 1) /2 Cuando el número de DATOS ES PAR: Si tenemos un número de datos Par, primero se debe ordenar los datos, luego ubicar los dos números en la posición central de los datos, y enseguida realizar el promedio de ellos, el resultado será la mediana del conjunto de datos. y
Ejemplos: 1. Sean los datos: 6, 4, 5, 6, 3, 6, 4, 7, 6. Paso 1: Primero ordenamos los datos: 3, 4, 4, 5, 6, 6, 6, 6, 7. Paso 2: Tenemos 9 datos, entonces N = 9. Aplicamos la formula: Me = (N + 1) / 2 Me = (9 + 1) / 2 Me = 5 El valor 5 indica la posición que ocupa la mediana en los datos. Entonces la mediana correspondiente a estos datos será igual a 6.
2. Sean los datos: 14, 47, 36, 19, 70, 32, 59. Paso 1: Primero ordenamos los datos: 14, 19, 32, 36, 47, 59, 70. Paso 2: Tenemos 7 datos, entonces N = 7. Aplicamos la formula: Me = (N + 1) / 2 Me = (7 + 1) / 2 Me = 4 El valor 4 indica la posición que ocupa la mediana en los datos. Entonces la mediana correspondiente a estos datos será igual a 36.
3. Sean los datos: 6, 1, 4, 3, 9, 1, 2, 7, 3, 5. Paso 1: Primero ordenamos los datos: 1, 1, 2, 3, 3, 4, 5, 6, 7, 9.
Paso 2: Tenemos 10 datos, entonces N = 10. Por tener 10 datos la mediana será calculada como una media aritmética de los dos datos centrales,en este caso se asume los valores 3 y 4.
Aplicamos la formula: Me = (N + 1) / 2
Me = X
Me = (10 + 1) / 2
Me = (3 + 4) / 2
Me = 5.5
Me = 3.5
El valor 5.5 indica la posición que ocupa la mediana en los datos. Entonces la mediana correspondiente a estos datos será igual a 3.5.
4. Sean los datos: 60, 15, 48, 36, 90, 17, 24, 72, 38, 50, 23, 72. Paso 1: Primero ordenamos los datos: 15, 17, 22, 24, 36, 38, 48, 50, 60, 72, 72, 90. Paso 2: Tenemos 12 datos, entonces N = 12. Por tener 12 datos la mediana será calculada como una media aritmética de los dos números centrales, en este caso se asume los valores 38 y 48.
Aplicamos la formula: Me = (N + 1) / 2
Me = X
Me = (12 + 1) / 2
Me = (38 + 48) / 2
Me = 6.5
Me = 43
El valor 6.5 indica la posición que ocupa la mediana en los datos. Entonces la mediana correspondiente a estos datos será igual a 43.
Calculo de la mediana en distribuciones agrupadas: Si los datos son presentados en tablas de frecuencia, se pueden dar dos casos: calculo de la mediana para variables cuantitativas discretas y variables cuantitativas continuas. Veamos: PARA VARIABLES CUANTITATIVAS DISCRETAS:
Caso1. Si la mitad de los datos (N/2), se encuentra entre dos frecuencias acumuladas, así: [ Li-1,Li ); hay que determinar el intervalo mediano, la forma de hacerlo será, calculando el valor de la mitad de n y observar que intervalo tiene una frecuencia absoluta acumulada que cumpla N i-1 < N/2 < Ni. Después de saberlo haremos el siguiente cálculo: Me = Li-1 +
N/2 – Ni – 1
ni
ai
Siendo: [ Li-1,Li )
=
intervalo que contiene a la frecuencia acumulada N/2
ai
=
amplitud de dicho intervalo
Ejemplos: Dados los siguientes datos, calcular el intervalo mediano (mediana): [ Li-1, Li ) [20 , 30) [40 , 50) [60 , 70) [80 , 90) [100 , 110)
ni 150 200 250 230 91 N = 921
Ni 150 350 600 830 921
Paso 1: Calculamos N/2 = 921/2 = 460.5. Este valor nos indica que la mediana (Me) estará en el intervalo [ 60 , 70 ). Paso 2: Calculamos la mediana aplicando la formula: Me = Li-1 +
N/2 – Ni – 1
ni
ai = 60 +
460.5 – 350 250
x 10 = 64.42
MEDIA ARITMETICA Es un indicador, que representa al conjunto de datos. Es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas: MEDIA PARA DATOS ORIGINALES O NO AGRUPADOS: a) Media aritmética: es la más utilizada, es la suma de los valores entre
el número total de datos. La media aritmética o simplemente media es el promedio aritmético de las observaciones, es decir, el cociente entre la suma de todos los datos y el numero de ellos. Dados los n números X1, X2, ..., Xn, la media aritmetica se define simplemente como: n
X=
X1 + X2 + X3 + .....+ Xn-1 + Xn n
∑ =
i =1
n
El símbolo µ (mu) es usado para la media aritmética de una población. Usamos X, con una barra horizontal sobre el símbolo para medias de una muestra. X
Ejemplos: 1. Se tiene las calificaciones finales de 20 estudiantes de la asignatura de Psicología de la personalidad, hallar la Media Aritmética. 12, 18, 14, 15, 20, 11, 10, 08, 15, 17, 05, 20, 19, 14, 10, 17, 16, 17, 05, 00
X= X=
12+18+14+15+20+11+10+08+15+17+05+20+19+14+10+17+16+17+05+00 20 263 20
= 13.15
2. Se tiene las edades de 50 estudiantes del tercer semestre de la Facultad de Psicología de la Universidad Peruana los Andes. Calcular la media aritmética. 18, 18, 17, 17, 17, 20, 21, 17, 19, 23, 23, 35, 22, 21, 17, 16, 17, 20, 23, 26, 17, 18, 25, 26, 19, 17, 18, 21, 21, 20, 26, 17, 18, 19, 23, 22, 19, 21, 18, 18, 19, 21, 33, 29, 20, 19, 17, 28, 39, 41
X = 1076/50 = 21.52 La media aritmética en general no divide a la distribución en dos partes iguales. MEDIA PARA DATOS EN TABLAS O AGRUPADOS
a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra. La media aritmética de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por X y se calcula mediante la expresión:
X
n
=
∑ i =1
X.f i
n
=
∑ i =1
=
X i.ni
N
Xi
representa el valor de la variable o en su caso la marca de
clase. Propiedades: Si multriplicamos o dividimos todas las observaciones por un mismo numero, la media queda multiplicada o dividida por dicho numero. Si le sumamos a todas las observaciones un mismo numero, la media aumentara en dicha cantidad.
Ademas de la media aritmetica existen otros conceptos de media como son: la media geometrica y la media armonica.
Ejemplo : De la siguiente tabla de distribución de frecuencias calcular la media.
IC 17 - 21 22 - 26 27 - 31 32 - 36 37 - 41 TOTAL X=
MC 19 24 29 34 39
f 37 8 2 2 1 50
fr 0.740 0.160 0.040 0.040 0.020 1.000
frA 0.740 0.900 0.940 0.980 1.000
(19x37) + (24x8) + (29x2) + (34x2) + (39x1) 50
=
F% 74 16 4 4 2 100% 1060
50
FA% 74 90 94 98 100
= 21.2
CALCULO DE LA MEDIA ARITMETICA PONDERADA Se denomina media (aritmética) ponderada de un conjunto de números al resultado de multiplicar cada uno de los números por un valor particular para cada uno de ellos, llamado su peso, obteniendo a continuación la suma de estos productos, y dividiendo el resultado de esta suma de productos entre la suma de los pesos mas la masa según la característica de cada numero inicial. Este “peso” depende de la importancia o significancia de cada uno de los valores. O dicho de otro modo es un promedio en el que cada valor de observación se pondera con algún índice de su importancia. Córdova (2003).
Para una serie de datos X = {x1,
x2, …, xn}, a la que corresponde los pesos W =
{w1, w2, …, wn}, la media ponderada se calcula como:
x=
∑ in= 1
Xi . wi
∑ in= 1 wi
x=
X1 . W1 + X2 . W2
+ X13. W3 + ... + Xn. Wn
W1 + W2 + W3 + ... + Wn
Un ejemplo es la obtención de la media ponderada de las notas de una oposicion en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen) Ejemplo: Se tiene las notas obtenidas en las diferentes asignaturas que llevo un estudiante durante el semestre 2007 II con sus respectivos creditos, obtener la media ponderada correspondiente. N°
1 2 3 4 5 6 7
Asignatura
Elocución y redacción istración II Metodología Científica Realidad Peruana Matemática básica Análisis matemático Contabilidad básica
N° de créditos
Promedio final
w
x
3 3 3 3 4 5 3
15 13 16 18 11 10 15
x= x=
(15x3) + (13x3) + (16x3) + (18x3) + (11x4) + (10x5) + (15x3) (3+3+3+3+4+5+3) (325) (24)
= 13.54
MODA (M0) Es el valor de la variable que mas veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser única. Y si no hay ningún valor que se repite se dice que es amodal.
La moda es el valor que se presenta con mayor frecuencia en una distribución. Se representa Mo. Es importante observar si la representación gráfica de los datos presenta un solo modo (unimodal), dos modos (bimodal) o más de dos (multimodal). Por ejemplo, en el caso en que se analiza el desarrollo de una epidemia según la fecha de aparición de los primeros síntomas de los afectados y, en la representación gráfica se observa un solo modo, significa que todos los casos estuvieron expuestos a una fuente única de infección. Si los modos fueran dos, las fuentes de infección también serían dos y en el caso de un gráfico multimodal, la exposición a la infección sería múltiple.
Ejemplo: 1. Determine la moda de los datos que se muestran a continuación, se refieren a la
estatura de un grupo de jóvenes: 1.60, 1.65, 1.70, 1.71, 1.70, 1.70, 1.70, 1.71, 1.70, 1.93, 1.87, 1.85 m. Solución:
Estatura 1.60 1.65 1.70 1.71 1.85 1.87 1.93
Frecuencia 1 1 5* 2 1 1 1
La tabla muestra la distribución de frecuencias de los datos o el numero de veces que estos se repiten, la mayor frecuencia que es 5 corresponde a una estatura de 1.70 m, por lo que esta seria la MODA. Xmod = 1.70 m.
2.
Determine la moda de los siguientes datos que se refieren a la edad de alumnos de primer semestre de la carrera profesional de Psicología: 18, 17, 19, 21, 19, 18, 22, 22, 18, 18, 17, 19, 19, 19, 18, 20, 21, 20, 18, 19, 18, 19, 18, 19, 22, 35. Solucion: Edad de alumnos 17 18 19 20 21 22 35
Frecuencia 2 8* 8* 2 2 3 1
En este caso se observa que las edades que mas frecuencia tienen son las de 18 y 19 años, por lo que concluimos que existen dos modas por lo tanto es BIMODAL. Xmod1 = 18 años, Xmod2 = 19 años.
CUANTILES Este termino es usado en la Estadística Descriptiva y se refiere a las medidas de posición no central que nos permiten reconocer otros puntos característicos de la distribución que no son centrales. Son medidas de localización similares a las anteriores. Se las denomina cuantiles (Q). Su función es informar del valor de la variable que ocupara la posición (en tanto por cien) que nos interese respecto de todo el conjunto de variables. Podemos decir que los cuantiles son unas medidas de posición que dividen a la distribución en un cierto numero de partes de manera que en cada una de ellas hay el mismo numero de valores de la variable. Las más importantes son: a. Cuartiles: Dividen a la distribución en cuatro partes iguales (tres divisiones). C1, C2, C3, correspondientes a 25%, 50%, 75%. b. Deciles: Dividen a la distribucion en 10 partes iguales (nueve divisiones). D1, D2, D3, D4, …, D10, correspondiente a 10%, 20%, 30%, 40%, …, 90%.
c. Percentiles: Dividen a la distribución en 100 partes iguales (99 divisiones). P1, P2, P3, P4, …, P100, correspondientes a 1%, 2%, 3%, 4%, …, 99%. Existe un valor en el cual coinciden los cuartiles, los deciles y percentiles, esto sucede cuando son iguales a la Mediana y así veremos: 2 4
=
5 10
=
50 100
Distinguiremos a los cuantiles entre distribuciones agrupadas y las que no lo están:
CUANTILES EN LAS DISTRIBUCIONES SIN AGRUPAR: Primero hallaremos el lugar que ocupa. Entonces tendremos que: Ni=1 < (%) . n < Ni → Q = Xi
En el supuesto que (%) . n = Ni → Q =
Xi + xi+1 2
Primero encontraremos el intervalo donde estará el cuartil:
Lugar:
Ni=1 < (%) . n < Ni → Intervalo [Li-1, Li), en este caso: Q = Li-1 + (%) N – Ni-1 ai ni
Ejemplo de Distribuciones NO AGRUPADAS: xi ni Ni 5 10 15 20 25
3 7 5 3 2 n = 20
3 10 15 18 20
Calcular la mediana (Me); el primer y tercer cuartil (C1, C3); el 4° decil (D4) y el 90 percentil (P90).
Solución: Calculando la Mediana (Me): Aplicamos la formula Me = N / 2 = (20 ) / 2 = 10, esto significa que la mediana se ubica en la posición 10, como es un valor de la frecuencia absoluta acumulada, realizaremos el calculo y este valor corresponde a, Me = (Xi + Xi+1) / 2 = (10+15)/ 2 = 12.5 Calculando el Primer cuartil (C1): Lugar que ocupa en la distribución (1/4) . 20 = 20/4 = 5, como Ni-1< (25%).n< Ni, es decir 3 < 5 < 10, esto implica que C1 = xi = 10 Calculando el Tercer cuartil (C3): Lugar que ocupa en la distribución (3/4) . 20 = 60/4 = 15, que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizamos el calculo: C3 = (Xi + Xi-1) / 2 = (15 + 20) / 2 = 17.5 Calculando el cuarto decil (C4): Lugar que ocupa en la distribución (4/10) . 20 = 80/10 = 8, como Ni-1< (%).n< Ni, es decir 3 < 8 < 10, esto implica que D4 = xi = 10
Nonagésimo percentil (P90): Lugar que ocupa en la distribución (90/100) . 20 = 1800/100 = 18, que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizamos el calculo: P90 = Xi + xi-1 = 2
20 + 25 25
=
22,5
CUANTILES EN LAS DISTRIBUCIONES AGRUPADAS: Ejemplo de Distribuciones AGRUPADAS: Hallar el primer cuartil, el cuartodecil y el 90 percentil de la siguiente distribución: [Li-1, Li) [ 0 , 100 ) [ 100 , 200 ) [ 200 , 300 ) [ 300 , 800 )
ni 90 140 150 120 n = 20
Ni 90 230 380 500
Solución: Calculando el Primer cuartil (C4): Lugar que ocupa el intervalo del primer cuartil: (1/4) . 500 = 500/4 = 125, por lo tanto C4 estará situado en el intervalo [ 100 , 200 ), aplicando la expresión directamente tendremos: C4 = 100 +
125 - 90 140
100 = 125
Calculando el cuarto decil (D4): Lugar que ocupa en la distribución (4/10) . 500 = 2000/10 = 200, por tanto D4 estará situado en el intervalo [100 – 200). Aplicando la expresión tendremos: D4 = 100 +
200 - 90 140
100 = 178, 57
Calculando el Nonagésimo Percentil (P90): Lugar que ocupa el intervalo: (90/100) . 500 = 45000/100 = 450, por lo tanto P90 estará situado en el intervalo [ 300 , 800 ), aplicando la expresión directamente tendremos: C4 = 300 +
450 - 380 120
100 = 358.33
Estadígrafos de Dispersión o Medidas de Dispersión Las medidas de tendencia central nos proporcionan información sobre el comportamiento de un conjunto de observaciones a través de un dato que tiende a ubicarse en un punto central, pero no nos proporciona información sobre las variaciones o dispersiones que pueden tener los datos en su conjunto, es decir sobre la homogeneidad o heterogeneidad de los datos. Para poder determinar esta variación en un grupo de datos respecto a una variable determinada. Se recurre a medidas de desviación o variación cuyo objetivo principal es “Medir el grado de dispersión o concentración de los valores o datos, alrededor de las medidas de tendencia central”. AMPLITUD O RANGO PARA DATOS NO AGRUPADOS Y DATOS AGRUPADOS Rango viene a ser la diferencia entre el dato mayor y el dato menor : R = Xmáx – Xmin Donde : Xmáx = dato máximo ; Xmin = dato mínimo
RANGO INTERCUARTILICO En estadística descriptiva, se le llama rango intercuartílico o rango intercuartil, a la diferencia entre el tercer y el primer cuartil de una distribución. Es una medida de dispersión estadística. A diferencia del rango, se trata de un estadístico robusto. El rango intercuartílico es una medida de variabilidad adecuada cuando la medida de posición central empleada ha sido la mediana. Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3 - Q1. A la mitad del rango intercuartil se le conoce como desviación cuartil (DQ): DQ = RQ/2= (Q3 - Q1)/2. Se usa para construir los diagramas de caja y bigote (box plots) que sirven para visualizar la variabilidad de una variable y comparar distribuciones de la misma variable; además de ubicar valores extremos.
PARA DATOS NO AGRUPADOS
Ejemplo: 1. Tenemos los siguientes datos originales, las edades de los alumnos del 4 semestre del curso de Psicología a distancia : 20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48 Calculamos el primer cuartil (Q1): Q1 = (1/4).n = 1/4.12= 3
Calculamos el tercer cuartil (Q3): Q3 = (3/4).n = 3/4.12= 9
Ordenamos los datos: 18, 20, 20, 24, 32, 32, 32, 48, 49, 53, 59, 63 ↑ Q1 = 20+24/2 Q1 = 22
↑ Q3 = 49+53/2 Q3 = 51
Interpretación: A partir de los 22 años hasta los 51 se ubica el 50 % de la distribución. Calculamos el rango intercuartilico:
RQ = Q3 - Q 1 = 51 – 22 = 29 29 años es la distancia existente en el 50% central de la distribución.
PARA DATOS AGRUPADOS
Ejemplo: 1.
Tenemos los datos de distribución de países según porcentaje de la población de 15 y más años de edad analfabética. [Li-1, Li) MC fi fr fA F% ai 0-5 5 - 10 10 – 20 20 - 42 n = total
2,5 7,5 15 31
14 8 3 3 28
50 28 11 11
Calculamos el primer cuartil (Q1): Q1 = Li-1 + (¼).N – Fi-1 fi
. ai
14 22 25 28
50 78 89 100
5 5 10 22
Q1 = 0 +
Q3 = 5 +
(1/4.28) – 0 14
(3/4.28) – 14 8
RQ = 9,4−2,5 = 6,9
. 5 = 2.5
. 5 = 9.4
VARIANZA PARA DATOS NO AGRUPADOS La varianza representa la media aritmética de las desviaciones de la media elevadas al cuadrado. Si atendemos a la colección completa de datos (la población en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atención solo a una muestra de la población, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuación. Expresión de la varianza muestral: 2 Sx
∑i n= 1
=
∑ Xi 2
2
( Xi – X ) n-1
=
σ
2
=
N ∑ i = 1 ( Xi –µ)
N
- X
n-1
Expresión de la varianza poblacional :
2
∑ Xi
2
=
2
N
2
-µ
Ejemplo: La siguiente muestra representa las edades de 25 personas sometidas a un análisis de preferencias para un estudio de mercado. 25
19
21
35
44
20
27
32
38
33
18
30
19
29
33
26
24
28
39
31
31
18
17
30
27
Determinar la Varianza. Solución:
Paso 1: Calculamos la media aritmética X = 25+19+21+35+44+20+27+ … + 27/ 25 = 694/25 = 27.76
Paso 2: Calculamos la varianza. Edades
Xi - X
(Xi - X)2
17 18 18 19 19 20 21 24 25 26 27 27 28 29 30 30 31 31 32 33 33 35 38 39 44 ∑xi = 694 X = 694/25 = 27.76
17- 27.76 = 10.76 18- 27.76 = 9.76 18- 27.76 = 9.76 19- 27.76 = 8.76 19- 27.76 = 8.76 20- 27.76 =7.76 21- 27.76 = 6.76 24- 27.76 = 3.76 25- 27.76 = 2.76 26- 27.76 = 1.76 27- 27.76 = 0.76 27- 27.76 = 0.76 28- 27.76 = 0.24 29- 27.76 = 1.24 30- 27.76 = 2.24 30- 27.76 = 2.24 31- 27.76 = 3.24 31- 27.76 = 3.24 32- 27.76 = 4.24 33- 27.76 = 5.24 33- 27.76 = 5.24 35- 27.76 = 7.24 38- 27.76 = 10.24 39- 27.76 = 11.24 44- 27.76 = 16.24
115.778 95.258 95.258 76.738 76.738 60.218 45.698 14.138 7.618 3.098 0.578 0.578 0.058 1.538 5.018 5.018 10.498 10.498 17.978 27.458 27.458 52.418 104.858 126.338 236.738 ∑ (xi – x)2 = 1217.57
Aplicando la formula: S2 = 1217.57/25-1 = 50.73
VARIANZA PARA DATOS AGRUPADOS
Para calcular la varianza de una tabla de frecuencias, es necesario utilizar la siguiente fórmula:
Donde:
Ejemplo: Calcular la varianza de la distribución de la tabla:
DESVIACION ESTANDAR O DESVIACION TIPICA DE DATOS NO AGRUPADOS La desviación estándar es una medida del grado de dispersión de los datos del valor promedio. Dicho de otra manera, la desviación estándar es simplemente el “promedio” o variación esperada con respecto de la media aritmética. Una desviación estándar grande indica que los puntos están lejos de la media y una desviación pequeña indica que los datos están agrupados cerca de la media. Expresión de la Desviación Estándar muestral:
√S
2
=
√
∑ ni = 1 (xi – x)2
n-1
Expresión de la Desviación Estándar poblacional:
√
2
σ
=
√
∑ in= 1 (xi – µ) 2
N
Ejemplo: 1. Calcular la desviación estándar de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 Paso1: Calculamos la media aritmética.
Paso2: Calculamos la desviación estándar.
DESVIACION ESTANDAR O DESVIACION TIPICA DE DATOS AGRUPADOS Expresión de la Desviación Estándar:
Ejemplo: 1. Calcular la desviación típica de la distribución de la tabla:
xi
fi
xi · fi
x i2 · f i
[10, 20)
15
1
15
225
[20, 30)
25
8
200
5000
[30,40)
35
10
350
12 250
[40, 50)
45
9
405
18 225
[50, 60)
55
8
440
24 200
[60,70)
65
4
260
16 900
[70, 80)
75
2
150
11 250
42
1 820
88 050
COEFICIENTE DE VARIACION PARA DATOS NO AGRUPADOS El coeficiente de variación o dispersión es útil para comparar dispersiones a escalas distintas pues es una medida invariante ante cambios de escala . Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen . Por ellos es importante que todos los valores sean positivos y su media es por tanto un valor positivo
Exigimos que: X > 0 Se calcula: CV =
S X
Donde S es la desviación típica. Se puede dar en tanto por ciento.
Calculando: CV =
S X
. 100
COEFICIENTE DE VARIACION PARA DATOS AGRUPADOS
Se calcula:
Ejemplo: 1. Matías, un estudiante universitario, tiene las siguientes calificaciones en
las 10 asignaturas que recibe en su carrera: 8, 7, 10, 9, 8, 7, 8, 10, 9 y 10. Josué, un compañero de Matías, tiene las siguientes calificaciones: 8, 9, 8, 7, 8, 9, 10, 7, 8 y 10. ¿Cuál estudiante tiene menor variabilidad en sus calificaciones?
a) Se agrupa las calificaciones y se realiza el cálculo de la media aritmética.
b) Se calcula la desviación estándar.
c) Se calcula el coeficiente de variación. Para Matías se obtiene:
Para Josué se obtiene: