Estadística
1
Curso Formato Autor Título Edición Pie de imprenta Descrip. física Elaborador Revisor
Estadística (2242) Manual de curso Cibertec Estadística 2a ed. Lima: Cibertec, 2018 50 p. QUISPE NARVAEZ, Edgar GARCIA CARDENAS, Jorge
2
Índice Presentación Red de contenidos
3 4
Unidad de Aprendizaje 1
ESTADISTICA DESCRIPTIVA 1.1 Tema 1 : Conceptos básicos de Estadística 1.1.1 : Población y muestra 1.1.2 : Variables estadísticas 1.1.3 : Técnicas e instrumentos de recolección de datos 1.1.4 : Elaboración de tablas de distribución de frecuencias 1.1.5 : Interpretación y elaboración de gráficos estadísticos: Histograma, polígono de frecuencia y diagrama circular
7 8 9 11 12 17
1.2 Tema 2 1.2.1 1.2.2
: : :
Medidas de Tendencia Central Tipos y aplicaciones de las medidas de tendencia central Cálculo e interpretación de medidas de tendencia central
26 26 28
1.3 Tema 3 1.3.1
: :
36
44 44 45
1.3.2
:
Medidas de Dispersión Tipos y aplicaciones de las medidas de dispersión: Varianza, desviación estándar y coeficiente de variación Cálculo e interpretación de medidas de dispersión
1.4 Tema 4 1.4.1 1..2
: : :
Medidas de distribución de forma Medidas de asimetría Medidas de curtosis
36 37
9
3
Presentación Hoy en día, la toma de decisiones es muy importante en cualquier área de trabajo. En esta oportunidad, el manual está orientado al área de negocios. En la actualidad, todo profesional debe estar en constante o con información de naturaleza estadística. Es más, muchas veces es necesario que un profesional de cualquier área tenga que realizar alguna medición estadística para poder tener una idea acerca de la marcha de una empresa, para tomar una decisión organizacional o, finalmente, para proyectar datos a futuro. El presente curso ofrece, al futuro profesional, las herramientas estadísticas necesarias para organizar, calcular, evaluar e interpretar información estadística, haciendo énfasis en los fundamentos para realizar dichos procesos. Así, se estudian los fundamentos teóricos y prácticos de la Estadística Descriptiva, haciendo énfasis en la lógica de sus diferentes métodos y técnicas de trabajo y los recursos de los que disponen para calcular y obtener las soluciones a los problemas planteados. Además, se adquiere destreza en la interpretación y manejo de las definiciones, teoremas y fórmulas estadísticas. En el presente manual se exponen las herramientas metodológicas para el análisis de cuadros estadísticos en donde se analizará las medidas de tendencia central, medidas de dispersión y las medidas de forma En las sesiones de clase, el curso se desarrolla en forma teórico – práctica; por lo que las mismas tendrán exposiciones dialogadas sobre los fundamentos de los temas que se tratarán y la resolución de ejercicios, dándole mayor énfasis a esta última parte y al análisis e interpretación de resultados.
4
Red de Contenidos
5
LA ESTADÍSTICA
6
UNIDAD
1
ESTADÍSTICA DESCRIPTIVA LOGRO DE LA UNIDAD DE APRENDIZAJE Al término de la unidad, el alumno, trabajando de manera individual, calcula e interpreta estadísticos de tendencia central, de dispersión y de forma, sobre la base de un conjunto de datos no agrupados o agrupados en una Tabla de Distribución de Frecuencias. TEMARIO 1.1 Tema 1 1.1.1: 1.1.2: 1.1.3: 1.1.4: 1.1.5:
: Conceptos básicos sobre Estadística Población y Muestra Variables estadísticas y su clasificación Técnicas e instrumentos de recolección de datos Elaboración de tablas de distribución de frecuencias Interpretación y elaboración de gráficos estadísticos: Histograma, Polígono de Frecuencia y Diagrama Circular
1.2 Tema 2 : Medidas de tendencia central 1.2.1: Tipos de la medidas de tendencia central 1.2.2: Cálculo e interpretación de medidas de tendencia central. 1.3 Tema 3 : Medidas de dispersión 1.3.1: Tipos de medidas de dispersión: Varianza, Desviación Estándar y Coeficiente de Variación 1.3.2: Cálculo e interpretación de medidas de dispersión
1.4 Tema4 : Medidas de distribución de forma 1.4.1: Medidas de asimetría 1.4.2: Medidas de curtosis
7
1.1.
TEMA 1: CONCEPTOS BÁSICOS
Una división clásica, hasta hace unos 30 años, divide a la Estadística en dos grandes ramas de trabajo:
• Estadística Descriptiva • Estadística Inferencial Estadística descriptiva
La estadística descriptiva tiene como fin presentar resúmenes de un conjunto de datos y poner de manifiesto sus características, mediante representaciones gráficas. Los datos se usan para fines comparativos, y no se usan principios de probabilidad. El interés se centra en describir el conjunto dado de datos y no se plantea el extender las conclusiones a otros datos diferentes o a una población (Carmen batanero, 2001, p. 10)
Estadística Inferencial
La inferencia estadística, por el contrario, estudia los resúmenes de datos con referencia a un modelo de distribución probabilístico o una familia de modelos, determinando márgenes de incertidumbre en las estimaciones de los parámetros desconocidos del mismo. Se supone que el conjunto de datos analizados es una muestra de una población y el interés principal es predecir el comportamiento de la población, a partir de los resultados en la muestra. (Carmen batanero, 2001, p. 10)
Esta división es hoy demasiado simple y han surgido diferentes corrientes dentro de la estadística 1.1.1 Población y Muestra Definimos como POBLACIÓN a la totalidad de elementos a estudiar, entre los cuales se presenta determinada característica susceptible de ser estudiada. Estos elementos pueden ser personas, objetos, etc. Definimos la MUESTRA como un subconjunto de la población que se está estudiando. Esta muestra se selecciona con el propósito de obtener información, acerca de toda la población, utilizando técnicas de inferencia estadística.
8
En el recuadro adjunto, proporcione tres ejemplos de población con su respectiva muestra: POBLACIÓN
MUESTRA
El ganado vacuno de las regiones del norte del Perú en el año 2017
Cierto porcentaje del ganado vacuno seleccionado de forma aleatoria de las regiones del norte del Perú en el 2017 .
Indique si las siguientes afirmaciones corresponden a una población o a una muestra Afirmación Población Ocupaciones actuales del 30% de profesionales Licenciados en Matemática, egresados hace 6 años Niños nacidos vivos en la Clínica “Mi cuna” desde su apertura hasta la actualidad Ventas de productos de primera necesidad en tres mercados de tu ciudad Antecedentes fisiológicos de 15 mujeres de 30 a 49 años de edad atendidas en el hospital “Y” durante los meses de Enero – Abril del año pasado Tipo de dieta en el 60% de las raciones servidas a pacientes en el Hospital “Z”. Precios de todos los productos químico farmacéuticos importados por el Perú el año pasado Reclusos egresados de un Centro Penitenciario hace dos años
Muestra
Enfermos con cáncer, observados desde que se creó la Clínica Oncológica “X”
1.1.2 Variable estadística Es toda propiedad, característica o cualidad que presentan los elementos que forman parte de la muestra y/o población. La determinación de la(s) variables(s) contesta a la pregunta: ¿QUÉ ESTOY ESTUDIANDO?
Variable cuantitativa Se denomina así a aquellas variables cuyos valores están asociados al concepto de cantidad. Las variables cuantitativas se denominan DISCRETAS cuando sus valores provienen de la técnica de conteo. 9
Las siguientes son ejemplos de variables discretas: número de autos vendidos por una tienda en un día, número de alumnos asistentes a las clases de un curso de estadística. Las variables cuantitativas se denominan CONTINUAS cuando sus valores proviene de la técnica de medición. Las siguientes son ejemplos de variables continuas: tiempo que demora un estudiante en realizar un examen, peso de un estudiante.
Variable cualitativa Indica alguna cualidad, atributo o categoría del elemento estudiado. Se caracterizan porque por sí misma no proporciona valor numérico. Las variables cualitativas se denominan ORDINALES cuando los datos proporcionados por la variable son susceptibles de ser ordenados a través de una jerarquía. Las variables cualitativas se denominan NOMINALES cuando no es posible ordenar los
A continuación, se muestra una relación de variables, las que debes clasificar, de acuerdo a lo indicado en la tabla: Cualitativa Variable
Nominal
Preferencias políticas (Izquierda, centro, derecha) Marcas de gaseosa
Peso en Kg Velocidad en Km/hr Número de empleados de una empresa Ubicación según cuadro de méritos Nacionalidad Nivel de instrucción Número de ancianos abandonados en los hospitales Grado de desnutrición Categoría docente (Principal, asociado, auxiliar) Consumo per cápita Nivel de inflación mensual Número telefónico de los estudiantes
10
Ordinal
Cuantitativa Discreta
Continua
1.1.3 Técnicas e instrumentos de recolección de datos Una Técnica de Recolección de Datos es un procedimiento y/o actividad que le permite al investigador obtener la información necesaria para dar respuesta a su pregunta de investigación. Cada técnica de recolección de datos tiene su propio instrumento. Algunas técnicas de recolección de datos se tienen: Encuesta Observación Entrevista Análisis documental
RECOLECCION DE DATOS
TÉCNICA 1. 2. 3. 4. 5. 6.
INSTRUMENTO
Encuesta Entrevista Focus Group Análisis documental Observación no experimental Observación experimental
1. 2. 3. 4. 5. 6.
Cuestionario, test, prueba Guía de entrevista Guía de moderación Ficha de registro de datos Guía de observación Guía de observación / Ficha de registro de datos
Aplicaciones: Proponga las técnicas e instrumentos que se podrían utilizar en la recolección de datos para responder las preguntas que se presentan a continuación y explique la razón de su elección: PREGUNTA
TÉCNICA
Opinión de los estudiantes universitarios de tu ciudad sobre la acreditación de las universidades Niveles de autoestima de los trabajadores de una empresa Comportamiento de los estudiantes durante la prueba final de un curso.
11
INSTRUMENTO
Pronóstico del número de productos vendidos de cierta empresa privada, para el próximo año, teniendo en cuenta las ventas durante los últimos diez años Proceso productivo más confiable para producir harina de pescado en alta mar. Estimación de los ingresos en el rubro de servicios de telefonía fija, basado en registros de años anteriores Experiencias de las personas sometidas a terapia sicológica por violencia familiar Propuesta de los decanos de las Escuelas de Medicina sobre el logro de las competencias profesionales de sus estudiantes
1.1.4 Elaboración de tablas de distribución de frecuencias a. Para datos continuos se recomienda la siguiente tabla:
b. Para datos discretos y cualitativos
Donde: mi : marca de clase
: Es el punto medio de cada intervalo Se calcula como la semisuma de los límites de cada Intervalo : Cantidad de datos contenidos por intervalos
fi
: Frecuencia absoluta
Fi
: Frecuencia absoluta acumulada : Es la acumulación de las fi hasta el intervalo señalado
hi
: Frecuencia relativa
: Es la relación entre cada fi y el total de datos ( hi / n) 12
Hi
: Frecuencia relativa acumulada
pi% : Frecuencia relativa porcentual
: Es la acumulación de las hi hasta el intervalo señalado : Es la hi expresado en tanto por ciento
𝑛
𝑛
𝐹𝑛 = ∑ 𝑓𝑖
𝐻𝑛 = ∑ ℎ𝑖
𝑖=1
1.1.4.1
𝑖=1
Tabla de Distribución de Frecuencias para datos cualitativos Se encuestaron a 36 personas y entre las preguntas realizadas, se les solicitó indicaran su grado de instrucción, las respuestas que proporcionaron fueron registradas: Sup Sup Sup
Prim Sup Sec
Post Sec Sup
Post Sup Sup
Sup Sup Sec
Sec Sup Sup
Sec Sup Sup
Sup Sup Sec
Post Sup Prim
Sec Sup Sup
Sup Prim Sup
Sup Sup Sec
GRADO DE INSTRUCCIÓN DE LOS ENCUESTADOS
G° INSTRUCCIÓN PRIMARIA SECUNDARIA SUPERIOR POST GRADO TOTAL
N° ENCUEST. 3 8 22 3 36
pi% 8.3% 22.2% 61.1% 8.3% 100%
FUENTE: ENCUESTA REALIZADA EN EL MES DE MAYO DEL 2015
1.1.4.2
Tabla de Distribución de Frecuencias para Datos Discretos cuando el rango es pequeño Se utilizan cuando la variable es cuantitativa discreta. Se caracteriza porque no hay que formar intervalos (no es necesario agrupar los datos)
EJEMPLO: A continuación, se muestra el número de hijos de 36 familias de Lima: 2
3
4
5
1
2
3
2
1
0
2
1
5
3
1
2
3
2
2
4
3
5
2
0
2
1
3
1
1
4
2
3
4
5
1
0
13
Resolución: La variable de estudio (X) es el número de hijos de 36 familias. Luego, construyendo la Tabla de Distribución de Frecuencias, se tiene lo siguiente: N° Hijos
N° Familias ( fi)
Fi
hi
Hi
0
3
3
0,0833
0,0833
1
8
11
0,2222
0,3055
2
10
21
0,2778
0,5833
3
7
28
0,1944
0,7777
4
4
32
0,1111
0,8888
5
4
36
0,1111
0,9999
≈1
36
1.1.4.3
Tabla de Distribución de Frecuencias para Datos Continuos cuando el rango es grande Debemos tener en cuenta los siguientes datos:
EJEMPLO 1: El jefe de la Oficina de Rentas de la Municipalidad de Miraflores ha realizado un estudio sobre los impuestos que pagan los vecinos del distrito. La tabla muestra los pagos de impuestos, en nuevos soles, en el 2014 de 48 viviendas elegidas al azar.
145,1
216,3
252,5
303,6
196,9
234,8
265,2
317,2
206,5
242,9
289,1
331,7
151,0
225,9
257,1
305,8
202,6
238,4
271,0
320,2
208,0
244,0
291,0
344,6
159,0
227,1
259,2
315,4
204,9
239,9
286,7
324,8
208,0
247,7
291,9
346,7
195,6
231,2
262,5
315,5
206,1
241,1
288,1
331,1
209,3
249,5
294,5
351,1
14
Elabore la tabla de frecuencias para el variable pago por impuestos municipales año 2014
Resolución El rango “ R ” se calcula con: R = Max - Min = 351,1 – 145,1 = 206 Siguiendo la regla de Sturges, el número de intervalos es: K>=1+ 3,322 log n = 1+3,322 log (48)= 6,585= 7 El ancho del intervalo es: W = 206 / 7 = 29,5 Nota: la marca de clase es la semisuma de los límites de cada intervalo Distribución de frecuencias del pago de impuestos municipales del año 2014
Pago de impuestos
Marca de clase mi
N° Viviendas fi
Fi
hi
Hi
[145,1 - 174,6>
159,85
3
3
0,0625
0,0625
[174,6 - 204,1>
189,35
3
6
0,0625
0,1250
[204,1 - 233,6>
218,85
10
16
0,2084
0,3334
[233,6 - 263,1>
248,35
12
28
0,2500
0,5834
[263,1 - 292,6>
277,85
7
35
0,1458
0,7292
[292,6 - 322,1>
307,35
7
42
0,1458
0,8750
6
48
0,1250
1,0000
[322,1 - 351,6] Total
336,85
48
1.0000 Fuente: Registro de Rentas de la Municipalidad de Miraflores
EJEMPLO 2: Los siguientes datos son los puntajes obtenidos por 50 estudiantes en un examen:
Elabore su tabla de distribución de frecuencias. 15
resolución: • • •
Aplicando la Regla de Sturges, encontramos que K ≥ 6,64 → K = 7 El rango de los datos está dado por R = 97 – 33 = 64 Luego, la amplitud de los intervalos está dado por A = ( 64 / 7 ) = 9,143
Finalmente, construyendo la Tabla de Distribución de Frecuencias, se tiene lo siguiente:
Intervalos
mi
Fi
hi
Hi
[ 33 – 42,143 >
37,57
7
7
0,14
0,14
[ 42,143 – 51,286 >
46,71
4
11
0,08
0,22
[ 51,286 – 60,429 >
55,85
9
20
0,18
0,40
[ 60,429 – 69,572 >
65,00
11
31
0,22
0,62
[ 69,572 – 78,715 >
74,14
9
40
0,18
0,80
[ 78,715 – 87,858 >
83,28
5
45
0,10
0,90
[ 87,858 – 97 ]
92,42
5
50
0,10
1
Total
1.1.4.4
fi
50
1
¿Cómo Interpretar los Datos de una Tabla? Cada uno de los datos de la tabla permite obtener cierta información, dependiendo de su ubicación.
Intervalos [26 – 34> [34 – 42> [42 – 50> [50 – 58> [58 – 66> [66 – 74> [74 – 82> [82 – 90]
mi 30 38 46 54 62 70 78 86
fi 1 2 4 10 16 8 3 1 45 16
Fi 1 3 7 17 33 41 44 45
hi 0,022 0,044 0,089 0,222 0,356 0,178 0,067 0,022
Hi 0,022 0,066 0,154 0,376 0,732 0,910 0,977 1
De acuerdo a la tabla mostrada, extraemos algunos datos que se pueden interpretar como ejemplo: f5
:
Existen 16 trabajadores cuyo sueldo está va desde los 58 a menos de 66
m5 :
sueldo promedio es de 62 soles diarios
F3 :
Hay 7 trabajadores que tienen un sueldo promedio menor o igual a 50 soles
h2 :
El 4,4% de los trabajadores tiene un sueldo promedio de 38 soles diarios
h4 :
El 22,2% de los trabajadores tiene un sueldo que oscila entre 50 y 58 soles
H6 :
El 91% de los trabajadores tiene un sueldo menor a 74 soles diarios
1.1.5 Interpretación y Elaboración de Gráficos Estadísticos: Histograma, Polígono de Frecuencia y Diagrama Circular 1.1.5.1 Histogramas Es aquel diagrama que se obtiene considerando los intervalos de clase con las frecuencias absolutas o las frecuencias relativas. Se caracteriza por ser un conjunto de barras verticales cuyas alturas dependerán de las frecuencias que se tenga Ver gráfica de un histograma
17
1.1.5.2
Diagrama Circular Son utilizados en aquellos casos donde nos interesa no solo mostrar el número de veces que se da una característica o atributo, si no también visualizar mejor la proporción en que aparece esa característica respecto del total. Ver gráfica de un diagrama circular.
1.1.5.3
Polígono de Frecuencia Es aquel diagrama que se obtiene considerando las marcas de clase con las frecuencias absolutas o las frecuencias relativas. Ver gráfica de un polígono de frecuencia
18
ACTIVIDADES PROPUESTAS 1.
a) b) c) d)
Ud. es el encargado de realizar un estudio de mercado para la empresa de comercialización de zapatos para bebé “PUJLLAY SAC” en la ciudad de TOWN CENTER para conocer las preferencias en el calzado de bebé de la población, así como el precio que estarían dispuestos a pagar por el producto. Para el efecto, usted tomó una muestra aleatoria de 800 mujeres con hijos menores de 3 años en diferentes distritos de la ciudad y aplicó una encuesta de opinión. Algunos de los resultados que se obtuvieron son los siguientes: El 75% de los encuestados prefiere adquirir zapatillas para bebé. Los encuestados, en promedio, pueden pagar 47 soles por un calzado para bebé. El color que más prefieren los encuestados para el calzado de bebé es el blanco. Al menos un tercio de las encuestadas compra zapatos de bebé dos veces al año. De acuerdo al enunciado, identifique la población, la muestra, las variables y sus respectivos tipos.
2.
Una popular cadena de comida peruana “Pacha Mama” ubicada en 10 estados del sur de Estados Unidos, con un total de 356 establecimientos; recientemente ha experimentado un marcado cambio en sus ventas, como consecuencia de una campaña publicitaria bastante exitosa. Para saber con certeza cuál de los cambios realizados influyen en los incrementos de sus ventas, contrata los servicios de una empresa de estudios de mercado que toma una muestra de 60 establecimientos y encuentra los siguientes resultados: El 98.5% asegura que la sazón del puka picante ha mejorado. El 60% afirma que la atención es más rápida en el pedido de los juanes. El 95% cambió la entrada por ceviche. Al 5% no le agrada los picantes mexicanos. El 100% consume picantes peruanos. El 96% de las personas consume lomo saltado a pesar de que su precio se incrementó en $5.00. El promedio de consumo personal en estos establecimientos fue de $82.00. De acuerdo a los datos anteriores, determine la población, la muestra y las variables con sus respectivos tipos y además indique el tipo de estimación utilizada.
3.
Aceros Arequipa ha estado buscando los factores que influyen en las ventas de varas de acero (en millones de toneladas) que realiza en la ciudad de Lima. Tomó una muestra de 300 establecimientos en diferentes partes de Lima y Callao y después de realizar un estudio de mercado, la istración de la empresa obtuvo los siguientes resultados: Del total de encuestados el 27% dejó de comprar dicho producto. El 90% de encuestados afirman que el producto mantiene su calidad. El 32% no consume solamente el producto. El 56% afirma que el producto se encuentra escaso en el mercado, y de los que afirman esto el 84% compran otro producto. El 95% de los consumidores paga por las varillas de ½ pulgadas entre $ 6.20 y $ 7.05 dólares.
-
-
Además, se encontró que el precio fijado en la ciudad de Lima de $ 6.10 no se respeta, y por esta razón, existe un desabastecimiento del 90% en la ciudad del Callao. De acuerdo a los datos anteriores, determine la población, la muestra y las variables con sus respectivos tipos y además indique el tipo de estimación utilizada.
19
4.
Una empresa dedicada a la fabricación de conservas de pescado tiene planeado introducir al mercado conservas de trucha. Para ello, le encargó a una empresa investigadora de mercado la realización de un estudio mediante el que le interesaba averiguar, entre otras cosas, la aceptación del nuevo producto y el precio que las personas estarían dispuestas a pagar. La encuesta fue realizada en Lima y se entrevistaron a 250 personas. De los encuestados, el 67% estarían dispuestos a consumir el nuevo producto. Además, se concluyó que el precio del producto debería oscilar entre S/. 3,50 y S/. 5,50. Determine lo siguiente: La población y la muestra del estudio. Las variables y sus respectivos tipos
5.
Un empresario tiene la idea de implementar la venta de chicha morada en envase no retornable. Piensa, en un principio, que debe analizar la posibilidad de lanzar su producto en lugares que sean cálidos durante gran parte del año. Para ello, realiza un estudio de factibilidad en Piura e Iquitos. En Piura, el 90% de los 250 encuestados está dispuesto a consumir el nuevo producto. En cambio, en Iquitos, el 85% de los 300 encuestados muestra esta disposición. También, obtuvo información acerca de la utilidad que conseguiría. En Piura, lograría un promedio de S/. 1,5 de utilidad por producto y, en Iquitos, un promedio de S/. 2. Determine lo siguiente: a) La población y la muestra del estudio. b) Las variables y sus respectivos tipos. c) Si tuviese que elegir entre una de las dos ciudades para llevar a cabo su proyecto, ¿Cuál debería elegir? Justifique.
6.
La empresa OILGASA, empresa que produce aceites para consumo humano, tiene en el mercado tres tipos de aceites: aceite compuesto, aceite vegetal y aceite de olivo. Este laboratorio, preocupado por los incrementos de la competencia, encarga a una empresa de estudios de mercado realizar un estudio sobre las preferencias de las personas de clase media de la ciudad de Lima acerca de dichos productos. Para el estudio, se tomó una muestra aleatoria de 600 personas, obteniéndose lo siguiente: El 55% de los encuestados prefieren el aceite vegetal. El 13% de los encuestados no supo diferenciar entre el aceite compuesto y el vegetal . El 26% de los encuestados confunden la marca por el envase. El 70% está de acuerdo con el precio de dichos productos. Por el precio del aceite de oliva, solamente el 5% lo consume. El 85% de las personas paga por un litro de aceite vegetal entre 4.00 y 5.50 nuevos soles La utilidad que se encontraría es de 1.20 nuevos soles en el aceite y en el aceite Compuesto 1.30 nuevos soles.
• • • • • • •
De acuerdo al enunciado, identifique: Población, muestra, tipos de variables. 7.
Se realiza un estudio en una ciudad sobre la capacidad hotelera y se obtienen los siguientes resultados: Plazas Nº de hoteles
a) b) c)
[0 - 10> [10 – 30> [30 – 60>
25 50 55
[60 – 100>
20
Represente gráficamente esta distribución de frecuencias mediante un histograma. Determine ¿cuál es la proporción de hoteles que disponen de entre 11 y 60 plazas? Determine ¿cuántos hoteles tienen treinta o menos plazas? 20
d) 8.
Calcule las marcas de clase de cada intervalo.
Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de empleados que hay en cada una de ellas para un estudio posterior. Las observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 1 2, 13,14,15, 11, 11, 12, 16, 17, 17,1 6,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18 , 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12.
a) b) c) d)
9.
Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas. Determine que proporción de sucursales tiene más de 15 empleados Dibuje el diagrama de barras y el diagrama acumulativo de frecuencias correspondientes. Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución de frecuencias y represente su histograma y su polígono de frecuencias acumuladas.
Luis Vargas, asistente del Departamento de Finanzas de PC y rios S.A., ha elaborado el siguiente cuadro sobre la distribución de los montos pagados, en soles, en impuestos de 5ª. Categoría por los trabajadores de la empresa:
Montos pagados
mi
fi
Fi
[ 150 – > 4 [ 250 – > 24 [ > 30 [ > 72 [ ] 8 80 TOTAL a) Complete el cuadro anterior b) Determine el porcentaje de trabajadores cuyos pagos mínimos son de 500 soles 10.
Los valores relativos al número de empresas y trabajadores en una determinada región son los siguientes: a) b) c)
Construye la distribución de frecuencias adecuada a los datos. Determine el número de empresas con más de 300 trabajadores. Determine el porcentaje de empresas con más de 100 trabajadores y menos de 400 Nº de Trabajadores Empresas 100 - 200 200 - 300 300 - 400 400 - 500 500 - 600 600 - 700 700 - 800 800 - 900 900 - 1000
25 37 12 22 21 13 5 3 2 21
11.
Se ha aplicado un test a los empleados de una fábrica, obteniéndose la siguiente tabla: Puntaje
[38, 44>
[44, 50>
[50, 56>
[56, 62>
[62, 68>
[68, 74>
[74, 80]
Nº Trabajadores
7
8
15
25
18
9
6
Construye al menos dos gráficos apropiados a la información anterior. 12.
En una compañía, el sueldo mínimo de 200 empleados es de $ 150. Si se sabe que 20 empleados ganan al menos $150, pero menos de $180, 60 ganan menos de $210, 110 gana menos de $240, 180 ganan menos de $270 y el 10% restante de empleados gana a lo más $300; Construye la distribución y grafique su polígono de frecuencias.
13.
El gerente de control de calidad de una fábrica que produce asientos especiales de fibra de vidrio, quiere identificar los problemas más importantes que se presentan en la elaboración de estos, y poder planear soluciones a dichos problemas de acuerdo a una estrategia basada en la prioridad del problema. Se extrae una muestra aleatoria de los problemas de calidad obteniendo los siguientes resultados:
Número de ocurrencias (fi)
Problema detectado
14.
Color inadecuado Forma no simétrica
28 16
Medidas fuera de norma Superficie rugosa
50 71
Bordes afilados Desprendimiento de capa protectora
9 12
Otros
14
Elabore el diagrama circular En un colegio de un pequeño pueblo de la comunidad valenciana se han recogido los siguientes datos sobre la cantidad de estudiantes matriculados por año, según género: Año 1995 1996
Niños 32 27
Niñas 43 24
1997 1998
29 29
32 31
1999
31
31
Calcule la frecuencia absoluta y la frecuencia relativa para los datos correspondientes a los niños y a las niñas y, disponer los datos mediante un diagrama de sectores o de pastel en cada caso.
22
15.
La siguiente tabla corresponde a la distribución de frecuencias de los salarios del último mes de los empleados de una empresa. Complete la tabla. Frecuencia Absoluta (fi)
Marca de clase
Clase
Frecuencia Acumulada (Fi)
[450 - >
Frecuencia Relativa Acumulada (Hi)
Frecuencia Relativa (hi)
8 750
10 33
0,3
12
16.
La empresa de investigación de mercado “Eléctrico” lleva a cabo un estudio para obtener indicadores que le permitan inferir respecto al consumo de energía eléctrica mensual (medido en kilovatios, redondeado al entero más próximo) de las familias en los departamentos de Arequipa y Tacna. Dicho estudio, sustentado en el análisis de muestras aleatorias tomadas en ambos departamentos, arrojó los siguientes resultados:
Arequipa
227
231
261 270
291
351 359
369 371
382
387 392
393 395
396
413 420
422 424
436
453
461
463 471
495
498 510
512 533
534
541 542
584 589
591
628
630 630 657
666
217
219 263
287
294 340
346 347
348
377 390
392 395
396
397 408
438
438 442
446
447 450
456 481
496
508 511
533 549
583
609 636
418 424
426 429
Tacna
Usando la regla de Sturges, calcule los intervalos de clase y marcas de clase por cada departamento. 17.
Un jefe de recursos humanos está interesado en analizar el impacto en los empleados al suprimir las horas extras de trabajo pagadas que anteriormente se aplicaba. Con este fin, se extraen dos muestras aleatorias. La primera de 80 empleados tomando de los datos históricos de un día al azar con el sistema anterior y la segunda de 60 empleados tomando los datos de un día al azar con el sistema vigente. Se muestran las horas de trabajo por día por empleado.
23
Determine las clases para agrupar y comparar los datos de ambas muestras 18.
Los datos que se muestran a continuación corresponden a las edades de 50 beneficiarios de un programa de asistencia social del gobierno: 81
53
67
60
80
64
56
54
91
61
66
88
67
65
97
72
74
65
73
69
43
54
76
70
86
68
82
75
79
60
41
87
76
97
70
45
60
45
65
56
92
72
82
80
52
65
50
58
70
76
Elabore su tabla de distribución de frecuencias.
Resumen Una manera de averiguar cuál es la variable de un estudio estadístico es preguntarnos lo siguiente: ¿Qué es lo que estoy estudiando? Una misma variable estadística puede tener distintas clasificaciones: puede ser cualitativa o cuantitativa. Los estadígrafos o parámetros provenientes de variables cualitativas se representan mediante proporciones (porcentajes); en cambio, los que provienen de variables cuantitativas se representan, por lo general, mediante promedios. Mostrar la información a través de una Tabla de Distribución de Frecuencias permite, a simple vista, sacar algunas conclusiones respecto al conjunto de datos que estamos estudiando. Las Tablas de Distribución de Frecuencias tienen como principal función facilitar el cálculo de los estadísticos o parámetros adecuados. Las Tablas de Distribución de Frecuencias se pueden elaborar para datos discretos y para datos continuos. Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad: o o o
http://www.vitutor.com/estadistica/descriptiva/a_1.html http://www.uv.es/webgid/Descriptiva/12_conceptos_estadsticos.html http://colposfesz.galeon.com/est501/suma/sumahtml/conceptos/esta distica.htm
24
Discutir las siguientes afirmaciones extraídas del artículo de D. S. Moore: “ Teachinhg Statistics as a respectable subject”. En F. Gordon y S. Gordon (eds), Statistics for the Twenty- First Century, (pp. 14-25).
Fuente: Didáctica de la Estadística de Carmen Batanero
25
1.2 TEMA 2: MEDIDAS DE TENDENCIA CENTRAL Los valores determinados como medidas de tendencia central son aquellos valores que se toman como referencia para señalar y/o analizar el comportamiento de un conjunto de datos. Estos valores tienen por objetivo reemplazar a todo un conjunto de datos dentro de los análisis y cálculos estadísticos. Los más utilizados son la Media Aritmética, la Mediana y la Moda.
1.2.1 Tipos de medidas de tendencia central a)
Media Aritmética
La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota denota con la letra griega μ.
𝑥̅ ; si los datos son datos de una población, la media se
El cálculo de la Media muestral se calcula de la siguiente manera:
Para datos no agrupados
∑ 𝑥𝑖 𝑥̅ = 𝑛
Para datos agrupados Discretos
𝑥̅ =
∑ 𝑥𝑖 ∙ 𝑓𝑖 𝑛
Continuos
𝑥̅ =
∑ 𝑚𝑖 ∙ 𝑓𝑖 𝑛
Ejemplo: determine la media de los datos en el siguiente cuadro:
Fuente: Estadística para istración y economía Anderson, Sweeney, Williams
b)
Mediana
Dado un conjunto de datos ordenados ya sea de forma ascendente o descendente , la mediana es una media de localización que divide al conjunto de datos en dos grupos con la misma cantidad de datos.. Para datos no agrupados, el cálculo de la mediana se realiza mediante la siguiente regla: •
Si el número de datos es impar, la mediana es el valor central del conjunto de datos.
26
•
Si el número de datos es par, la mediana es el promedio aritmético de los datos centrales.
Para datos agrupados, el cálculo de la Mediana se calcula de la siguiente manera:
𝑛 − 𝐹𝑚−1 2 𝑀𝑒 = 𝐿𝑖 + 𝑤 [ ] 𝑓𝑚 Donde:
𝐿𝑖 : Límite inferior de la clase de la mediana 𝐹𝑚−1 : Frecuencia absoluta acumulada del intervalo anterior a la clase de la mediana 𝑓𝑚 ∶ Frecuencia absoluta de la clase de la mediana La clase de la mediana es el primer intervalo cuya frecuencia absoluta acumulada es mayor o igual que la mitad del total de datos Ejemplo: De la tabla anterior determine cuál sería la mediana de los datos c)
Moda
Es el valor que tiene mayor frecuencia absoluta. La desventaja de la moda radica en que en un conjunto de datos puede existir más de un valor que indique la moda. Para datos no agrupados, el cálculo de la moda se realiza con un conteo de los datos y analizando cuál de ellos es el que más se repite (presenta una fi más alta) Para datos agrupados la moda de calcula de la siguiente manera:
𝑀𝑜 = 𝐿𝑖 + 𝑤 [
𝑓0 − 𝑓0−1 ] (𝑓0 − 𝑓0−1 ) + (𝑓0 − 𝑓0+1 )
Donde:
𝐿𝑖 𝑓0 𝑓0−1 𝑓0+1
: Límite inferior de la clase modal ∶ Frecuencia absoluta de la clase modal ∶ Frecuencia absoluta del intervalo anterior a la clase modal ∶ Frecuencia absoluta del intervalo siguiente a la clase modal 27
La clase modal es aquel intervalo que tiene mayor frecuencia absoluta
1.2.2 Cálculo e Interpretación de medidas de tendencia central EJEMPLOS DE APLICACIÓN Los datos que a continuación se muestran son las edades de las personas que han acudido a un policlínico solicitando exámenes de despistaje de cáncer. 63 43
89 53
36 70
49 57
56 62
64 43
59 68
35 62
78 26
64 59
72 60
52 67
51 57
62 67
60 61
71 67
61 51
55 81
53
64
76
44
73
56
62
63
60
Construye la tabla de distribución de frecuencias y calcula las medidas de tendencia central. Resolución Los datos requieren ser agrupados en una Tabla de Distribución de Frecuencias. Escogemos una agrupación en 8 intervalos iguales. Entonces, la siguiente tabla resultante es la siguiente: Intervalos [ 26 – 34 >
mi 30
fi 1
Fi 1
hi 0,022
Hi 0,022
[ 34 – 42 >
38
2
3
0,044
0,066
[ 42 – 50 >
46
4
7
0,089
0,154
[ 50 – 58 >
54
10
17
0,222
0,376
[ 58 – 66 >
62
16
33
0,356
0,732
[ 66 – 74 >
70
8
41
0,178
0,910
[ 74 – 82 >
78
3
44
0,067
0,977
[ 82 – 90 ]
86
1
45
0,022
1
Total
45
1
Luego, calculamos las medidas de tendencia central. a)
Para el cálculo de la Media Aritmética, se tiene lo siguiente:
𝑥̅ = 𝑥̅ =
30∙1+ 38∙2 + 46∙4 + 54∙10 + 62∙16 + 70∙8 + 78∙3 + 86∙1 45
2702 45
𝑥̅ = 60,044 Este resultado indica que 60 es la edad promedio de las personas que acuden a un policlínico solicitando exámenes de despistaje de cáncer. b)
Para el cálculo de la Mediana, se tiene: 28
La clase de la mediana es el quinto intervalo (es el 1er intervalo cuya frecuencia absoluta acumulada es supera a la mitad del total de datos). Luego tenemos: 45 −17 2
𝑀𝑒 = 58 + 8 [
16
]
𝑀𝑒 = 60,75 Este resultado indica que el 50% de las personas tienen edades mayores o iguales a 60,75 c)
Para el cálculo de la moda, se tiene: La clase modal es quinto intervalo ya que es el intervalo que tiene mayor frecuencia absoluta. Luego tenemos:
16 − 10 𝑀0 = 58 + 8 [ ] (16 − 10) + (16 − 8) 𝑀𝑜 = 61,42 Este resultado nos indica que la las personas que más solicitan despistaje con cáncer son personas con edades de 61 años.
Nota: La media sólo se utiliza en variables cuantitativas y se ve afectada por la presencia de datos atípicos. Por lo tanto, no se recomienda usarlo cuando existan datos atípicos. Se utiliza la media cuando se tiene variables con valores que tiene distribución simétrica. La mediana no se ve afectado por la presencia de datos atípicos, por lo tanto se recomienda su uso bajo la presencia de ellos. Cuando la media es igual a la mediana se trata de una variable con distribución simétrica, pero esto sólo se cumple para distribuciones unimodales.
29
ACTIVIDADES PROPUESTAS 1.
Una muestra de 20 empleados de cierto centro comercial obtuvo como salario quincenal, los siguientes datos: 340, 240, 330, 240, 325, 240, 240, 305, 240, 300, 240, 290, 240, 280, 240, 280, 255, 265, 255, 265, Calcule a) Media, b) Mediana, c) Moda
2.
Una muestra de 50 negociantes de antigüedades en el sudeste de Estados Unidos reveló las siguientes ventas ( en dólares) en el año pasado: Ventas (miles de dólares) 100 - 120 120 - 140 140 - 160 160 - 180 180 - 200 200 - 220
Puntos medios xi 110000 130000 150000 170000 190000 210000
Frecuencia 5 7 9 16 10 3 50
Fi
fi*xi
5 12 21 37 47 50
550000 910000 1350000 2720000 1900000 630000
a) Calcule la media de las ventas b) Determine la mediana de las ventas y cuál es la venta más común 3.
Para lanzar un nuevo producto al mercado, una empresa estudia el tiempo de publicidad, en segundos, empleando en los medios audiovisuales por otra empresa que produce un producto similar.
Duración
Nº Anuncios
0-20 20-25 25-30 30-40 40-60
3 17 13 9 8
Determine la duración media aproximada de los anuncios ¿Es representativa? ¿Cuál es la duración más frecuente?
4.
La empresa A tiene 100 empleados, con un sueldo promedio mensual por empleado de $300, la empresa B tiene 400 empleados, con un sueldo medio mensual de $250, la empresa C tiene 250 empleados y un sueldo promedio mensual de $280, ¿ Determine cuál es el sueldo medio mensual por empleado para las 3 empresas en conjunto?
30
5.
Un inversionista compró 30 acciones de la empresa Star S.A. a S/. 15 cada acción, 40 acciones de la empresa Full Clean S.A. a S/.18 cada acción y 50 acciones de la empresa Cosmos S.A. a S/. 21 cada acción. ¿Determine cuál es el costo promedio de una acción?
6.
El servicio de estudios de una importante entidad bancaria está llevando a cabo un análisis de las exportaciones realizadas por las empresas del sector industrial en España. Concretamente los datos recabados han sido los siguientes: Número de empresas (cientos) 4 20 16 10
Exportaciones (miles €) 0 – 10 10 – 20 20 – 40 40 – 50 A partir de dicha información:
Calcule la media y la mediana de las exportaciones realizadas. ¿Qué conclusiones obtiene de la comparación de ambos indicadores? 7.
En una empresa el sueldo promedio de 60 trabajadores istrativos es 1200 soles. Por incremento del costo de vida se presentan dos alternativas de aumento. La primera propuesta es un aumento de 180 soles a cada trabajador y la segunda es un aumento de 10% de sus sueldos más 12 soles. ¿Determine cuál de las dos propuestas conviene más a los trabajadores a fin de mejorar su ingreso promedio? Justifique su respuesta.
8.
La distribución del importe de las facturas por reparación de carrocería de una muestra de 80 vehículos en un taller, viene dada por la tabla siguiente:
Importe (€) 40-60 60-80 80-100 100-120
Nº facturas 10 20 40 10
Se pide:
a) Determine el importe medio. ¿El valor hallado es representativo de la distribución de facturas? b) Determine el importe mediano y el importe más frecuente. c) Calcular el importe mínimo pagado por el tercio de vehículos con facturas de mayor importe. d) ¿Determine el importe máximo pagado por las 60 reparaciones más baratas? e) Calcular el grado de asimetría que presenta la distribución con la mayor precisión posible e interprete el resultado.
31
9.
El 40% de los sueldos de los empleados de una empresa es mayor o igual a 50 soles, pero menor de 60 soles; el 30% mayor o iguales a 60 soles, pero menor de 70 soles; el 15% de los empleados tienen como mínimo sueldos de 70 soles, pero menores de 80 soles; y los sueldos del 15% restante son mayores o iguales a 80 soles, pero como máximo 100 soles. Determine la media aritmética de los sueldos de los empleados.
10.
En un aparcamiento cobran por cada minuto que está estacionado el vehículo 1,5 céntimos de €. La ocupación del aparcamiento durante la semana pasada fue la siguiente: Tiempo de estacionamiento (min.) 0 - 60
Nº de vehículos 1240
60 - 120
3575
120 - 180
746
180 - 240
327
240 - 360
218
360 - 1440
44
Se pide: a)
Determine el tiempo medio de estacionamiento, el más frecuente y el mediano.
b)
¿A partir de qué cantidad de tiempo un vehículo está estacionado más que el 85% de los vehículos? Calcule los ingresos totales, el ingreso medio y el más frecuente.
c)
11.
Gonzalo Muñoz, encargado de compras de un gran centro comercial, ha obtenido muestras de lámparas eléctricas de dos empresas proveedoras. Probó ambas muestras con respecto de la duración de su vida útil con los resultados siguientes: Marca de Empresa Duración (horas) clase A B 700 - 900 8 10 900 - 1100
14
22
1100 -1300
26
18
1300 -1500
6
4
¿Determine cuál de las dos empresas proveedoras se quedaría Gonzalo si su decisión la toma basándose en el promedio de la duración del producto?
32
12.
Las facturaciones sin IGV (en decenas de mil) obtenidas en el último trimestre en 300 restaurantes de una localidad española han sido: Facturación sin IGV (decenas de mil (dólares)
Nº Restaurantes
2-4 4-6 6-10 10-12
40 85 115 60
Con esta información:
a) ¿Determine, en dólares, la facturación media por restaurante? ¿Considera la facturación media obtenida una medida representativa de la distribución de frecuencias observada? Emplee un indicador adecuado y justifique su respuesta. b) Determine cuál ha sido la facturación mediana y la facturación más frecuente. ¿Qué se puede concluir sobre la asimetría de la distribución? c) Uno de los restaurantes afirma que la facturación que ha realizado en el último trimestre solo ha sido superada por un 20% de los restaurantes encuestados. ¿Determine la facturación de este restaurante?
13.
Las ganancias diarias de los establecimientos de un Centro Comercial se presentan en una tabla de frecuencias con 6 intervalos de amplitudes iguales a 36. La ganancia mínima es de $6, el 50% de los establecimientos ganan más de $25.58 diarios. Calcule las medidas de tendencia central. Interprete sus resultados. Ganancias (en miles Soles) [ 6 -
14.
de
fi mi
hi
>
a
[ -
>
2a
[ -
>
[ -
>
[ -
>
[ -
]
Fi
Hi
120
0.15
0.25 304 0.93
En el restaurante 5 tenedores “LA OLIVA”, Ud. se encuentra haciendo un análisis estadístico para determinar cuánto dinero están dispuestos a gastar los clientes en una Cena Navideña familiar para 4 personas con el fin de realizar sus proyecciones para las 33
próximas fiestas de fin de año. La Tabla de Distribución de Frecuencias que se ha construido es una tabla de 6 intervalos de igual amplitud, como se muestra a continuación: Gastos (en soles)
mi
[
-
>
[
-
>
[
-
>
[
-
>
[
-
>
[
-
]
fi
hi
20
a
Fi
Hi
0.3 97.5
0.6 a+0.15
127.5 200
Totales Determine el valor de la mediana y la moda.
15.
Las bonificaciones semanales (en dólares) obtenidas por un grupo de vendedores de una empresa de seguros se tabularon en una Tabla de Distribución de Frecuencias Simétrica de 5 intervalos de la cual se tiene la siguiente información: F5 = 200; h3 = 0.35 y f1 = 35. Si la menor bonificación es de 20 dólares y la mayor es de 60 dólares, construya la Tabla de Distribución de Frecuencias adecuada con todos sus indicadores, y calcule e interprete la mediana y la moda de la distribución de frecuencias.
16.
El siguiente gráfico muestra las ventas de un producto durante un período de seis semanas:
N° Productos 30 25
25
24
20
21
20 18
15
15
N° Productos
10 5 0 Semana 1 Semana 2 Semana 3 semana 4 semana 5 Semana 6
34
a) ¿Determine cuál fue el porcentaje de productos vendidos durante la tercera semana con respecto al total de productos vendidos (de las 6 semanas)? b) ¿Determine la variación porcentual de los productos vendidos de la sexta semana con respecto a la cuarta semana? c) ¿Determine el promedio de ventas durante las 6 semanas? El precio de venta de cada artículo es de 40 soles.
Resumen Si los datos son muy dispersos o encontramos valores extremos, es posible que el promedio no sea representativo de los mismos. En este caso es mejor utilizar la mediana. Cuando el cálculo de las medidas de tendencia central se hace sobre la base de cuadros de distribución de frecuencias, los resultados son aproximados. Cuando la variable de estudio es ordinal, las medidas de tendencia central que se utilizan son la MEDIANA y la MODA. Cuando la variable de estudio es escalar, las medidas de tendencia central que se utilizan son la MEDIA, la MEDIANA y la MODA. Cuando en una distribución de frecuencias la MEDIA, MEDIANA y MODA tienen el mismo
valor, se dice que es una DISTRIBUCIÓN SIMÉTRICA. Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad:
o http://www.uv.es/webgid/Descriptiva/21_introduccin.html o http://www.uv.es/webgid/Descriptiva/22_moda.html o http://www.uv.es/webgid/Descriptiva/23_mediana.html o http://www.uv.es/webgid/Descriptiva/24_media_aritmtica.html o http://www.vitutor.com/estadistica/descriptiva/a_8.html o http://www.vitutor.com/estadistica/descriptiva/a_9.html o http://www.vitutor.com/estadistica/descriptiva/a_10.html
35
1.3 TEMA 3: MEDIDAS DE DISPERSIÓN Son aquellas medidas que se utilizan para analizar el grado de heterogeneidad de un conjunto de datos. El grado de variabilidad de la información disponible es muy importante en todo análisis estadístico, pues de esto depende el grado de confiabilidad de las estimaciones que se puedan establecer. Las medidas de variabilidad que estudiaremos son la varianza o variancia, la desviación estándar y el coeficiente de variación. Cabe mencionar que para comparar la dispersión de dos conjuntos de datos es preferible utilizar el coeficiente de variación.
1.3.1 Tipos de Medidas de dispersión: Varianza, Desviación Estándar y Coeficiente de Variación 1.3.1.1. Varianza Es una medida de dispersión que se define como la desviación al cuadrado de dicha variable respecto a su media. La varianza se calcula de acuerdo con la siguiente tabla: La varianza poblacional se denota con la letra griega σ2 La varianza muestral, que se denota por s2.
Donde: n* = n – 1 si se trata de una muestra (n: tamaño de la muestra) n* = n si se trata de una población (n: tamaño de la población) En la mayor parte de las aplicaciones de la estadística, los datos a analizar provienen de una muestra. Cuando se calcula la varianza muestral, lo que interesa es estimar la varianza poblacional σ2. Aunque una explicación detallada está más allá del alcance de este manual, es posible demostrar que si la suma de los cuadrados de las desviaciones respecto de la media se divide entre n-1, en lugar de n, la varianza muestral que se obtiene constituye un estimador no sesgado de la varianza poblacional. Por esta razón, la varianza muestral, que se denota por s2.
1.3.1.2. Desviación Estándar Es la medida de dispersión más utilizada en Estadística Descriptiva, ya que para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que representan los datos en su distribución respecto de la media aritmética de dicha distribución. 36
La Desviación Estándar es una medida de dispersión que nos indica cuánto tienden a alejarse los datos del promedio de una distribución, es decir, la Desviación Estándar de un conjunto de datos es una medida de cuánto se desvían los datos con respecto a su media. La Desviación Estándar se calcula como la raíz cuadrada de la varianza.
𝑆 = √𝑉 Notación: Desviación estándar muestra
:
Desviación estándar poblacional
:
𝑠 = √𝑠 2 𝜎 = √𝜎 2
¿Qué se gana con convertir la varianza en la correspondiente desviación estándar? Recuerde que en la varianza las unidades están elevadas al cuadrado. En otras palabras, la desviación estándar se mide en las mismas unidades que los datos originales. Por esta razón es más fácil comparar la desviación estándar con la media y con otros estadísticos que se miden en las mismas unidades que los datos originales.
1.3.1.2. Coeficiente de Variación Es una medida de dispersión útil para comparar dispersiones que se encuentran en distintas distribuciones, pues es una medida invariante ante cambios de escala. El Coeficiente de Variación siempre es menor que 1, pero mayor que 0 y se suele expresarse como porcentaje. Para calcular el Coeficiente de Variación, se emplea la siguiente fórmula:
𝐶𝑉 =
𝑆 ∙ 100% 𝑥̅
1.3.2. Cálculo e interpretación de medidas de dispersión Si en una empresa A de 100 trabajadores el sueldo promedio es 500 soles, con una varianza de 900 soles, y en la empresa B el coeficiente de variación de los sueldos es del 5.6%, ¿qué podría afirmar acerca de la dispersión de los sueldos de las empresas A y B? RESOLUCIÓN: Como se trata de dos poblaciones diferentes, entonces requerimos el coeficiente de variación para poder compararlas.
37
Empresa A Total de datos
Empresa B
: 100
Sueldo promedio : 500 Varianza
: 900 Coeficiente variación: 5,6%
Desviación estándar: √900 = 30 30
Coeficiente variación: 500 ∙ 100% = 6% Como el coeficiente de variación en la empresa A es mayor que el coeficiente de variación en la empresa B, podemos afirmar que, en la empresa A, los sueldos son más dispersos que en la empresa B. Igualmente, podemos afirmar que en la empresa B los sueldos son más homogéneos que en la empresa A.
ACTIVIDADES PROPUESTAS 1.
El sueldo promedio de 200 empleados de una empresa es S/1200. Se proponen dos alternativas de aumento: a) S/. 75 a cada uno, b) 15% de su sueldo más 10 soles a cada uno. Si la empresa dispone a lo más de S/. 94 000 para pagar sueldos, ¿determine la alternativa es más conveniente?
2.
La siguiente información muestra la producción por hora de 10 trabajadores Producción por hora Nº de trabajadores
7
8
9
10
11
1
2
4
2
1
Determine la varianza, la desviación estándar y el coeficiente de variación
3.
Un encargado de compras ha obtenido muestras de lámparas incandescentes de dos proveedores. En su propio laboratorio ha probado ambas muestras con respecto a la duración de su vida útil, obteniendo los siguientes resultados:
Vida útil en horas
Muestra Empresa A Empresa B
[ 700 - 900 > [ 900 - 1100 > [1100 -1300 > [ 1300 -1500 ] a) b)
4.
10 16 26 8
3 36 12 3
Determine cuál de las empresas proveen mejores lámparas. ¿Determine cuál de las empresas se presenta una mayor homogeneidad en su duración?
Una empresa de fabricación de productos cerámicos dispone de tres centros de producción. En el centro A, el más grande y moderno, se hace un estudio de los m² de azulejo producidos 38
al mes durante el año pasado, obteniéndose una media de producción Mensual 𝑥̅𝐴 =250.000 m², con una desviación típica SA = 15.000 m². Se sabe que el centro B, por tener maquinaria más anticuada que A, produce cada mes un tercio de la producción de A, y que el centro C, por tener un horno menos que B, produce cada mes 25.000 m² menos que B ¿Determine la media y la varianza de la producción mensual de C?
5.
Luego de aumentar 50 soles a cada trabajador, el resultado promedio es de 2500 nuevos soles y el coeficiente de variación es 13%. Determine el coeficiente de variación de los sueldos antes del aumento.
6.
En una tienda, la desviación estándar de los precios de los jeans es de 7.2 nuevos soles. Si se realiza un aumento del 12% de todos los precios, calcule la nueva desviación estándar de los precios de los jeans.
7.
En una tienda, la desviación estándar de los precios de los jeans es de 7.2 nuevos soles. Si se hace una oferta y se rebaja 8 nuevos soles a todos los precios, calcule la nueva desviación estándar de los precios de los jeans.
8.
El gerente de ventas de una empresa desea conocer la distribución de los volúmenes de venta en el último mes. Para obtener los datos necesarios, se calculan los montos de ventas mensuales (marzo de 2010) de cada vendedor. A continuación, se muestra los siguientes datos:
Ventas, en miles de dólares
Marca de clase
Número vendedores fi
5,0
- 7,8
3
7,8
-
10,6
10
10,6
-
13,4
28
13,4 -
16,2
9
de
Calcule la desviación estándar muestral.
9.
El Ministerio de Trabajo ha recibido muchas quejas referidas al trato que las empresas mineras están realizando con su personal. Uno de los grandes problemas son los sueldos, que a pesar que los trabajos son los mismos en diferentes unidades de la misma empresa minera, los sueldos varían de una unidad a otra. El Ministerio de Trabajo ordena una investigación a dicha empresa minera, y después de recoger toda la información tabula en la siguiente tabla los sueldos de las dos unidades de trabajo de la empresa:
39
UNIDAD (A) SUELDOS($) Nº empleados
UNIDAD (B) Nº empleados
400 – 500
20
20
500 – 600
25
10
600 – 700
10
15
700 – 800
18
25
800 – 900
12
20
a)
¿En qué unidad de la empresa los sueldos son más homogéneos?
b)
En la unidad A, por debajo de qué valor se concentra el 77% de los sueldos
10. Los sueldos en soles de los ejecutivos de dos empresas A y B se dan en la siguiente tabla de frecuencias.
a) b) c)
Sueldos (en miles de Soles)
Empresa A
Empresa B
1–3
6
8
3–5
7
10
5–7
9
12
7–9
4
6
9 – 11
2
1
Determine el porcentaje de los empleados gana por encima de la media en la empresa A ¿Determine en qué empresa los sueldos son más homogéneos? Si todos los trabajadores de la empresa A reciben un aumento del 25% de sus sueldos, ¿determine cuál será el nuevo sueldo promedio?
11. La distribución de los sueldos (en dólares) de los empleados de dos empresas A y B se tabuló en 3 intervalos de igual amplitud en cada caso, siendo las frecuencias absolutas del primero al tercero de 10, 30, 30 y de 30, 50, 20 respectivamente en A y B. Si los sueldos mínimo y máximo son de 50 y 200 en A y de 60 y 240 en B. a) ¿Determine en qué empresa los sueldos son más homogéneos? b) Si un empleado de A y otro de B ganan cada uno $130, ¿determine cuál de ellos está mejor considerado en su centro de trabajo?
40
12. La siguiente tabla muestra los resultados de una encuesta de sondeo realizada por un operador de telefonía celular a los adolescentes de los distritos de Los Olivos y San Miguel referente al uso del sistema prepago de telefonía celular. El estudio se refirió al tiempo de uso del sistema telefónico y al gasto de los adolescentes en tarjetas prepago.
Tiempo de Uso (en minutos)
[0 – 40>
Los Olivos Gastos en Adolescentes tarjetas (S/.) 30 10
San Miguel Gastos en Adolescentes tarjetas (S/.) 25 12
[40 – 80>
50
15
20
20
[80 – 120>
85
20
40
25
[120 – 60>
25
30
55
30
[160 – 200>
10
50
15
55
[200 – 240]
10
60
5
80
Total
210
160
a)
¿Determine en cuál de los distritos el gasto de los adolescentes en tarjetas prepago es mayor? b) ¿Determine en qué distrito el tiempo que los adolescentes hacen uso del sistema de telefonía celular es menor? 13. Una ONG dedicada a la investigación de problemas sociales tiene 4 áreas de trabajo: Contabilidad, Relaciones Internacionales, Proyectos y Proyección Social. Las remuneraciones mensuales (en nuevos soles) en cada área son las siguientes: Relaciones Contabilidad Internacionales
Proyección Social
Remuneración Media
1250
1500
1750
1300
Desviación estándar
150
250
100
200
8
5
12
25
N° empleados a) b)
Proyectos
Calcule el promedio de remuneraciones de toda la empresa. ¿Determine cuál de los departamentos las remuneraciones son más homogéneas?
14. Los sueldos de 150 trabajadores de una empresa tienen un coeficiente de variación del 5% en el mes de agosto. Para el mes de septiembre, hay un aumento a cada trabajador del 20% de su sueldo más una bonificación de $60 y el coeficiente de variación baja a 4%. Halle la media y la desviación estándar de los sueldos del mes de agosto. ¿Determine qué dinero adicional necesita la empresa para pagar todos los sueldos del mes de septiembre? 15. La distribución de los sueldos (en dólares) de los empleados de dos empresas A y B se tabuló en 3 intervalos de igual amplitud en cada caso, siendo las frecuencias absolutas del primero al tercero de 10, 30, 30 y de 30, 50, 20 respectivamente en A y B. Si los sueldos mínimo y máximo son de 50 y 200 en A y de 60 y 240 en B. a) b)
¿Determine en qué empresa los sueldos son más homogéneos? Si un empleado de A y otro de B ganan cada uno $130. ¿Determine cuál de ellos está mejor considerado en su centro de trabajo? 41
16. El siguiente cuadro muestra la distribución de salario mensual de los empleados de dos empresas. Sueldos (en nuevos soles)
Marca de clase
Empleados de la empresa A
Empleados de la empresa B
[1500 – 2500>
0
1
[2500 – 3500>
2
4
[3500 – 4500>
6
15
[4500 – 5500>
8
13
[5500 – 6500]
12
12
¿Determine cuál de los grupos presenta mayor variabilidad de salarios? 17. Una empresa de estudios de mercado ha realizado un trabajo, para estudiar, entre otras variables el pago mensual por alquiler de departamentos (con características similares) en los distritos A y B. La información recogida fue la siguiente:
Pago mensual por Número de alquiler (en $) Departamentos (Dist. A)
Número de Departamentos (Dist. B)
[350 , 400[
10
9
[400 , 450[
35
36
[450 , 500[
70
60
[500 , 550[
40
75
[550 , 600[
25
90
[600 , 650[
15
24
[650 , 700]
5
6
Con esta información, se calcularon los siguientes valores para el Distrito A: Medida Estadística
Valor (en soles)
Media Aritmética
500
Moda
476,92
Variancia
4773,87
Primer Cuartil
457,14
Segundo Cuartil
489,29 42
a)
Realice un análisis comparativo de las distribuciones de montos mensuales por alquileres de departamentos de los dos distritos.
b)
Se considera que un distrito es más residencial cuando el pago mensual por alquiler es más del 40% de los datos observados. ¿Cuál de los dos distritos se podría considerar más residencial?
18. El siguiente cuadro distribuye a 30 Fábricas de Harina de Pescado del Perú según su producción mensual en toneladas métricas en el año 2011 Producción mensual Toneladas métricas > [50 - 58 > [58 - 66 > [66 - 74 > [74 - 82 > [82 - 90 > [90 – 98]
fi 4 8 2 6 5 5 n =30
Tomando como base los datos del cuadro anterior, calcule e interprete: a. La media o promedio. b. La desviación estándar c. El coeficiente de variación
Resumen Una mayor dispersión de datos implica una menor concentración de los mismos y viceversa. Una mayor homogeneidad en los datos equivale a una menor dispersión de los mismos y viceversa. A mayor coeficiente de variación, mayor dispersión y, por lo tanto, menos homogeneidad de los datos. El Coeficiente de Variación nos permite determinar la representatividad del promedio de un conjunto de datos, pues si es menor del 50% podemos considerar al promedio como representativo de los datos. En caso contrario, se considera que los datos son muy dispersos y, por lo tanto, no es recomendable utilizarlos en un estudio estadístico.
Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad:
o
http://www.vitutor.net/2/11/medidas_dispersion.html o http://colposfesz.galeon.com/est501/distfrec/meddisp/meddisp.htm o http://www.ecured.cu/index.php/Medidas_de_dispersi%C3%B3n o
43
1.4 TEMA 4: MEDIDAS DE DISTRIBUCIÓN DE FORMA Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis. (http://www.spssfree.com/index.html)
1.4.1 MEDIDAS DE ASIMETRIA Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o asimetría) que presenta una de datos sin tener que hacer su representación gráfica. Como eje de simetría consideramos una recta paralela al eje de ordenadas que pasa por la media de la distribución. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda. (https://es.wikipedia.org/wiki/Asimetr%C3%ADa_estad%C3%ADstica)
A continuación se muestran tres histogramas con los diferentes sesgos mencionados:
MEDIA < MEDIANA < MODA
44
ASIMETRÍA NEGATIVA (La mayor cantidad de datos se concentra en valores altos de la variable)
MODA < MEDIANA < MEDIA
ASIMETRIA POSITIVA (La mayor cantidad de datos se concentra en valores bajos de la variable)
MEDIA = MEDIANA = MODA
DISTRIBUCIÓN SIMÉTRICA
Para poder determinar el tipo de asimetría se utilizan ciertos indicadores llamados indicadores de asimetría: La fórmula para calcular el indice de asimetría de datos muestrales es :
INTERPRETACIÓN As > 0 : ASIMETRÍA POSITIVA As = 0 : DISTRIBUCION SIMETRICA As < 0 : ASIMETRIA NEGATIVA 45
1.4.2 MEDIDAS DE CURTOSIS Miden el grado de apuntamiento de la distribución. El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
Se mide a través del coeficiente de curtosis.
INTERPRETACIÓN Cr > 0 : DISTRIBUCIÓN LEPTOCÚRTICA Cr = 0 : DISTRIBUCION MESOCÚRTICA Cr < 0 : DISTRIBUCIÓN PLATICÚRTICA
46
Fuente: Tomado de: https://jcastrom.jimdo.com/matematica/estadistica/medidas-de-variabilidad/
Ejemplos:
1. En la siguiente tabla se muestras 4 datos recopilados. Se desea calcular el índice de asimetría y de curtosis
2. De la siguiente tabla, determina si el apuntamiento es platicúrtica, mesocúrtica o leptocúrtica
47
Resolución:
Elaborando la tabla de distribución de frecuencias tenemos:
Podemos observar que: As > 0 por lo tanto es una asimetría positiva. Cr < 0 por lo tanto es una distribución platicurtica.
Aplicaciones: 1. De la siguiente tabla de distribución de frecuencias indicar el tipo de curtosis que le corresponde. 48
2. El coordinador de la escuela de gestión desea conocer el rendimiento académico de los estudiantes del primer ciclo, del ciclo 2018-1, en los cursos de: Matemática aplicado a los negocios, Desarrollo Personal 1, Comunicación de Negocios, Contabilidad 1. Para ello se selecciona a 55 estudiantes de las diferentes carreras de la escuela de negocios. La siguiente tabla muestra los resultados de la investigación.
3. De la siguiente tabla, determina si el apuntamiento es platicúrtica, mesocúrtica o leptocúrtica
Montos pagados
mi
fi
[ 150 – > [ 250 – > [ > [ > [ ] TOTAL
Fi
4 24 30 72 80
8
4. Calcule las medidas de Asimetría y curtosis de los siguientes datos: a. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:
Peso
[50, 60>
[60, 70>
[70, 80>
[80,90>
[90, 100>
[100, 110>
[110, 120>
fi
8
10
16
14
10
5
2
49
b. Los pagos diarios de los 125 empleados de una fábrica vienen dados por la siguiente tabla: Peso
[10, 20>
[20, 30>
[30, 40>
[40,50>
[50, 60>
[60, 70>
[70, 80>
fi
18
20
26
24
10
15
12
c. El Ministerio de Industrias se encuentra evaluando el grado de inversión de un grupo de compañías mineras. Para esto, utiliza una Tabla de Distribución de Frecuencias en la cual se sabe que la máxima inversión es de 56 millones de nuevos soles; la amplitud de los intervalos es 8 millones de nuevos soles, y las frecuencias correspondientes a cada intervalo son: 1, 16, 21, 9, 8, 3 y 2, respectivamente. Con esta información, calcule el número de compañías que invirtieron menos del 75% y verifique si la distribución es simétrica.
50