REGRESIÓN LINEAL SENCILLA 1. Suponga que la directora del Departamento de Salubridad de Chapel Hill está interesada en la relación que existe entre la antigüedad de un camión de basura y los gastos anuales de reparación que debe esperar. Con el fin de determinar ésta relación, la directora ha reunido información de cuatro de los camiones de la ciudad.
El primer paso
para
calcular la recta
de
regresión
este
de
problema es organizar los datos como resumen en la siguiente tabla, esto nos permite sustituirlos directamente en las ecuaciones para encontrar la pendiente y ordenada Y de la recta de regresión de mejor ajuste.
Con la información de la tabla podemos usar las ecuaciones para la pendiente y la ordenada Y con el fin de encontrar las constantes numéricas para la recta de regresión. La pendiente es:
b=
¿
∑ XY −n X´ Y´ ∑ X 2−n X´ 2
78−( 4)(3)(6) 78−72 6 = = =0.75 2 44−36 8 44−(4 )(3)
Y la ordenada Y es:
´ a=Y´ −b X
¿ 6− ( 0.75 )( 3 ) ¿ 6−2.25
¿ 3.7 5 Ahora, pues para obtener la ecuación de estimación que describe la relación entre la antigüedad de un camión y sus gastos anuales de reparación, podemos sustituir los valores de a y b en la ecuación general para una línea recta: Y^ =a+bX ¿ 3.75+0.75 X
Utilizando esta ecuación de estimacion la directora del Departamento de Salubridad puede estimar los gastos anuales de reparación, dada la antigüedad de su equipo. Si, por ejemplo, la ciudad tiene un camion de 4 años de antigüedad, la
directora podría usar la ecuación para predecir los gastos anuales de reparacion para este camión de la siguiente manera: Y^ =3.75+ 0.75 X ¿ 3.75+3
¿ 6.75 Así se calcularía que la ciudad gasta aproximadamente $675 al año en reparaciones de un camión de cuatro años de antigüedad.
Recta de regresión lineal 10 8 6 Gastos de reparacion (cientos de dolares)
4 2 0 01234567
Antiguedad del camión (años)
2. Se tiene un problema referente a la relación entre el dinero gastado en investigación y desarrollo y las ganancias anuales de la compañía química. La siguiente tabla presenta la información de los seis años anteriores. Con esto, podemos determinar la ecuación de regresión que describe la relación.
Nuevamente, podemos facilitar la recolección de la información necesaria si realizamos los cálculos de la tabla:
Con esta información, estamos listos para encontrar las constantes numéricas a y b para la ecuación de la estimación. El valor de b es:
b=
¿
∑ XY −n X´ Y´ ∑ X 2−n X´ 2
1000−(6)(5)(30) 1000−900 100 = = =2 200−150 50 200−(6)(5)2
Y a es: ´ a=Y´ −b X
¿ 30−( 2 ) ( 5 ) ¿ 30−10
¿ 20 Entonces podemos sustituir estos valores de a y b en la ecuación y obtener: Y^ =a+bX ¿ 20+2 X
Al utilizar esta ecuación de estimación, el vicepresidente de investigación y desarrollo puede predecir las ganancias futuras anuales a partir de la cantidad presupuestada para ID. Si la compañía gastó 8 millones de dólares para ID en 1996, entonces debió ganar aproximadamente 36 millones de dólares durante ese año: ¿ 20+16
¿ 36
Y^ =20+ 2 ( 8 )
RECTA DE REGRESIÓN LINEAL
3. Para el siguiente conjunto de datos a) Dibuje un diagrama de dispersión b) Desarrolle la ecuación de estimación que mejor describa los datos. c) Pronostique Y para X=10,15,20. X Y
a)
13 6.2
16 8.6
14 7.2
11 4.5
17 9.0
9 3.5
13 6.5
17 9.3
18 9.5
12 5.7
b) 140 70 X´ = =14 Y´ = =7 10 10
b=
∑ XY −n X´ Y´ = 1035−10(14 )(7)=0.7051 ∑ X 2−n X´ 2 2038−10 ( 14 )2 ´ ( 0.7051 )( 14 )=−2.8714 a=Y´ −b X=7−
Entonces: Y^ =a+bX=−2.8714+ 0.7051 X c) X=10
^ =−2.8714+ 0.7051 ( 10 ) =4.1796 Y
X=15
Y^ =−2.8714+ 0.7051 ( 15 ) =7.7051
X=20
^ =−2.8714+ 0.7051 ( 10 ) =11.2306 Y
4. A menudo, quienes hacen la contabilidad de costos estiman los gastos generales con base en el nivel de producción. En Standard Knitting Co, han reunido información acerca de los gastos generales y las unidades producidas en diferentes plantas, y ahora desean estimar una ecuación de regresión para predecir los gastos generales futuros.
a) Desarrolle una ecuación de regresión para contabilidad de costos.
420 1922 X´ = =42 Y´ = =192.2 10 10
b=
∑ XY −n X´ Y´ = 84541−10( 42)(192.2) =6.4915 2 18228−10 ( 42 ) ∑ X 2−n X´ 2 ´ ( 6.4915 )( 42 )=−80.4430 a=Y´ −b X=192.2−
Entonces:
Y^ =−80.4430+6.4915 X
b) Pronostique los gastos generales cuando se producen 50 unidades . ^ X=50 Y =−80.4430+6.4915 ( 50 )=244.1320 5. La relación entre el número de años (x) laborando para la empresa y el número de ventas logradas (y) por cada vendedor es la mostrada en la siguiente tabla:
a) ¿Cuántas ventas pueden esperarse en un trabajador con 16 años de servicio? 93 71 X´ = =6.64 Y´ = =5.07 14 14
b=
∑ XY −n X´ Y´ = 520−14 (6.64)(5.07) =0. 6981 687−1 4 ( 6.64 )2 ∑ X 2−n X´ 2 ´ ( 0.6981 )( 6.64 )=0.4346 a=Y´ −b X=5.07−
Entonces: Y^ =a+bX=0.4346+0.6981 X
b) ¿Cuántos años aproximadamente se requieren para lograr 14 ventas? ^ Y =0.4346+ 0.6981 X 14=0.4346+0.6981 X
X=
14−0.4346 0.6981
¿ 19.4318
6.
La relación entre el número de semanas (x) de haber comenzado con un negocio y las pérdidas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla. ¿Cuántas semanas pueden esperarse para que las pérdidas sean nulas?
28 55.5 X´ = =4 Y´ = =7.92 7 7
b=
∑ XY −n X´ Y´ = 182.5−7(4)(7.92) =−39.26 =−1.4021 28 140−7 ( 4 )2 ∑ X 2−n X´ 2 ´ (−1.4021 ) ( 4 )=13.5284 a=Y´ −b X=7.92−
Entonces: Y^ =a+bX=13.5284−1.4021 X Como en la ecuación x representa el número de semanas de haber cmenzado con un negocio mientras que y las pérdidas registradas, para la pregunta se tiene como dato que y = 0, de manera que sustituyéndolo en la ecuación de la recta se obtiene: 0=
13.5284−1.4021 X X= 9.6486
Es decir, se puede esperar aproximadamente que entre la novena y la décima semanas las pérdidas desaparezcan.
7. Las librerías de la universidad han vendido el libro Believe or Not: Wonders of Statistics Guide durante 12 semestres y desean estimar la relación entre las ventas y el número de secciones de estadística elemental que se enseñan en cada semestre, Se recolectan los siguientes datos: a) Desarrolle la ecuación de estimación que mejor se ajuste a los datos. Y= Ventas y X= Número de secciones.
Sustituyendo en las ecuaciones:
123 621 X´ = =10.25 Y´ = =51.75 12 12
b=
∑ XY −n X´ Y´ = 6833−12(10.25)(51.75) =2.9189 1421−12 ( 10.25 )2 ∑ X 2−n X´ 2 ´ ( 2.9189 )( 10.25 ) =21.8313 a=Y´ −b X=51.75−
Entonces:
Y^ =21.8313+2.9189 X
REGRESIÓN LINEAL MÚLTIPLE 8. El servicio Interno de Contribuciones (IRS, Internal Revenne Service) de Estados Unidos está tratando de estimar la cantidad mensual de impuestos no pagados descubiertos por su departamento de auditorías. En el pasado, el IRS estimaba esta cantidad con base en el número esperado de horas de trabajo en auditorías de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías de campo se han convertido en un pronosticador errático de los impuestos no pagados reales. Como resultado, la dependencia está buscando otro factor para mejorar la ecuación de estimación. El departamento de auditorías tiene un registro del numero de horas que usa sus computadoras para detectar impuestos no pagados. ¿Podriamos combinar esta información con los datos referentes a las horas de trabajo de auditorías de campo y obtener una ecuación de estimación más precisa para los impuestos no pagados descubiertos cada mes?
En este problema, X1 representa el número de horas de trabajo de auditoría de campo y X2 el número de horas en computadora. La variable dependiente, Y, será los impuestos reales no pagados descubiertos. La ecuación de estimación que describe la relación entre tres variables es:
Y^ = a + b1X1 + b2X2
Utilizando la información de la tabla en las ecuaciones obtenemos tres ecuaciones con tres constantes deconocidas a, b1 y b2. 272 = 10a + 441b1 + 147b2 12005 = 441a + 19461b1 + 6485b2 4013 = 147a + 6485b1 + 2173b2 Cuando resolvemos estas tres ecuaciones de manera simultánea, obtenemos: a = -13.828
b1 = 0.564 b2 = 1.099 Sustituyendo estos tres valores en la ecuaciones de regresión de dos variables obtenemos:
Y^ = a + b1X1 + b2X2 = -13.828 + 0.564X1 + 1.099X2
Evaluando con X1= 43 y X2 = 16 obtenemos como resultado:
Y^ = -13.828 + 0.564X1 + 1.099X2 = -13.828 + 0.564(43) + 1.099(16) =28.008 Por tanto, en el pronóstico para noviembre, el departamento de auditorías espera encontrar una evasión de impuestos cercana a los 28 millones de dólares.
9. Dado el siguiente conjunto de datos. a. Calcule el plano de regresión múltiple
Las ecuaciones se convierten en: 134 = 6a + 18.6b1 + 24.0b2 473.8 = 18.6a + 84.64b1 + 77.97b2 497.2 = 24.0a + 77.97b1 + 131.50b2
Al resolver las ecuaciones de manera simultánea se obtiene a= 20.3916 b1 = 2.3403 b2 = -1.3283
Y^ = a + b1X1 + b2X2 = 20.3916 + 2.3403X1 – 1.3283X2
Entonces:
b. Prediga
Y^
cuando X1 = 3.0 y X2 = 2.7
Y^ = 20.3916 + 2.3403(3.0) – 1.3283(2.7) = 28.83 10. Se ha reunido la siguiente información de una muestra aleatoria de arrendadores de departamentos en una ciudad. Se intenta predecir la renta (en dólares por mes) con base en el tamaño del departamento (número de habitaciones) y la distancia al centro de la ciudad (en millas). a. Calcule la ecuación de minimos cuadrados que relacione mejor estas tres variables
Y^ = renta, X1 = número de habitaciones, X2 = distancia al centro.
Las ecuaciones se convierten en: 2985 = 6a + 18b1 + 21b2 11170 = 18a + 70b1 + 50b2 8535 = 21a + 50b1 + 131b2 Al resolver las ecuaciones de manera simultánea se obtiene a= 96.4581 b1 = 136.4847 b2 = -2.4035 Entonces:
Y^ = a + b1X1 + b2X2 = 96.4581 + 136.4847X1 – 2.4035X2
b. Si alguien busca un departamento de dos habitaciones a dos millas del centro ¿qué renta debe esperar pagar? X1 = 2 X2 = 2
Y^ = = 96.4581 + 136.4847X1 – 2.4035X2 = 96.4581 + 136.4847(2) – 2.4035(2) = $365
FORMULARIO REGRESIÓN LINEAL SENCILLA
∑ XY −n X´ Y´ ∑ X 2−n X´ 2
b=
´ a=Y´ −b X
Y´ =a+b X´
REGRESIÓN MÚLTIPLE ^ Y = a + b1X1 + b2X2