REGRESION Y CORRELACION LINEAL 1. Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos. a) Hallar la ecuación de la recta de regresión de la edad sobre el peso. b) ¿Cuál sería el peso aproximado de un niño de seis años? xi
yi
xi · yi
2
14
4
196
28
3
20
9
400
60
5
32
25
1 024
160
7
42
49
1 764
294
8
44
64
1 936
352
2 5
15 2
15 1
5 320
894
x
y
2 i
b) Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar? c) Si desea recibir a 500 clientes, ¿a qué distancia del núcleo de población debe situarse? xi
yi
xi · yi
xi2
yi2
8
15
12 0
64
225
7
19
13 3
49
361
6
25
15 0
36
625
4
23
92
16
529
2
34
68
4
1 156
1
40
40
1
1 600
2 8
15 6
60 3
17 0
4 496
2 i
2. Un centro comercial sabe en función de la distancia, en kilómetros, a la que se sitúe de un núcleo de población, acuden los clientes, en cientos, que fi guran en la tabla: Nº de clientes (X)
8
7
6
4
2
1
Distancia (Y)
15
19
25
23
34
40
a) Calcular el coefi ciente de correlación lineal.
Correlación negativa muy fuerte .
3. Las notas de cinco alumnos en Matemáticas y Química son: Matemáticas
6
4
8
5
3. 5
Química
6. 5
4. 5
7
5
4
Determinar las rectas de regresión y calcular la nota esperada en Química para un alumno que tiene 7.5 en Matemáticas. xi
yi
xi ·yi
xi2
yi2
6
6. 5
36
42. 25
39
4
4. 5
16
20. 25
18
8
7
64
49
56
5
5
25
25
25
3. 5
4
12. 25
16
14
26. 5
27
153. 25
152. 5
15 2
medias de las distribuciones marginales
Un punto de la recta ha de ser (
´x ,
´y ), es decir, (1,
2). 2 ≠ - 1 + 2 2 . 1 + 2 = 4 La recta pedida es: 2x + y = 4. 5. Las estaturas y pesos de 10 jugadores de futbol de un equipo son: Estatura (X) 186 189 190 192 193 193 198 201 203 205 Pesos (Y)
85
85
86
90
87
91
93 103 100 101
Calcular: a) La recta de regresión de Y sobre X. b) El coefi ciente de correlación. c) El peso estimado de un jugador que mide 208 cm.
4. Un conjunto de datos bidimensionales (X, Y) tiene coefi ciente de correlación r = -0.9, siendo las
´x = 1,
Se sabe que una de las cuatro ecuaciones siguientes corresponde a la recta de regresión de Y sobre X: y = -x + 2 3x - y = 1 2x + y = 4 y = x + 1 Seleccionar razonadamente esta recta. Como el coefi ciente de correlación lineal es negativo , la pendiente de la recta también será negativa, por tanto descartamos la 2ª y 4ª.
´y
xi
yi
xi2
yi2
xi ·yi
186
85
34 596
7 225
15 810
189
85
35 721
7 225
16 065
190
86
36 100
7 396
16 340
192
90
36 864
8 100
17 280
193
87
37 249
7 569
16 791
193
91
37 249
8 281
17563
198
93
39 204
8 649
18 414
201
10 3
40 401
10 609
20 703
203
10
41 209
10
20 300
= 2.
0 205
10 1
1 950
92 1
000 42 025
10 201
20 705
380 618
85 255
179 971
82
300
6 724
90 000
24 600
85
340
7 225
115 600
28 900
79
315
6 241
99 225
24 885
84
330
7 056
108 900
27 720
80
310
6 400
96 100
24 800
62
240
3 844
57 600
14 880
936
3 632
73 760
1 109 254
285 908
Correlación positiva muy fuerte. 6. A partir de los siguientes datos referentes a horas trabajadas en un taller (x), y a unidades producidas (y), determinar la recta de regresión de Y sobre X, el coefi ciente de correlación lineal e interpretalo. Horas (X)
80
79
83
84
78
60
82
85
79
84
80
62
Producción (Y) 300 302 315 330 300 250 300 340 315 330 310 240
xi
yi
xi ·yi
xi2
yi2
80
300
6 400
90 000
24 000
79
302
6 241
91 204
23 858
83
315
6 889
99 225
26 145
84
330
7 056
108 900
27 720
78
300
6 084
90 000
23 400
60
250
3 600
62 500
15 000
Correlación positiva muy fuerte 7. Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a dormir y ver la televisión. La clasifi cación de las respuestas ha permitido elaborar la siente tabla: Nº de horas dormidas (X)
6
7
Nº de horas de televisión (Y)
4
3
Frecuencias absolutas (fi)
3
16
8
9
10
3
2
1
20
10
1
Se pide:
a) Calcular el coefi ciente de correlación. b) Determinar la ecuación de la recta de regresión de Y sobre X. c) Si una persona duerme ocho horas y media, ¿cuánto cabe esperar que vea la televisión? xi
yi
fi
xi · fi
xi2 · fi
yi · fi
yi2 · fi
xi · yi · fi
6
4
3
18
108
12
48
72
7
3
16
112
784
48
144
336
8
3
20
160
1280
60
180
480
9
2
10
90
810
20
40
180
10
1
1
10
100
1
1
10
50
390
3082
14 1
413
1078
2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 5 206
X promedio
Es una correlación negativa y fuerte.
Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo está relacionado con su número. Calcular el coeficiente de correlación y graficar. Los datos de tiempo tomados para n = 25 servicios se muestran a continuación: 8.
X Servicios 2 8 11 10 8 4 2
Y Tiempo 9.95 24.45 31.75 35.00 25.02 16.86 14.38
(Xi-X)*(Yi-Y) 119.076672 1.099872 7.499472 10.502272 0.963072 51.612672 91.433472
(Xi-X)^2 38.9376 0.0576 7.6176 3.0976 0.0576 17.9776 38.9376
(Yi-Y)^2 364.1533 21.0021 7.3832 35.6075 16.1026 148.1771 214.7045
9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15 725.82
121.260672 -3.558928 0.367872 50.679872 21.989472 48.568672 108.406272 31.303072 47.245472 470.014272 135.625472 10.379072 118.686672 107.127072 194.676672 241.751472 15.462272 25.540272 2,027.7132
38.9376 0.5776 0.0576 17.9776 7.6176 14.1376 38.9376 17.9776 17.9776 138.2976 52.4176 3.0976 45.6976 45.6976 60.2176 76.7376 5.0176 10.4976 698.5600
377.6337 21.9286 2.3495 142.8694 63.4763 166.8541 301.8142 54.5057 124.1620 1,597.3771 350.9178 34.7770 308.2553 251.1337 629.3676 761.6054 47.6486 62.1385 6,105.9447
Sxy
Sxx
Syy = SST
Sxy
Sxx
Syy
Y Promedio
Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que se minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de cuadrados siguientes se muestran a continuación: Sxy = 2027.71 Sxx = 698.56 Syy = 6105.94 Las ecuaciones para el cálculo manual son las siguientes: ( Xi X )(Yi Y ) S XY b1 ˆ1 S XX ( Xi X ) 2 = 2.902704421
b0 ˆ 0
Y
i
ˆ1 X i n
r2 1
Y ˆX
= 5.114515575
Las sumas de cuadrados son: SST (Yi Y ) 2 6,105.9447 2 SSE (Yi Yˆi ) (Yi (bo b1 * X i )) 2
SSR SST SSE
220.0926
5,885.8521 El coeficiente de determinación r2 y el coeficiente de correlación r se calculan a continuación:
SSE ( SST SSE ) SSR SST SST SST
= 0.9639 El coeficiente de determinación indica el porcentaje de la variación total que es explicada por la regresión. r r2 = 0.9816 El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea recta indicando el nivel de influencia de una variable en la otra. El factor de correlación r es un número entre –1 (correlación negativa evidente) y +1 (correlación positiva evidente), y r = 0 indicaría correlación nula. El coeficiente de correlación r = 0.98 por lo cual tenemos suficiente evidencia estadística para afirmar que el tiempo de atención esta relacionado con el número de servicios atendidos.