Regresija i korelacija
Goran Trajković novembar, 2010. godine
Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija, odnos) dve ili više varijabli Korelacija podrazumeva analizu jačine i smera povezanosti Regresija podrazumeva analizu oblika i smera povezanosti i analizu u smislu nezavisnih/zavisnih (prediktor/ishod) varijabli sa ciljem predikcije. U regresionom modelu poznavanje vrednosti nezavisnih varijabli omogućava predikciju vrednosti zavisnih varijabli. Uopšte uzev, kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable
Karakteristike povezanosti Smer povezanosti •Pozitivan •Negativan Jačina povezanosti •Deterministička (funkcionalna) povezanost •Stohastička (statistička) povezanost Oblik povezanosti •Linearan •Nelinearan Zavisno od broja varijabli: •Jednostruka (prosta) povezanost •Višestruka (multipla) povezanost Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica
Dijagram rasturanja
Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice. Dijagram rasturanja sugeriše oblik odnosa dve varijable. Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije
Pozitivna linearna povezanost (r = 0.65)
Nema povezanosti (r = 0.00)
Negativna linearna povezanost (r = -0,68)
Krivolinijska povezanost
Pearsonov koeficijent linearne korelacije r=
SDxy SDx SD y
SDxy – kovarijansa, SDx i SDy – standardne devijacije varijabl x i y
SDxy
xy ∑ = − xy n
SDx =
2 x ∑
n
− x2
SD y =
2 y ∑
n
Testiranje hipoteze da li postoji povezanost dve varijable: H0: ρ = 0, H1: ρ ≠ 0 Nulta hipotezu testira se t-testom:
n−2 t=r 1− r 2
za broj stepena slobode DF = n – 2
− y2
Osobine Pearsonovog koeficijenta linearne korelacije •Bezdimenzionalna veličina tj. nema jedinicu mere. •Vrednosti koeficijenta linearne korelacije kreću se u opsegu od –1 do 1. •U procesu izračunavanja varijable označene kao x i y mogu zameniti mesta bez uticaja na konačnu vrednost koeficijenta korelacije. •Smer povezanosti: •Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable. •Vrednosti od –1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable. •r2 – koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable
Interpretacija Pearsonovog koeficijenta linearne korelacije
Koeficijent Jačina povezanosti (interpretacija je ista i za negativne korelacije vrednosti koeficijenta korelacije) ≥0.70 0.30 – 0.69 <0.30 Oko 0.0
Jaka povezanost Osrednja povezanost Slaba povezanost Nema linearne povezanosti (ne isključuje postojanje nelinearnog oblika povezanosti)
Primer: Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina. Starost
Sistolna TA
1
39
125
2
59
165
3
71
170
4
75
150
5
73
185
6
55
155
7
51
180
8
70
160
9
41
145
10
45
140
11
63
135
12
35
130
Dijagram rasturanja starosti i sistolne tenzije 200 Sistolna TA (mmHg)
ID
180 160 140 120 100 80 30
40
50
60
Starost (godine)
70
80
Σ
v x=
x
y
x2
y2
x·y
39
125
1521
15625
4875
59
165
3481
27225
9735
71
170
5041
28900
12070
75
150
5625
22500
11250
73
185
5329
34225
13505
55
155
3025
24025
8525
51
180
2601
32400
9180
70
160
4900
25600
11200
41
145
1681
21025
5945
45
140
2025
19600
6300
63
135
3969
18225
8505
35
130
1225
16900
4550
677 1840
40423 286250 105640
∑ x = 677 = 56.4 n
12
v y=
∑ y = 1840 = 153.3 n
12
SDx = SD y =
SDxy
∑x
2
n
∑y n
2
40423 v2 −x = − 56.4 2 = 13.6 12
286250 v2 −y = − 153.32 = 18.5 12
xy v v 105640 ∑ = − xy = − 56.4 ⋅153.3 = 152.78 12
n
152.78 r= = = 0.605 SDx SD y 13.6 ⋅18.5 SDxy
12 − 2 = 2.404 t = 0.605 2 1 − 0.605 Postoji statistički značajna pozitivna osrednja povezanost starosti i sistolne TA (r = 0.605, t = 2.4, DF =10, p ≤ 0.05). Koeficijent determinacije = 0.366
Model jednostruke (proste) linearne regresije Regresiona jednačina
yˆ = a + bx yˆ ¾ očekivana vrednost zavisne varijable (ishodna varijabla) x ¾ nezavisna varijabla, eksplanator, prediktor a ¾ odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijable jednaka nuli.
b ¾nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable. a, b – regresioni koeficijenti
Regresiona linija
yˆ = a + bx y
y
Δy Δx b = Δy / Δx
a
a x
x
Metod najmanjih kvadrata a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja
y
x
Ocena regresionih koeficijenata Ocena nagiba u regresionom modelu:
b=
SDxy SD
2 x
Ocena konstante u regresionom modelu:
v v a = y − bx
Regresiona jednačina:
y = a + bx
Pretpostavke za primenu regresionog modela •Odnos varijabli mora biti linearan •Podaci su numerički ili ordinalni •Opservacije su nezavisne (jedna opservacija po jedinici analize) •Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable •Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable
Evaluacija regresionog modela Tabela analize varijanse Totalni varijabilitet zavisne (Y) varijable je podeljen na komponente: •Varijabilitet objašnjen regresijom •Rezidualni (neobjašnjeni) varijabilitet R2 – Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom
Standardna greška regresije
Predikcija pomoću regresionog modela – interpolacija i ekstrapolacija
Interpolacija – predviđanje unutar opsega varijable x Ekstrapolacija – predviđanje van opsega varijable x Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable
Ocena regresionih koeficijenata Ocena nagiba u regresionom modelu:
152.78 b= = = 0.823 2 SDx 185.74
SDxy
Ocena konstante u regresionom modelu:
v v a = y − bx = 153.3 − 0.823 ⋅ 56.42 = 106.93
Regresiona jednačina:
y = a + bx = 106.93 + 0.823 ⋅ x
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:
y = a + bx = 106.93 + 0.823 ⋅ 77 = 170.3
Sistolna TA (mmHg
200 180 160 140 120 100 80 30
40
50
60
Starost (godine)
70
80
Druge mere povezanosti
Spearman ρ (rs) – Koeficijent korelacije za podatke sa ordinalne skale merenja. Neparametarski koeficijent korelacije. Point-biserial koeficijent korelacije – Korelacija podataka sa intervalne (ili omerne) skale merenja i dihotomnih podataka. Phi koeficijent – Mera povezanosti kada su podaci obe varijable dihotomni.
Spearmanov koeficijent korelacije rangova
Neparametarski metod za ocenu jačine povezanosti koji se primenjuje kada: •Podaci za najmanje jednu varijablu dati su u vidu ordinalnih podataka ili rangova •Najmanje jedna varijabla nema normalnu raspodelu •Odnos između varijabli nije linearan
Izračunavanje Spearmanovog koeficijenta korelacije rangova •Dodeliti rang vrednostima x varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima) •Isto to učiniti i sa varijablom y •Izračunati vrednosti koeficijenta korelacije rangova pomoću formule:
rS = 1 −
6∑ d
(
2 i
)
n n2 −1
d – razlika rangova, n – broj jedinica analize
Spearmanov koeficijent korelacije rangova Testiranje hipoteze da li postoji povezanost dve varijable Hipoteze: H0: ρ = 0,
H1: ρ ≠ 0
Ako je broj jedinica analize ≥ 10 nulta hipotezu se testira t-testom za broj stepena slobode DF = n – 2:
t = rS
n−2 2 1 − rS
Ako je broj jedinica analize ≤ 9, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti
Primer: Za deset bolesnika date su skorovi na Hamiltonovoj skali depresivnosti i vrednosti sistolne arterijske tenzije. Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo značajnosti 0.05.
Σ
d2
HAMD skor
Rx
Sistolna TA (kPa)
Ry
23
7
18.5
10
9.00
19
3
14.5
2
1.00
26
9.5
15.0
3
42.25
23
7
17.0
8
1.00
19
3
16.5
6.5
12.25
17
1
14.0
1
0.00
23
7
15.5
4
9.00
26
9.5
18.0
9
0.25
20
5
16.0
5
0.00
19
3
16.5
6.5
12.25 87.00
Vrednost koeficijenta korelacije rangova je:
6∑ d i2
6 ⋅ 87.0 rS = 1 − = 0.473 = 1− 2 2 n n −1 10 10 − 1
(
)
(
)
Testiranje nulte hipoteze t-testom:
t = rS
10 − 2 n−2 = 0.473 = 1.518 2 2 1 − rS 1 − 0.473
Ne postoji statistički značajna povezanost između skorova na HAMD i sistolne TA (rS = 0.473, t = 1.52, DF =8, p > 0.05).
Primer: Za 10 trudnica data je telesna masa na pocetku trudnoće i telesna masa novorođenčadi. Da li postoji povezanost ova dva obeležja? Testirati za nivo značajnosti 0.05.
Σ
tm na pocetku trudnoće
Rx
tm novorođ enčeta
Ry
63
7
3400
8
0.00
59
2.5
3300
7
12.25
57
1
2800
1.5
0.25
63
7
3100
5
9.00
67
9
3600
9
1.00
60
4
3200
6
1.00
63
7
3700
10
4.00
59
2.5
2900
3
0.25
70
10
2800
1.5
72.25
62
5
3000
4
4.00
d2
112.00
Vrednost koeficijenta korelacije rangova je:
6∑ d i2
6 ⋅112 rS = 1 − = 0.321 = 1− 2 2 n n −1 10 10 − 1
(
)
(
)
Testiranje nulte hipoteze t-testom:
t = rS
10 − 2 n−2 = 0.321 = 0.959 2 2 1 − rS 1 − 0.321
Ne postoji statistički značajna povezanost telesne mase trudnica na početku trudnoće i telesne mase novorođenčadi (rS = 0.32, t=0.96, DF =8, p > 0.05).