Određivanje koeficijenta višestruke korelacije u MS Excel-u. Izgradnja matrice koeficijenata korelacije parova

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

1. Izračunati matricu koeficijenata korelacije parova; analizirati bliskost i smjer povezanosti rezultirajuće karakteristike Y sa svakim faktorom X; procjena statistički značaj koeficijenti korelacije r(Y,X i); odabrati najinformativniji faktor.

2. Konstruisati upareni regresijski model sa najinformativnijim faktorom; dati ekonomsku interpretaciju koeficijenta regresije.

3. Procijeniti kvalitet modela koristeći prosječnu relativnu grešku aproksimacije, koeficijent determinacije i Fišerov F test (prihvatiti nivo značajnosti α=0,05).

4. Sa sigurnošću pouzdanosti od γ=80%, predvidite prosječnu vrijednost indikatora Y(predviđene vrijednosti faktora date su u Dodatku 6). Grafički predstaviti stvarne i modelne vrijednosti Y,prognoza rezultata.

5. Koristeći metodu inkluzije, izgraditi dvofaktorske modele, zadržavajući u njima najinformativniji faktor; izgraditi trofaktorski model sa puna lista faktori.

6. Odaberite najbolji od konstruisanih više modela. Dajte ekonomsko tumačenje njegovih koeficijenata.

7. Provjerite značajnost koeficijenata višestruka regresija korišćenjem t– Studentov test (prihvatiti nivo značajnosti α=0,05). Da li se kvalitet višestrukog modela poboljšao u odnosu na upareni model?

8. Procijeniti utjecaj faktora na rezultat korištenjem koeficijenata elastičnosti, beta i delta koeficijenata.

Zadatak 2. Modeliranje univarijantne vremenske serije

Dodatak 7 prikazuje vremenske serije Y(t) socio-ekonomski pokazatelji za Altai region za period od 2000. do 2011. godine. Potrebno je proučiti dinamiku indikatora koji odgovara opciji zadatka.

Opcija Oznaka, naziv, mjerna jedinica indikatora
Y1 Prosječna potrošačka potrošnja po glavi stanovnika (mjesečno), rub.
Y2 Emisije zagađujućih materija u atmosferski vazduh, hiljada tona
Y3 Prosječne cijene na sekundarnom tržištu stanova (na kraju godine, for kvadratnom metru ukupna površina), rub
Y4 Volume plaćene usluge po glavi stanovnika, rub
Y5 Prosječan godišnji broj zaposlenih u privredi, hiljada ljudi
Y6 Broj vlastitih putnički automobili na 1000 stanovnika (na kraju godine), jed
Y7 Prosječni novčani prihod po glavi stanovnika (mjesečno), rub.
Y8 Indeks potrošačkih cijena (decembar u odnosu na decembar prethodne godine), %
Y9 Ulaganja u osnovna sredstva (u stvarnim cijenama), miliona rubalja
Y10 Promet maloprodaja po glavi stanovnika (u stvarnim cijenama), rub


Radni nalog

1. Konstruirati model linearne vremenske serije čiji se parametri mogu procijeniti najmanjim kvadratima. Objasnite značenje koeficijenta regresije.

2. Procijeniti adekvatnost konstruiranog modela koristeći svojstva slučajnosti, nezavisnosti i usklađenosti zaostale komponente sa zakonom normalne raspodjele.

3. Procijeniti tačnost modela na osnovu upotrebe prosječne relativne greške aproksimacije.

4. Predvidite indikator koji se razmatra za godinu dana unaprijed (izračunajte interval prognoze u verovatnoća poverenja 70%).

5. Grafički predstaviti stvarne vrijednosti indikatora, rezultate modeliranja i prognoze.

6. Izračunati parametre logaritamskog, polinomskog (polinoma 2. stepena), stepena, eksponencijalnog i hiperboličkog trenda. Na osnovu grafička slika i vrijednosti indeksa odlučnosti da odaberete najviše prikladan izgled trend.

7. Koristeći najbolji nelinearni model, napravite tačku prognozu dotičnog indikatora za godinu dana unaprijed. Uporedite dobijeni rezultat sa intervalom prognoze pouzdanosti konstruisanog korišćenjem linearnog modela.

PRIMJER

Pogubljenja testni rad

Problem 1

Kompanija se bavi prodajom polovnih automobila. Nazivi indikatora i početni podaci za ekonometrijsko modeliranje prikazani su u tabeli:

Prodajna cijena, hilj.e. ( Y) Cijena novog automobila, hilj.e. ( X1) Vek trajanja, godine ( X2) Lijevi volan - 1, desni volan - 0, ( X3)
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Obavezno:

1. Izračunati matricu koeficijenata korelacije parova; analizirati bliskost i smjer odnosa između rezultirajuće karakteristike Y i svakog od faktora X; procijeniti statističku značajnost koeficijenata korelacije r(Y, X i); odabrati najinformativniji faktor.

Koristimo Excel (Podaci / Analiza podataka / KORELACIJA):

Dobijamo matricu koeficijenata parne korelacije između svih dostupnih varijabli:

U X1 X2 X3
U
X1 0,910987
X2 -0,4156 -0,2603
X3 0,190785 0,221927 -0,30308

Analizirajmo koeficijente korelacije između rezultujuće karakteristike Y i svaki od faktora X j:

> 0, dakle, između varijabli Y I X 1 postoji direktna korelacija: što je viša cijena novog automobila, to je viša prodajna cijena.

> 0,7 – ova zavisnost je bliska.

< 0, значит, между переменными Y I X 2 primećeno

inverzna korelacija: prodajna cijena je niža za automobile

mobilni telefoni sa dugim vijekom trajanja.

– ova zavisnost je umjerena, bliža slaboj.

> 0, što znači između varijabli Y I X 3 postoji direktna korelacija: prodajna cijena je viša za automobile s volanom na lijevoj strani.

< 0,4 – эта зависимость слабая.

Za provjeru značajnosti pronađenih koeficijenata korelacije koristimo Studentov test.

Za svaki koeficijent korelacije izračunajmo t-statistika prema formuli i unesite rezultate proračuna u dodatnu kolonu korelacijske tablice:

U X1 X2 X3 t-statistika
U
X1 0,910987 7,651524603
X2 -0,4156 -0,2603 1,582847988
X3 0,190785 0,221927 -0,30308 0,673265587

Prema tabeli kritičnih tačaka Studentske distribucije na nivou značajnosti i broj stupnjeva slobode određujemo kritičnu vrijednost (Prilog 1, odnosno STUDARSOBR funkcija).Y i vijek trajanja X 2 je pouzdan.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y i položaj volana X 3 je pouzdan.

Dakle, najbliža i najznačajnija veza se uočava između prodajne cijene Y i cijenu novog auta X 1 ; faktor X 1 je najinformativniji.

OPCIJA 5

Ovisnost prosječnog životnog vijeka od nekoliko faktora proučavana je prema podacima za 1995. godinu, prikazanim u tabeli. 5.

Tabela 5

Mozambik

……………………………………………………………………………………..

Switzerland

Oznake korištene u tabeli:

· Y-- prosječni životni vijek pri rođenju, godine;

· X 1 -- BDP u paritetima kupovne moći;

· X 2 -- lanac stopa rasta stanovništva, %;

· X 3 -- lanac Stopa rasta radna snaga, %;

· X 4 -- stopa smrtnosti novorođenčadi, % .

Obavezno:

1. Sastaviti matricu uparenih koeficijenata korelacije između svih proučavanih varijabli i identificirati kolinearne faktore.

2. Konstruirajte jednadžbu regresije koja ne sadrži kolinearne faktore. Provjerite statističku značajnost jednačine i njenih koeficijenata.

3. Konstruirajte regresionu jednačinu koja sadrži samo statistički značajne i informativne faktore. Provjerite statističku značajnost jednačine i njenih koeficijenata.

Tačke 4 - 6 odnose se na jednadžbu regresije koja je konstruirana prilikom izvođenja tačke 3.

4. Procijeniti kvalitet i tačnost jednačine regresije.

5. Dajte ekonomsku interpretaciju koeficijenata regresione jednačine i uporednu procjenu jačine utjecaja faktora na varijablu ishoda Y.

6. Izračunajte predviđenu vrijednost varijable ishoda Y, ako su predviđene vrijednosti faktora 75% njihovih maksimalnih vrijednosti. Build interval povjerenja prognoza stvarne vrijednosti Y sa 80% pouzdanosti.

Rješenje. Za rješavanje problema koristi se EXCEL procesor za proračunske tablice.

1. Koristeći dodatak “Analiza podataka… Korelacija” gradimo matricu uparenih koeficijenata korelacije između svih proučavanih varijabli (meni “Alati” “Analiza podataka…” “Korelacija”). Na sl. Prikazan je 1 panel korelacione analize sa popunjenim poljima Da biste kopirali snimak prozora u klipbord podataka WINDOWS-a, koristite kombinaciju tastera Alt+Print Screen (na nekim tastaturama - Alt+PrtSc Rezultati korelacione analize su dati u dodatku). 2 i prebačen na sto. 1.

pirinač. 1. Panel za analizu korelacije

Tabela 1

Matrica koeficijenata korelacije parova

Analiza međufaktorski koeficijenti korelacije pokazuje da vrijednost od 0,8 premašuje u apsolutnoj vrijednosti koeficijent korelacije između para faktora X 2 -X 3 (podebljano). Faktori X 2 -X 3 su stoga prepoznate kao kolinearne.

2. Kao što je pokazano u paragrafu 1, faktori X2-X3 su kolinearni, što znači da se zapravo dupliraju, a njihovo istovremeno uključivanje u model će dovesti do pogrešne interpretacije odgovarajućih koeficijenata regresije. Može se vidjeti da faktor X2 ima veći koeficijent korelacije sa rezultatom Y od faktora X3: ry,x2=0,72516; ry,x3=0,53397; |ry,x2|>|ry,x3| (vidi tabelu 1). Ovo ukazuje na jači utjecaj faktora X2 na promjenu Y. Faktor X3 je stoga isključen iz razmatranja.

Za konstruiranje regresijske jednadžbe koriste se vrijednosti varijabli ( Y,X 1 , X 2 , X 4) kopirajte ga na prazan radni list ( adj. 3). Regresionu jednačinu gradimo pomoću dodatka “ Analiza podataka...Regresija" (meni " usluga" « Analiza podataka…» « Regresija"). Panel regresiona analiza sa popunjenim poljima se prikazuje u pirinač. 2.

Dati su rezultati regresione analize adj. 4 i preselio se u sto 2. Jednačina regresije ima oblik (vidi “ Šanse" V sto 2):

y = 75,44 + 0,0447 ? x 1 - 0,0453 ? x 2 - 0,24 ? x 4

Jednačina regresije se smatra statistički značajnom, jer je vjerovatnoća njenog slučajnog formiranja u obliku u kojem je dobijena 1,04571?10 -45 (vidi. "Značaj F" V sto 2), što je značajno niže od prihvaćenog nivoa značajnosti =0,05.

Vjerojatnost slučajnog formiranja koeficijenata za faktor X 1 ispod prihvaćenog nivoa značajnosti =0,05 (vidi “ P-vrijednost" V sto 2), što ukazuje na statističku značajnost koeficijenata i značajan uticaj ovih faktora na promjenu godišnje dobiti Y.

Vjerovatnoća slučajnog formiranja koeficijenata za faktore X 2 i X 4 prelazi prihvaćeni nivo značajnosti =0,05 (vidi “ P-vrijednost" V sto 2), a ovi koeficijenti se ne smatraju statistički značajnim.

pirinač. 2. Panel za analizu regresije modela Y(X 1 ,X 2 ,X 4 )

tabela 2

Y(X 1 , X 2 , X 4 )

Analiza varijanse

Značaj F

Regresija

Jednačina regresije

Odds

Standardna greška

t-statistika

P-vrijednost

donjih 95%

Top 95%

Donjih 95,0%

Top 95,0%

Y-raskrsnica

3. Na osnovu rezultata provjere statističke značajnosti koeficijenata regresijske jednačine sprovedene u prethodnom pasusu, gradimo novi regresijski model koji sadrži samo informativne faktore, koji uključuju:

· faktori čiji su koeficijenti statistički značajni;

faktori čiji koeficijenti t _statistics premašuje jedan u apsolutnoj vrijednosti (drugim riječima, apsolutna vrijednost koeficijenta je veća od njegove standardne greške).

Prva grupa uključuje faktor X 1 do 2 je faktor X 4 . Faktor X 2 je isključen iz razmatranja kao neinformativan, a konačni regresijski model će sadržavati faktore X 1 , X 4 .

Da biste napravili jednadžbu regresije, kopirajte vrijednosti varijabli koje se koriste na prazan radni list ( adj. 5) i izvršiti regresijsku analizu ( pirinač. 3). Njegovi rezultati su dati u adj. 6 i preselio se u sto 3. Jednačina regresije je:

y = 75,38278 + 0,044918 ? x 1 - 0,24031 ? x 4

(cm. " Šanse" V tabela 3).

pirinač. 3. Panel za analizu regresije modela Y(X 1 , X 4 )

Tabela 3

Rezultati regresione analize modela Y(X 1 , X 4 )

Statistika regresije

Množina R

R-kvadrat

Normalizirani R-kvadrat

Standardna greška

Zapažanja

Analiza varijanse

Značaj F

Regresija

Jednačina regresije

Odds

Standardna greška

t-statistika

P-vrijednost

Y-raskrsnica

Jednačina regresije je statistički značajna: vjerovatnoća njenog slučajnog formiranja je ispod prihvatljivog nivoa značajnosti = 0,05 (vidi “ Značaj F" V tabela 3).

Koeficijent za faktor se također smatra statistički značajnim X 1 vjerovatnoća njegovog slučajnog formiranja je ispod prihvatljivog nivoa značajnosti = 0,05 (vidi “ P-vrijednost" V sto 3). Ovo ukazuje na značajan uticaj BDP-a na paritete kupovne moći X 1 po promjeni godišnje dobiti Y.

Faktorski koeficijent X 4 (godišnji koeficijent mortalitet novorođenčadi) nije statistički značajan. Međutim, ovaj faktor se i dalje može smatrati informativnim, jer t _statistika njegovog koeficijenta premašuje modulo jedinica, iako dalji zaključci u vezi sa faktorom X 4 treba tretirati sa određenim oprezom.

4. Procijenimo kvalitet i tačnost posljednje jednačine regresije koristeći neke statističke karakteristike dobijeno tokom regresione analize (vidi “ Statistika regresije» u tabeli. 3):

višestruki koeficijent determinacije

R2 = _ i=1 ____________ =0.946576

R 2 = pokazuje da regresijski model objašnjava 94,7% varijacija u prosječnom očekivanom životnom vijeku pri rođenju Y, a ova varijacija je posljedica promjena faktora uključenih u regresijski model X 1 , X 4 ;

· standardna greška regresija

pokazuje da su vrijednosti prosječnog životnog vijeka pri rođenju predviđene regresijskom jednadžbom Y razlikuju se od stvarnih vrijednosti u prosjeku za 2,252208 godina.

Prosječna relativna greška aproksimacije određena je približnom formulom:

Erel?0.8 ? -- ? 100%=0.8 ? 2.252208/66.9 ? 100%?2.7

gdje hiljada rub. -- prosječan životni vijek (određen pomoću ugrađene funkcije " PROSJEČNO»; adj. 1).

E rel pokazuje da su vrijednosti godišnjeg profita predviđene regresionom jednadžbom Y razlikuju od stvarnih vrijednosti u prosjeku za 2,7%. Model ima visoku tačnost (pri - tačnost modela je visoka, pri - dobra, pri - zadovoljavajuća, pri - nezadovoljavajuća).

5. Za ekonomska interpretacija koeficijenti jednadžbe regresije, tabelarno prikazujemo prosječne vrijednosti i standardne devijacije varijable u izvornim podacima (tabela 4). Prosječne vrijednosti određivane su pomoću ugrađene funkcije "PROSJEK", standardne devijacije - korištenjem ugrađene funkcije "STANDARDNA DEVIATION" (vidi Dodatak 1).

Koeficijent korelacije odražava stepen povezanosti dva indikatora. Uvijek uzima vrijednost od -1 do 1. Ako se koeficijent nalazi oko 0, onda nema veze između varijabli.

Ako je vrijednost blizu jedan (od 0,9, na primjer), onda postoji jaka direktna veza između posmatranih objekata. Ako je koeficijent blizu druge ekstremne tačke opsega (-1), tada postoji jaka inverzna veza između varijabli. Kada je vrijednost negdje između 0 i 1 ili 0 i -1, onda mi pričamo o slaboj sprezi (direktnoj ili obrnutoj). Ovaj odnos se obično ne uzima u obzir: vjeruje se da ne postoji.

Izračunavanje koeficijenta korelacije u Excel-u

Pogledajmo primjer metoda za izračunavanje koeficijenta korelacije, karakteristike direktnih i inverznih odnosa između varijabli.

Vrijednosti indikatora x i y:

Y je nezavisna varijabla, x je zavisna varijabla. Potrebno je pronaći snagu (jako/slabo) i smjer (direktno/obrnuto) veze između njih. Formula koeficijenta korelacije izgleda ovako:


Da bismo ga lakše razumjeli, podijelimo ga na nekoliko jednostavnih elemenata.

Između varijabli utvrđena je jaka direktna veza.

Ugrađena funkcija CORREL izbjegava složene proračune. Izračunajmo koeficijent korelacije para u Excelu koristeći ga. Pozovite čarobnjaka funkcija. Naći ćemo onu koja nam treba. Argumenti funkcije su niz y vrijednosti i niz x vrijednosti:

Pokažimo vrijednosti varijabli na grafikonu:


Jaka veza između y i x je vidljiva, jer linije idu skoro paralelno jedna s drugom. Odnos je direktan: y raste - x raste, y opada - x se smanjuje.



Matrica koeficijenta korelacije para u Excelu

Korelaciona matrica je tabela na preseku redova i kolona u kojoj se nalaze koeficijenti korelacije između odgovarajućih vrednosti. Ima smisla izgraditi ga za nekoliko varijabli.

Matrica koeficijenata korelacije u Excel-u se konstruiše pomoću alata „Korelacija“ iz paketa „Analiza podataka“.


Pronađena je jaka direktna veza između vrijednosti y i x1. Postoji jaka povratna sprega između x1 i x2. Praktično nema veze sa vrijednostima u koloni x3.

Faktori koji su kolinearni...

I kolinearno.

4. U modelu višestruke regresije, determinanta matrice parnih koeficijenata korelacije između faktora , i je blizu nule. To znači da faktori , i ... multikolinearnost faktora.

5. Za ekonometrijski model linearna jednačina višestruka regresija tipa, konstruisana je matrica parnih koeficijenata linearna korelacija (y– zavisna varijabla; x (1),x (2), x (3), x (4)– nezavisne varijable):


Kolinearne (usko povezane) nezavisne (objašnjavajuće) varijable nisux(2) I x(3)

1. Dana je tabela početnih podataka za konstruiranje ekonometrijskog regresijskog modela:

Lažne varijable nisu

radno iskustvo

produktivnost rada

2. Prilikom proučavanja zavisnosti potrošnje mesa od nivoa prihoda i spola potrošača, možemo preporučiti...

koristite lažnu varijablu – pol potrošača

podijeliti populaciju na dva: za ženske potrošače i za muške potrošače

3. Proučavamo zavisnost cijene stana ( at) iz njenog dnevnog boravka ( X) i tip kuće. Model uključuje lažne varijable koje odražavaju tipove kuća koje se razmatraju: monolitne, panelne, ciglene. Dobivena je jednačina regresije: ,
Gdje ,
Posebne regresijske jednadžbe za cigle i monolitne su ...

za kućni tip cigle

za monolitnu kuću

4. Prilikom analize industrijska preduzeća u tri regiona (Republika Mari El, Republika Čuvašija, Republika Tatarstan) konstruisane su tri parcijalne regresione jednačine:

za Republiku Mari El;

za Republiku Čuvašiju;

za Republiku Tatarstan.

Odredite tip lažnih varijabli i jednadžbu sa lažnim varijablama koja generalizira tri jednadžbe parcijalne regresije.

5. U ekonometriji, lažna varijabla se obično smatra...

varijabla koja uzima vrijednosti 0 i 1

opisivanje kvalitativne karakteristike na kvantitativan način

1. Za regresijski model zavisnosti prosječnog monetarnog dohotka stanovništva po glavi stanovnika (RUB, at) od obima bruto regionalnog proizvoda (hiljada rubalja, x 1) i stopu nezaposlenosti u subjektu (%, x 2) dobijena je jednačina. Vrijednost koeficijenta regresije za varijablu x 2 pokazuje da kada se stopa nezaposlenosti promijeni za 1%, prosjek po glavi stanovnika gotovinski prihod ______ rublja sa konstantnom vrijednošću bruto regionalnog proizvoda.

promijenit će se u (-1.67)

2. U linearnoj jednadžbi višestruke regresije: , gdje je trošak osnovnih sredstava (hiljada rubalja); – broj zaposlenih (hiljada ljudi); y- volumen industrijska proizvodnja(hiljadu rubalja) parametar sa varijablom x 1, jednako 10,8, znači da sa povećanjem obima osnovnih sredstava za _____, obim industrijske proizvodnje _____ sa stalnim brojem zaposlenih.


za 1 hiljadu rubalja. ... će se povećati za 10,8 hiljada rubalja.

3. Poznato je da je udio rezidualna varijansa zavisna varijabla u svom totalna varijansa jednako 0,2. Tada je vrijednost koeficijenta determinacije ... 0,8

4. Konstruiran je ekonometrijski model za zavisnost profita od prodaja jedinice proizvodnje (rub., at) od vrijednosti radni kapital preduzeća (hiljade rubalja, x 1): . Shodno tome, prosječna dobit od prodaje, koja ne zavisi od obima obrtnog kapitala preduzeća, iznosi _____ rubalja. 10.75

5. F-statistika se izračunava kao omjer varijanse ______ prema ________ varijanse, izračunate po stepenu slobode. faktorijalni...rezidualni

1. Za model ekonometrijske regresijske jednačine, greška modela je definirana kao ______ između stvarne vrijednosti zavisne varijable i njene procijenjene vrijednosti. Razlika

2. Količina se zove... slučajna komponenta

3. U ekonometrijskom modelu regresione jednadžbe, odstupanje stvarne vrijednosti zavisne varijable od njene izračunate vrijednosti karakteriše ... grešku modela

4. Poznato je da je udio objašnjene varijanse u ukupnoj varijansi 0,2. Tada je vrijednost koeficijenta determinacije ... 0,2

5. Sa metodom najmanjih kvadrata parametara jednadžbe para linearna regresija određuju se iz uslova ______ stanja. minimiziranje zbira kvadrata

1. Da biste otkrili autokorelaciju u ostacima, koristite...

Durbin-Watson statistika

2. Poznato je da je koeficijent autokorelacije reziduala prvog reda jednako –0,3. Takođe dato kritične vrijednosti Durbin–Watson statistika za dati broj parametara s nepoznatim brojem opservacija , . Na osnovu ovih karakteristika možemo zaključiti da...nema autokorelacije reziduala

Zadatak 2

1. Konstruirajte matricu koeficijenata korelacije parova. Provjerite multikolinearnost. Opravdati izbor faktora u modelu.

2. Konstruirajte jednadžbu višestruke regresije u linearnom obliku sa odabranim faktorima.

3. Procijenite statističku značajnost regresione jednačine i njenih parametara koristeći Fisher i Student test.

4. Konstruirajte regresionu jednačinu sa statistički značajnim faktorima. Procijenite kvalitet jednadžbe regresije koristeći koeficijent determinacije R2. Ocijeniti tačnost konstruisanog modela.

5. Procijeniti prognozu obima proizvodnje ako su prognozirane vrijednosti faktora 75% njihovih maksimalnih vrijednosti.

Problemski uslovi (opcija 21)

Prema podacima prikazanim u tabeli 1 (n = 17), proučava se zavisnost obima proizvodnje Y (miliona rubalja) od sledećih faktora (varijabli):

X 1 – broj zaposlenih u industrijskoj proizvodnji, ljudi.

X 2 – prosječni godišnji trošak osnovnih sredstava, miliona rubalja.

X 3 – amortizacija osnovnih sredstava, %

X 4 – napajanje, kWh.

X 5 – tehnička opremljenost jednog radnika, milion rubalja.

X 6 – izlaz komercijalni proizvodi po radniku, rub.

Tabela 1. Podaci o izdanju proizvoda

Y X 1 X 2 X 3 X 4 X 5 X 6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Konstruirajte matricu koeficijenata korelacije parova. Provjerite multikolinearnost. Obrazložite izbor faktora u modelu

Tabela 2 pokazuje matrica koeficijenta korelacije para za sve varijable uključene u razmatranje. Matrica je dobivena pomoću alata Korelacija iz paketa Analiza podataka V Excel.

Tabela 2. Matrica koeficijenata korelacije parova

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Vizuelna analiza matrice vam omogućava da utvrdite:

1) U ima prilično visoke parne korelacije sa varijablama X1, X2 (>0,5) i nizak sa varijablama X3,X4,X5,X6 (<0,5);

2) Analizne varijable X1, X2 pokazuju prilično visoke parne korelacije, što zahtijeva provjeru faktora za prisustvo multikolinearnosti između njih. Štaviše, jedan od uslova klasičnog regresijskog modela je pretpostavka nezavisnosti eksplanatornih varijabli.

Da bismo identifikovali multikolinearnost faktora, radimo Farrar-Glouberov test faktorima X1, X2, X3,X4,X5,X6.

Provjera Farrar-Glouber testa na multikolinearnost faktora uključuje nekoliko faza.

1) Provjera multikolinearnosti cijelog niza varijabli .

Jedan od uslova klasičnog regresijskog modela je pretpostavka nezavisnosti eksplanatornih varijabli. Da bi se identifikovala multikolinearnost između faktora, matrica međufaktorskih korelacija R se izračunava korišćenjem Paketa za analizu podataka (Tabela 3).

Tabela 3. Matrica međufaktorskih korelacija R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Postoji jaka zavisnost (>0,5) između faktora X1 i X2, X5 i X4, X6 i X5.

Determinanta det (R) = 0,001488 izračunava se pomoću funkcije MOPRED. Determinanta matrice R teži nuli, što nam omogućava da napravimo pretpostavku o opštoj multikolinearnosti faktora.

2) Provjera multikolinearnosti svake varijable s drugim varijablama:

· Izračunajte inverznu matricu R -1 koristeći Excel funkcije MOBR (Tabela 4):

Tabela 4. inverzna matrica R -1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Izračunavanje F-kriterija, gdje su dijagonalni elementi matrice, n=17, k = 6 (Tabela 5).

Tabela 5. Vrijednosti F-testa

F1 (X1) F2 (X2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Stvarne vrijednosti F-testa se upoređuju sa vrijednostima u tabeli F tabela = 3,21(FDIST(0,05;6;10)) sa n1= 6 i n2 = n - k – 1=17-6-1=10 stepeni slobode i nivoom značajnosti α=0,05, gde je k broj faktora.

· Vrijednosti F-kriterija za faktore X1 i X2 su veće od tabelarnih, što ukazuje na prisustvo multikolinearnosti između ovih faktora. Faktor X3 ima najmanji uticaj na ukupnu multikolinearnost faktora.

3) Provjera multikolinearnosti svakog para varijabli

· Izračunajmo parcijalne koeficijente korelacije koristeći formulu , gdje su elementi matrice (Tabela 6)

Tabela 6. Matrica parcijalnih koeficijenata korelacije

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Kalkulacija t-kriterijumi prema formuli (Tabela 7)

n - broj podataka = 17

K - broj faktora = 6

Tabela 7.t-testovi za parcijalne koeficijente korelacije

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t tabela = STUDARSOBR(0,05,10) = 2,23

Stvarne vrijednosti t-testa upoređuju se sa tabelarnom vrijednošću sa stupnjevima slobode n-k-1 = 17-6-1=10 i nivoom značajnosti α=0,05;

t21 > ttable

t54 > ttable

Iz tabela 6 i 7 jasno je da dva para faktora X1 i X2, X4 i X5 imaju visoku statistički značajnu parcijalnu korelaciju, odnosno da su multikolinearni. Da biste se riješili multikolinearnosti, možete isključiti jednu od varijabli kolinearnog para. U paru X1 i X2 ostavljamo X2, u paru X4 i X5 ostavljamo X5.

Dakle, kao rezultat provjere Farrar-Glouberovog testa ostaju sljedeći faktori: X2, X3, X5, X6.

Prilikom dovršavanja postupaka analize korelacije, preporučljivo je pogledati parcijalne korelacije odabranih faktora sa rezultatom Y.

Izgradimo matricu parnih koeficijenata korelacije na osnovu podataka u tabeli 8.

Tablica 8. Podaci o izlazu proizvoda s odabranim faktorima X2, X3, X5, X6.

Zapažanje br. Y X 2 X 3 X 5 X 6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Posljednja kolona tabele 9 predstavlja vrijednosti t-testa za Y kolonu.

Tabela 9. Matrica parcijalnih koeficijenata korelacije sa rezultatom Y

Y X2 X3 X5 X6 t kriterijum (t tabela (0,05;11)= 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

Iz tabele 9 je jasno da je varijabla Y ima visoku i istovremeno statistički značajnu parcijalnu korelaciju sa faktor X2.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”