1. Izračunati matricu koeficijenata korelacije parova; analizirati bliskost i smjer povezanosti rezultirajuće karakteristike Y sa svakim faktorom X; procjena statistički značaj koeficijenti korelacije r(Y,X i); odabrati najinformativniji faktor.
2. Konstruisati upareni regresijski model sa najinformativnijim faktorom; dati ekonomsku interpretaciju koeficijenta regresije.
3. Procijeniti kvalitet modela koristeći prosječnu relativnu grešku aproksimacije, koeficijent determinacije i Fišerov F test (prihvatiti nivo značajnosti α=0,05).
4. Sa sigurnošću pouzdanosti od γ=80%, predvidite prosječnu vrijednost indikatora Y(predviđene vrijednosti faktora date su u Dodatku 6). Grafički predstaviti stvarne i modelne vrijednosti Y,prognoza rezultata.
5. Koristeći metodu inkluzije, izgraditi dvofaktorske modele, zadržavajući u njima najinformativniji faktor; izgraditi trofaktorski model sa puna lista faktori.
6. Odaberite najbolji od konstruisanih više modela. Dajte ekonomsko tumačenje njegovih koeficijenata.
7. Provjerite značajnost koeficijenata višestruka regresija korišćenjem t– Studentov test (prihvatiti nivo značajnosti α=0,05). Da li se kvalitet višestrukog modela poboljšao u odnosu na upareni model?
8. Procijeniti utjecaj faktora na rezultat korištenjem koeficijenata elastičnosti, beta i delta koeficijenata.
Zadatak 2. Modeliranje univarijantne vremenske serije
Dodatak 7 prikazuje vremenske serije Y(t) socio-ekonomski pokazatelji za Altai region za period od 2000. do 2011. godine. Potrebno je proučiti dinamiku indikatora koji odgovara opciji zadatka.
Opcija | Oznaka, naziv, mjerna jedinica indikatora | |
Y1 | Prosječna potrošačka potrošnja po glavi stanovnika (mjesečno), rub. | |
Y2 | Emisije zagađujućih materija u atmosferski vazduh, hiljada tona | |
Y3 | Prosječne cijene na sekundarnom tržištu stanova (na kraju godine, for kvadratnom metru ukupna površina), rub | |
Y4 | Volume plaćene usluge po glavi stanovnika, rub | |
Y5 | Prosječan godišnji broj zaposlenih u privredi, hiljada ljudi | |
Y6 | Broj vlastitih putnički automobili na 1000 stanovnika (na kraju godine), jed | |
Y7 | Prosječni novčani prihod po glavi stanovnika (mjesečno), rub. | |
Y8 | Indeks potrošačkih cijena (decembar u odnosu na decembar prethodne godine), % | |
Y9 | Ulaganja u osnovna sredstva (u stvarnim cijenama), miliona rubalja | |
Y10 | Promet maloprodaja po glavi stanovnika (u stvarnim cijenama), rub |
Radni nalog
1. Konstruirati model linearne vremenske serije čiji se parametri mogu procijeniti najmanjim kvadratima. Objasnite značenje koeficijenta regresije.
2. Procijeniti adekvatnost konstruiranog modela koristeći svojstva slučajnosti, nezavisnosti i usklađenosti zaostale komponente sa zakonom normalne raspodjele.
3. Procijeniti tačnost modela na osnovu upotrebe prosječne relativne greške aproksimacije.
4. Predvidite indikator koji se razmatra za godinu dana unaprijed (izračunajte interval prognoze u verovatnoća poverenja 70%).
5. Grafički predstaviti stvarne vrijednosti indikatora, rezultate modeliranja i prognoze.
6. Izračunati parametre logaritamskog, polinomskog (polinoma 2. stepena), stepena, eksponencijalnog i hiperboličkog trenda. Na osnovu grafička slika i vrijednosti indeksa odlučnosti da odaberete najviše prikladan izgled trend.
7. Koristeći najbolji nelinearni model, napravite tačku prognozu dotičnog indikatora za godinu dana unaprijed. Uporedite dobijeni rezultat sa intervalom prognoze pouzdanosti konstruisanog korišćenjem linearnog modela.
PRIMJER
Pogubljenja testni rad
Problem 1
Kompanija se bavi prodajom polovnih automobila. Nazivi indikatora i početni podaci za ekonometrijsko modeliranje prikazani su u tabeli:
Prodajna cijena, hilj.e. ( Y) | Cijena novog automobila, hilj.e. ( X1) | Vek trajanja, godine ( X2) | Lijevi volan - 1, desni volan - 0, ( X3) |
8,33 | 13,99 | 3,8 | |
10,40 | 19,05 | 2,4 | |
10,60 | 17,36 | 4,5 | |
16,58 | 25,00 | 3,5 | |
20,94 | 25,45 | 3,0 | |
19,13 | 31,81 | 3,5 | |
13,88 | 22,53 | 3,0 | |
8,80 | 16,24 | 5,0 | |
13,89 | 16,54 | 2,0 | |
11,03 | 19,04 | 4,5 | |
14,88 | 22,61 | 4,6 | |
20,43 | 27,56 | 4,0 | |
14,80 | 22,51 | 3,3 | |
26,05 | 31,75 | 2,3 |
Obavezno:
1. Izračunati matricu koeficijenata korelacije parova; analizirati bliskost i smjer odnosa između rezultirajuće karakteristike Y i svakog od faktora X; procijeniti statističku značajnost koeficijenata korelacije r(Y, X i); odabrati najinformativniji faktor.
Koristimo Excel (Podaci / Analiza podataka / KORELACIJA):
Dobijamo matricu koeficijenata parne korelacije između svih dostupnih varijabli:
U | X1 | X2 | X3 | |
U | ||||
X1 | 0,910987 | |||
X2 | -0,4156 | -0,2603 | ||
X3 | 0,190785 | 0,221927 | -0,30308 |
Analizirajmo koeficijente korelacije između rezultujuće karakteristike Y i svaki od faktora X j:
> 0, dakle, između varijabli Y I X 1 postoji direktna korelacija: što je viša cijena novog automobila, to je viša prodajna cijena.
> 0,7 – ova zavisnost je bliska.
< 0, значит, между переменными Y I X 2 primećeno
inverzna korelacija: prodajna cijena je niža za automobile
mobilni telefoni sa dugim vijekom trajanja.
– ova zavisnost je umjerena, bliža slaboj.
> 0, što znači između varijabli Y I X 3 postoji direktna korelacija: prodajna cijena je viša za automobile s volanom na lijevoj strani.
< 0,4 – эта зависимость слабая.
Za provjeru značajnosti pronađenih koeficijenata korelacije koristimo Studentov test.
Za svaki koeficijent korelacije
izračunajmo t-statistika prema formuli i unesite rezultate proračuna u dodatnu kolonu korelacijske tablice:
U | X1 | X2 | X3 | t-statistika | |
U | |||||
X1 | 0,910987 | 7,651524603 | |||
X2 | -0,4156 | -0,2603 | 1,582847988 | ||
X3 | 0,190785 | 0,221927 | -0,30308 | 0,673265587 |
Prema tabeli kritičnih tačaka Studentske distribucije na nivou značajnosti i broj stupnjeva slobode određujemo kritičnu vrijednost (Prilog 1, odnosno STUDARSOBR funkcija).Y i vijek trajanja X 2 je pouzdan.
< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y i položaj volana X 3 je pouzdan.
Dakle, najbliža i najznačajnija veza se uočava između prodajne cijene Y i cijenu novog auta X 1 ; faktor X 1 je najinformativniji.
OPCIJA 5
Ovisnost prosječnog životnog vijeka od nekoliko faktora proučavana je prema podacima za 1995. godinu, prikazanim u tabeli. 5.
Tabela 5
Mozambik |
|||||
…………………………………………………………………………………….. |
|||||
Switzerland |
Oznake korištene u tabeli:
· Y-- prosječni životni vijek pri rođenju, godine;
· X 1 -- BDP u paritetima kupovne moći;
· X 2 -- lanac stopa rasta stanovništva, %;
· X 3 -- lanac Stopa rasta radna snaga, %;
· X 4 -- stopa smrtnosti novorođenčadi, % .
Obavezno:
1. Sastaviti matricu uparenih koeficijenata korelacije između svih proučavanih varijabli i identificirati kolinearne faktore.
2. Konstruirajte jednadžbu regresije koja ne sadrži kolinearne faktore. Provjerite statističku značajnost jednačine i njenih koeficijenata.
3. Konstruirajte regresionu jednačinu koja sadrži samo statistički značajne i informativne faktore. Provjerite statističku značajnost jednačine i njenih koeficijenata.
Tačke 4 - 6 odnose se na jednadžbu regresije koja je konstruirana prilikom izvođenja tačke 3.
4. Procijeniti kvalitet i tačnost jednačine regresije.
5. Dajte ekonomsku interpretaciju koeficijenata regresione jednačine i uporednu procjenu jačine utjecaja faktora na varijablu ishoda Y.
6. Izračunajte predviđenu vrijednost varijable ishoda Y, ako su predviđene vrijednosti faktora 75% njihovih maksimalnih vrijednosti. Build interval povjerenja prognoza stvarne vrijednosti Y sa 80% pouzdanosti.
Rješenje. Za rješavanje problema koristi se EXCEL procesor za proračunske tablice.
1. Koristeći dodatak “Analiza podataka… Korelacija” gradimo matricu uparenih koeficijenata korelacije između svih proučavanih varijabli (meni “Alati” “Analiza podataka…” “Korelacija”). Na sl. Prikazan je 1 panel korelacione analize sa popunjenim poljima Da biste kopirali snimak prozora u klipbord podataka WINDOWS-a, koristite kombinaciju tastera Alt+Print Screen (na nekim tastaturama - Alt+PrtSc Rezultati korelacione analize su dati u dodatku). 2 i prebačen na sto. 1.
pirinač. 1. Panel za analizu korelacije
Tabela 1
Matrica koeficijenata korelacije parova
Analiza međufaktorski koeficijenti korelacije pokazuje da vrijednost od 0,8 premašuje u apsolutnoj vrijednosti koeficijent korelacije između para faktora X 2 -X 3 (podebljano). Faktori X 2 -X 3 su stoga prepoznate kao kolinearne.
2. Kao što je pokazano u paragrafu 1, faktori X2-X3 su kolinearni, što znači da se zapravo dupliraju, a njihovo istovremeno uključivanje u model će dovesti do pogrešne interpretacije odgovarajućih koeficijenata regresije. Može se vidjeti da faktor X2 ima veći koeficijent korelacije sa rezultatom Y od faktora X3: ry,x2=0,72516; ry,x3=0,53397; |ry,x2|>|ry,x3| (vidi tabelu 1). Ovo ukazuje na jači utjecaj faktora X2 na promjenu Y. Faktor X3 je stoga isključen iz razmatranja.
Za konstruiranje regresijske jednadžbe koriste se vrijednosti varijabli ( Y,X 1 , X 2 , X 4) kopirajte ga na prazan radni list ( adj. 3). Regresionu jednačinu gradimo pomoću dodatka “ Analiza podataka...Regresija" (meni " usluga" « Analiza podataka…» « Regresija"). Panel regresiona analiza sa popunjenim poljima se prikazuje u pirinač. 2.
Dati su rezultati regresione analize adj. 4 i preselio se u sto 2. Jednačina regresije ima oblik (vidi “ Šanse" V sto 2):
y = 75,44 + 0,0447 ? x 1 - 0,0453 ? x 2 - 0,24 ? x 4
Jednačina regresije se smatra statistički značajnom, jer je vjerovatnoća njenog slučajnog formiranja u obliku u kojem je dobijena 1,04571?10 -45 (vidi. "Značaj F" V sto 2), što je značajno niže od prihvaćenog nivoa značajnosti =0,05.
Vjerojatnost slučajnog formiranja koeficijenata za faktor X 1 ispod prihvaćenog nivoa značajnosti =0,05 (vidi “ P-vrijednost" V sto 2), što ukazuje na statističku značajnost koeficijenata i značajan uticaj ovih faktora na promjenu godišnje dobiti Y.
Vjerovatnoća slučajnog formiranja koeficijenata za faktore X 2 i X 4 prelazi prihvaćeni nivo značajnosti =0,05 (vidi “ P-vrijednost" V sto 2), a ovi koeficijenti se ne smatraju statistički značajnim.
![](https://i1.wp.com/studbooks.net/imag_/43/230225/image002.jpg)
pirinač. 2. Panel za analizu regresije modela Y(X 1 ,X 2 ,X 4 )
tabela 2
Y(X 1 , X 2 , X 4 )
Analiza varijanse |
||||||||
Značaj F |
||||||||
Regresija |
||||||||
Jednačina regresije |
||||||||
Odds |
Standardna greška |
t-statistika |
P-vrijednost |
donjih 95% |
Top 95% |
Donjih 95,0% |
Top 95,0% |
|
Y-raskrsnica |
||||||||
3. Na osnovu rezultata provjere statističke značajnosti koeficijenata regresijske jednačine sprovedene u prethodnom pasusu, gradimo novi regresijski model koji sadrži samo informativne faktore, koji uključuju:
· faktori čiji su koeficijenti statistički značajni;
faktori čiji koeficijenti t _statistics premašuje jedan u apsolutnoj vrijednosti (drugim riječima, apsolutna vrijednost koeficijenta je veća od njegove standardne greške).
Prva grupa uključuje faktor X 1 do 2 je faktor X 4 . Faktor X 2 je isključen iz razmatranja kao neinformativan, a konačni regresijski model će sadržavati faktore X 1 , X 4 .
Da biste napravili jednadžbu regresije, kopirajte vrijednosti varijabli koje se koriste na prazan radni list ( adj. 5) i izvršiti regresijsku analizu ( pirinač. 3). Njegovi rezultati su dati u adj. 6 i preselio se u sto 3. Jednačina regresije je:
y = 75,38278 + 0,044918 ? x 1 - 0,24031 ? x 4
(cm. " Šanse" V tabela 3).
![](https://i2.wp.com/studbooks.net/imag_/43/230225/image003.jpg)
pirinač. 3. Panel za analizu regresije modela Y(X 1 , X 4 )
Tabela 3
Rezultati regresione analize modela Y(X 1 , X 4 )
Statistika regresije |
|||||
Množina R |
|||||
R-kvadrat |
|||||
Normalizirani R-kvadrat |
|||||
Standardna greška |
|||||
Zapažanja |
|||||
Analiza varijanse |
|||||
Značaj F |
|||||
Regresija |
|||||
Jednačina regresije |
|||||
Odds |
Standardna greška |
t-statistika |
P-vrijednost |
||
Y-raskrsnica |
|||||
Jednačina regresije je statistički značajna: vjerovatnoća njenog slučajnog formiranja je ispod prihvatljivog nivoa značajnosti = 0,05 (vidi “ Značaj F" V tabela 3).
Koeficijent za faktor se također smatra statistički značajnim X 1 vjerovatnoća njegovog slučajnog formiranja je ispod prihvatljivog nivoa značajnosti = 0,05 (vidi “ P-vrijednost" V sto 3). Ovo ukazuje na značajan uticaj BDP-a na paritete kupovne moći X 1 po promjeni godišnje dobiti Y.
Faktorski koeficijent X 4 (godišnji koeficijent mortalitet novorođenčadi) nije statistički značajan. Međutim, ovaj faktor se i dalje može smatrati informativnim, jer t _statistika njegovog koeficijenta premašuje modulo jedinica, iako dalji zaključci u vezi sa faktorom X 4 treba tretirati sa određenim oprezom.
4. Procijenimo kvalitet i tačnost posljednje jednačine regresije koristeći neke statističke karakteristike dobijeno tokom regresione analize (vidi “ Statistika regresije» u tabeli. 3):
višestruki koeficijent determinacije
R2 = _ i=1 ____________ =0.946576
R 2 = pokazuje da regresijski model objašnjava 94,7% varijacija u prosječnom očekivanom životnom vijeku pri rođenju Y, a ova varijacija je posljedica promjena faktora uključenih u regresijski model X 1 , X 4 ;
· standardna greška regresija
![](https://i0.wp.com/studbooks.net/imag_/43/230225/image004.png)
pokazuje da su vrijednosti prosječnog životnog vijeka pri rođenju predviđene regresijskom jednadžbom Y razlikuju se od stvarnih vrijednosti u prosjeku za 2,252208 godina.
Prosječna relativna greška aproksimacije određena je približnom formulom:
Erel?0.8 ? -- ? 100%=0.8 ? 2.252208/66.9 ? 100%?2.7
![](https://i0.wp.com/studbooks.net/imag_/43/230225/image005.png)
gdje hiljada rub. -- prosječan životni vijek (određen pomoću ugrađene funkcije " PROSJEČNO»; adj. 1).
E rel pokazuje da su vrijednosti godišnjeg profita predviđene regresionom jednadžbom Y razlikuju od stvarnih vrijednosti u prosjeku za 2,7%. Model ima visoku tačnost (pri - tačnost modela je visoka, pri - dobra, pri - zadovoljavajuća, pri - nezadovoljavajuća).
5. Za ekonomska interpretacija koeficijenti jednadžbe regresije, tabelarno prikazujemo prosječne vrijednosti i standardne devijacije varijable u izvornim podacima (tabela 4). Prosječne vrijednosti određivane su pomoću ugrađene funkcije "PROSJEK", standardne devijacije - korištenjem ugrađene funkcije "STANDARDNA DEVIATION" (vidi Dodatak 1).
Koeficijent korelacije odražava stepen povezanosti dva indikatora. Uvijek uzima vrijednost od -1 do 1. Ako se koeficijent nalazi oko 0, onda nema veze između varijabli.
Ako je vrijednost blizu jedan (od 0,9, na primjer), onda postoji jaka direktna veza između posmatranih objekata. Ako je koeficijent blizu druge ekstremne tačke opsega (-1), tada postoji jaka inverzna veza između varijabli. Kada je vrijednost negdje između 0 i 1 ili 0 i -1, onda mi pričamo o slaboj sprezi (direktnoj ili obrnutoj). Ovaj odnos se obično ne uzima u obzir: vjeruje se da ne postoji.
Izračunavanje koeficijenta korelacije u Excel-u
Pogledajmo primjer metoda za izračunavanje koeficijenta korelacije, karakteristike direktnih i inverznih odnosa između varijabli.
Vrijednosti indikatora x i y:
Y je nezavisna varijabla, x je zavisna varijabla. Potrebno je pronaći snagu (jako/slabo) i smjer (direktno/obrnuto) veze između njih. Formula koeficijenta korelacije izgleda ovako:
![](https://i2.wp.com/exceltable.com/otchety/images/otchety56-2.png)
Da bismo ga lakše razumjeli, podijelimo ga na nekoliko jednostavnih elemenata.
![](https://i0.wp.com/exceltable.com/otchety/images/otchety56-3.png)
![](https://i0.wp.com/exceltable.com/otchety/images/otchety56-9.png)
Između varijabli utvrđena je jaka direktna veza.
Ugrađena funkcija CORREL izbjegava složene proračune. Izračunajmo koeficijent korelacije para u Excelu koristeći ga. Pozovite čarobnjaka funkcija. Naći ćemo onu koja nam treba. Argumenti funkcije su niz y vrijednosti i niz x vrijednosti:
![](https://i0.wp.com/exceltable.com/otchety/images/otchety56-10.png)
Pokažimo vrijednosti varijabli na grafikonu:
![](https://i2.wp.com/exceltable.com/otchety/images/otchety56-11.png)
Jaka veza između y i x je vidljiva, jer linije idu skoro paralelno jedna s drugom. Odnos je direktan: y raste - x raste, y opada - x se smanjuje.
Matrica koeficijenta korelacije para u Excelu
Korelaciona matrica je tabela na preseku redova i kolona u kojoj se nalaze koeficijenti korelacije između odgovarajućih vrednosti. Ima smisla izgraditi ga za nekoliko varijabli.
![](https://i0.wp.com/exceltable.com/otchety/images/otchety56-12.png)
Matrica koeficijenata korelacije u Excel-u se konstruiše pomoću alata „Korelacija“ iz paketa „Analiza podataka“.
![](https://i1.wp.com/exceltable.com/otchety/images/otchety56-13.png)
![](https://i2.wp.com/exceltable.com/otchety/images/otchety56-15.png)
Pronađena je jaka direktna veza između vrijednosti y i x1. Postoji jaka povratna sprega između x1 i x2. Praktično nema veze sa vrijednostima u koloni x3.
Faktori koji su kolinearni...
I kolinearno.
4. U modelu višestruke regresije, determinanta matrice parnih koeficijenata korelacije između faktora , i je blizu nule. To znači da faktori , i ... multikolinearnost faktora.
5. Za ekonometrijski model linearna jednačina višestruka regresija tipa, konstruisana je matrica parnih koeficijenata linearna korelacija (y– zavisna varijabla; x (1),x (2), x (3), x (4)– nezavisne varijable):
Kolinearne (usko povezane) nezavisne (objašnjavajuće) varijable nisu …x(2) I x(3)
1. Dana je tabela početnih podataka za konstruiranje ekonometrijskog regresijskog modela:
Lažne varijable nisu …
radno iskustvo
produktivnost rada
2. Prilikom proučavanja zavisnosti potrošnje mesa od nivoa prihoda i spola potrošača, možemo preporučiti...
koristite lažnu varijablu – pol potrošača
podijeliti populaciju na dva: za ženske potrošače i za muške potrošače
3. Proučavamo zavisnost cijene stana ( at) iz njenog dnevnog boravka ( X) i tip kuće. Model uključuje lažne varijable koje odražavaju tipove kuća koje se razmatraju: monolitne, panelne, ciglene. Dobivena je jednačina regresije: ,
Gdje ,
Posebne regresijske jednadžbe za cigle i monolitne su ...
za kućni tip cigle
za monolitnu kuću
4. Prilikom analize industrijska preduzeća u tri regiona (Republika Mari El, Republika Čuvašija, Republika Tatarstan) konstruisane su tri parcijalne regresione jednačine:
za Republiku Mari El;
za Republiku Čuvašiju;
za Republiku Tatarstan.
Odredite tip lažnih varijabli i jednadžbu sa lažnim varijablama koja generalizira tri jednadžbe parcijalne regresije.
5. U ekonometriji, lažna varijabla se obično smatra...
varijabla koja uzima vrijednosti 0 i 1
opisivanje kvalitativne karakteristike na kvantitativan način
1. Za regresijski model zavisnosti prosječnog monetarnog dohotka stanovništva po glavi stanovnika (RUB, at) od obima bruto regionalnog proizvoda (hiljada rubalja, x 1) i stopu nezaposlenosti u subjektu (%, x 2) dobijena je jednačina. Vrijednost koeficijenta regresije za varijablu x 2 pokazuje da kada se stopa nezaposlenosti promijeni za 1%, prosjek po glavi stanovnika gotovinski prihod ______ rublja sa konstantnom vrijednošću bruto regionalnog proizvoda.
promijenit će se u (-1.67)
2. U linearnoj jednadžbi višestruke regresije: , gdje je trošak osnovnih sredstava (hiljada rubalja); – broj zaposlenih (hiljada ljudi); y- volumen industrijska proizvodnja(hiljadu rubalja) parametar sa varijablom x 1, jednako 10,8, znači da sa povećanjem obima osnovnih sredstava za _____, obim industrijske proizvodnje _____ sa stalnim brojem zaposlenih.
za 1 hiljadu rubalja. ... će se povećati za 10,8 hiljada rubalja.
3. Poznato je da je udio rezidualna varijansa zavisna varijabla u svom totalna varijansa jednako 0,2. Tada je vrijednost koeficijenta determinacije ... 0,8
4. Konstruiran je ekonometrijski model za zavisnost profita od prodaja jedinice proizvodnje (rub., at) od vrijednosti radni kapital preduzeća (hiljade rubalja, x 1): . Shodno tome, prosječna dobit od prodaje, koja ne zavisi od obima obrtnog kapitala preduzeća, iznosi _____ rubalja. 10.75
5. F-statistika se izračunava kao omjer varijanse ______ prema ________ varijanse, izračunate po stepenu slobode. faktorijalni...rezidualni
1. Za model ekonometrijske regresijske jednačine, greška modela je definirana kao ______ između stvarne vrijednosti zavisne varijable i njene procijenjene vrijednosti. Razlika
2. Količina se zove... slučajna komponenta
3. U ekonometrijskom modelu regresione jednadžbe, odstupanje stvarne vrijednosti zavisne varijable od njene izračunate vrijednosti karakteriše ... grešku modela
4. Poznato je da je udio objašnjene varijanse u ukupnoj varijansi 0,2. Tada je vrijednost koeficijenta determinacije ... 0,2
5. Sa metodom najmanjih kvadrata parametara jednadžbe para linearna regresija određuju se iz uslova ______ stanja. minimiziranje zbira kvadrata
1. Da biste otkrili autokorelaciju u ostacima, koristite...
Durbin-Watson statistika
2. Poznato je da je koeficijent autokorelacije reziduala prvog reda jednako –0,3. Takođe dato kritične vrijednosti Durbin–Watson statistika za dati broj parametara s nepoznatim brojem opservacija , . Na osnovu ovih karakteristika možemo zaključiti da...nema autokorelacije reziduala
Zadatak 2
1. Konstruirajte matricu koeficijenata korelacije parova. Provjerite multikolinearnost. Opravdati izbor faktora u modelu.
2. Konstruirajte jednadžbu višestruke regresije u linearnom obliku sa odabranim faktorima.
3. Procijenite statističku značajnost regresione jednačine i njenih parametara koristeći Fisher i Student test.
4. Konstruirajte regresionu jednačinu sa statistički značajnim faktorima. Procijenite kvalitet jednadžbe regresije koristeći koeficijent determinacije R2. Ocijeniti tačnost konstruisanog modela.
5. Procijeniti prognozu obima proizvodnje ako su prognozirane vrijednosti faktora 75% njihovih maksimalnih vrijednosti.
Problemski uslovi (opcija 21)
Prema podacima prikazanim u tabeli 1 (n = 17), proučava se zavisnost obima proizvodnje Y (miliona rubalja) od sledećih faktora (varijabli):
X 1 – broj zaposlenih u industrijskoj proizvodnji, ljudi.
X 2 – prosječni godišnji trošak osnovnih sredstava, miliona rubalja.
X 3 – amortizacija osnovnih sredstava, %
X 4 – napajanje, kWh.
X 5 – tehnička opremljenost jednog radnika, milion rubalja.
X 6 – izlaz komercijalni proizvodi po radniku, rub.
Tabela 1. Podaci o izdanju proizvoda
№ | Y | X 1 | X 2 | X 3 | X 4 | X 5 | X 6 |
39,5 | 4,9 | 3,2 | |||||
46,4 | 60,5 | 20,4 | |||||
43,7 | 24,9 | 9,5 | |||||
35,7 | 50,4 | 34,7 | |||||
41,8 | 5,1 | 17,9 | |||||
49,8 | 35,9 | 12,1 | |||||
44,1 | 48,1 | 18,9 | |||||
48,1 | 69,5 | 12,2 | |||||
47,6 | 31,9 | 8,1 | |||||
58,6 | 139,4 | 29,7 | |||||
70,4 | 16,9 | 5,3 | |||||
37,5 | 17,8 | 5,6 | |||||
62,0 | 27,6 | 12,3 | |||||
34,4 | 13,9 | 3,2 | |||||
35,4 | 37,3 | 19,0 | |||||
40,8 | 55,3 | 19,3 | |||||
48,1 | 35,1 | 12,4 |
Konstruirajte matricu koeficijenata korelacije parova. Provjerite multikolinearnost. Obrazložite izbor faktora u modelu
Tabela 2 pokazuje matrica koeficijenta korelacije para za sve varijable uključene u razmatranje. Matrica je dobivena pomoću alata Korelacija iz paketa Analiza podataka V Excel.
Tabela 2. Matrica koeficijenata korelacije parova
Y | X1 | X2 | X3 | X4 | X5 | X6 | |
Y | |||||||
X1 | 0,995634 | ||||||
X2 | 0,996949 | 0,994947 | |||||
X3 | -0,25446 | -0,27074 | -0,26264 | ||||
X4 | 0,12291 | 0,07251 | 0,107572 | 0,248622 | |||
X5 | 0,222946 | 0,166919 | 0,219914 | -0,07573 | 0,671386 | ||
X6 | 0,067685 | -0,00273 | 0,041955 | -0,28755 | 0,366382 | 0,600899 |
Vizuelna analiza matrice vam omogućava da utvrdite:
1) U ima prilično visoke parne korelacije sa varijablama X1, X2 (>0,5) i nizak sa varijablama X3,X4,X5,X6 (<0,5);
2) Analizne varijable X1, X2 pokazuju prilično visoke parne korelacije, što zahtijeva provjeru faktora za prisustvo multikolinearnosti između njih. Štaviše, jedan od uslova klasičnog regresijskog modela je pretpostavka nezavisnosti eksplanatornih varijabli.
Da bismo identifikovali multikolinearnost faktora, radimo Farrar-Glouberov test faktorima X1, X2, X3,X4,X5,X6.
Provjera Farrar-Glouber testa na multikolinearnost faktora uključuje nekoliko faza.
1) Provjera multikolinearnosti cijelog niza varijabli .
Jedan od uslova klasičnog regresijskog modela je pretpostavka nezavisnosti eksplanatornih varijabli. Da bi se identifikovala multikolinearnost između faktora, matrica međufaktorskih korelacija R se izračunava korišćenjem Paketa za analizu podataka (Tabela 3).
Tabela 3. Matrica međufaktorskih korelacija R
X1 | X2 | X3 | X4 | X5 | X6 | |
X1 | 0,994947 | -0,27074 | 0,07251 | 0,166919 | -0,00273 | |
X2 | 0,994947 | -0,26264 | 0,107572 | 0,219914 | 0,041955 | |
X3 | -0,27074 | -0,26264 | 0,248622 | -0,07573 | -0,28755 | |
X4 | 0,07251 | 0,107572 | 0,248622 | 0,671386 | 0,366382 | |
X5 | 0,166919 | 0,219914 | -0,07573 | 0,671386 | 0,600899 | |
X6 | -0,00273 | 0,041955 | -0,28755 | 0,366382 | 0,600899 |
Postoji jaka zavisnost (>0,5) između faktora X1 i X2, X5 i X4, X6 i X5.
Determinanta det (R) = 0,001488 izračunava se pomoću funkcije MOPRED. Determinanta matrice R teži nuli, što nam omogućava da napravimo pretpostavku o opštoj multikolinearnosti faktora.
2) Provjera multikolinearnosti svake varijable s drugim varijablama:
· Izračunajte inverznu matricu R -1 koristeći Excel funkcije MOBR (Tabela 4):
Tabela 4. inverzna matrica R -1
X1 | X2 | X3 | X4 | X5 | X6 | |
X1 | 150,1209 | -149,95 | 3,415228 | -1,70527 | 6,775768 | 4,236465 |
X2 | -149,95 | 150,9583 | -3,00988 | 1,591549 | -7,10952 | -3,91954 |
X3 | 3,415228 | -3,00988 | 1,541199 | -0,76909 | 0,325241 | 0,665121 |
X4 | -1,70527 | 1,591549 | -0,76909 | 2,218969 | -1,4854 | -0,213 |
X5 | 6,775768 | -7,10952 | 0,325241 | -1,4854 | 2,943718 | -0,81434 |
X6 | 4,236465 | -3,91954 | 0,665121 | -0,213 | -0,81434 | 1,934647 |
· Izračunavanje F-kriterija, gdje su dijagonalni elementi matrice, n=17, k = 6 (Tabela 5).
Tabela 5. Vrijednosti F-testa
F1 (X1) | F2 (X2) | F3 (X3) | F4 (X4) | F5 (X5) | F6 (X6) |
89,29396 | 89,79536 | 0,324071 | 0,729921 | 1,163903 | 0,559669 |
· Stvarne vrijednosti F-testa se upoređuju sa vrijednostima u tabeli F tabela = 3,21(FDIST(0,05;6;10)) sa n1= 6 i n2 = n - k – 1=17-6-1=10 stepeni slobode i nivoom značajnosti α=0,05, gde je k broj faktora.
· Vrijednosti F-kriterija za faktore X1 i X2 su veće od tabelarnih, što ukazuje na prisustvo multikolinearnosti između ovih faktora. Faktor X3 ima najmanji uticaj na ukupnu multikolinearnost faktora.
3) Provjera multikolinearnosti svakog para varijabli
· Izračunajmo parcijalne koeficijente korelacije koristeći formulu , gdje su elementi matrice (Tabela 6)
Tabela 6. Matrica parcijalnih koeficijenata korelacije
X1 | X2 | X3 | X4 | X5 | X6 | |
X1 | ||||||
X2 | 0,996086 | |||||
X3 | -0,22453 | 0,197329 | ||||
X4 | 0,093432 | -0,08696 | 0,415882 | |||
X5 | -0,32232 | 0,337259 | -0,1527 | 0,581191 | ||
X6 | -0,24859 | 0,229354 | -0,38519 | 0,102801 | 0,341239 |
· Kalkulacija t-kriterijumi prema formuli (Tabela 7)
n - broj podataka = 17
K - broj faktora = 6
Tabela 7.t-testovi za parcijalne koeficijente korelacije
X1 | X2 | X3 | X4 | X5 | X6 | |
X1 | ||||||
X2 | 35,6355 | |||||
X3 | -0,72862 | 0,636526 | ||||
X4 | 0,296756 | -0,27604 | 1,446126 | |||
X5 | -1,07674 | 1,13288 | -0,4886 | 2,258495 | ||
X6 | -0,81158 | 0,745143 | -1,31991 | 0,326817 | 1,147999 |
t tabela = STUDARSOBR(0,05,10) = 2,23
Stvarne vrijednosti t-testa upoređuju se sa tabelarnom vrijednošću sa stupnjevima slobode n-k-1 = 17-6-1=10 i nivoom značajnosti α=0,05;
t21 > ttable
t54 > ttable
Iz tabela 6 i 7 jasno je da dva para faktora X1 i X2, X4 i X5 imaju visoku statistički značajnu parcijalnu korelaciju, odnosno da su multikolinearni. Da biste se riješili multikolinearnosti, možete isključiti jednu od varijabli kolinearnog para. U paru X1 i X2 ostavljamo X2, u paru X4 i X5 ostavljamo X5.
Dakle, kao rezultat provjere Farrar-Glouberovog testa ostaju sljedeći faktori: X2, X3, X5, X6.
Prilikom dovršavanja postupaka analize korelacije, preporučljivo je pogledati parcijalne korelacije odabranih faktora sa rezultatom Y.
Izgradimo matricu parnih koeficijenata korelacije na osnovu podataka u tabeli 8.
Tablica 8. Podaci o izlazu proizvoda s odabranim faktorima X2, X3, X5, X6.
Zapažanje br. | Y | X 2 | X 3 | X 5 | X 6 |
39,5 | 3,2 | ||||
46,4 | 20,4 | ||||
43,7 | 9,5 | ||||
35,7 | 34,7 | ||||
41,8 | 17,9 | ||||
49,8 | 12,1 | ||||
44,1 | 18,9 | ||||
48,1 | 12,2 | ||||
47,6 | 8,1 | ||||
58,6 | 29,7 | ||||
70,4 | 5,3 | ||||
37,5 | 5,6 | ||||
12,3 | |||||
34,4 | 3,2 | ||||
35,4 | |||||
40,8 | 19,3 | ||||
48,1 | 12,4 |
Posljednja kolona tabele 9 predstavlja vrijednosti t-testa za Y kolonu.
Tabela 9. Matrica parcijalnih koeficijenata korelacije sa rezultatom Y
Y | X2 | X3 | X5 | X6 | t kriterijum (t tabela (0,05;11)= 2,200985 | |
Y | 0,996949 | -0,25446 | 0,222946 | 0,067685 | ||
X2 | 0,996949 | -0,26264 | 0,219914 | 0,041955 | 44,31676 | |
X3 | -0,25446 | -0,26264 | -0,07573 | -0,28755 | 0,916144 | |
X5 | 0,222946 | 0,219914 | -0,07573 | 0,600899 | -0,88721 | |
X6 | 0,067685 | 0,041955 | -0,28755 | 0,600899 | 1,645749 |
Iz tabele 9 je jasno da je varijabla Y ima visoku i istovremeno statistički značajnu parcijalnu korelaciju sa faktor X2.
U kontaktu sa: |