Linearna regresija: značenje i procjena parametara. Parametri regresione jednačine i njihove procjene, neophodna svojstva procjena

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Ekonomski fenomeni, po pravilu se određuju veliki broj simultano i kumulativno djelujući faktori. U tom smislu, često se javlja zadatak proučavanja zavisnosti varijable at iz nekoliko varijabli koje objašnjavaju ( x 1, x 2,…, x k) koji se može riješiti korištenjem višestruka korelacija- regresiona analiza.

Prilikom proučavanja ovisnosti korištenjem metoda višestruka regresija problem se formira na isti način kao i kod upotrebe uparene regresije, tj. potrebno je odrediti analitički izraz oblika veze između rezultirajuće karakteristike at i faktorske karakteristike x, x 2,..., xk, naći funkciju , gdje je k broj faktorskih karakteristika

Višestruka regresija se široko koristi u rješavanju problema potražnje, povrata zaliha, u proučavanju funkcije troškova proizvodnje, u makroekonomskim proračunima i nizu drugih ekonometrijskih pitanja. Trenutno je višestruka regresija jedna od najčešćih metoda u ekonometriji. Osnovni cilj višestruke regresije je da se izgradi model sa velikim brojem faktora, pri čemu se utvrđuje uticaj svakog od njih posebno, kao i njihov kombinovani uticaj na modelirani indikator.

Zbog prirode metode najmanjih kvadrata U višestrukoj regresiji, kao iu parnoj regresiji, koriste se samo linearne jednadžbe i jednadžbe svedene na linearni oblik transformirajućim varijablama. Najčešće se koristi linearna jednačina, koji se može napisati na sljedeći način:

a 0 , a 1, …, a k – parametri modela (koeficijenti regresije);

ε j – slučajna varijabla (preostala vrijednost).

Koeficijent regresije A j pokazuje za koji će se iznos u prosjeku promijeniti efektivni atribut y, ako je varijabla X j povećanje za jedinicu mjere uz fiksnu (konstantnu) vrijednost ostalih faktora uključenih u jednačinu regresije. Parametri na x su pozvani "čisti" koeficijenti regresije .

Primjer.

Pretpostavimo da se zavisnost troškova hrane za skup porodica karakteriše sljedećom jednačinom:

y– porodični troškovi za mesec dana za hranu, hiljada rubalja;

x 1 – mjesečni prihod po članu porodice, hiljada rubalja;

x 2 – veličina porodice, ljudi.

Analiza ove jednadžbe omogućava nam da izvučemo zaključke - s povećanjem prihoda po članu porodice za 1 hiljadu rubalja. troškovi hrane će se povećati u prosjeku za 350 rubalja. sa istom prosječnom veličinom porodice. Drugim riječima, 35% dodatnih porodičnih troškova troši se na hranu. Povećanje veličine porodice uz isti prihod podrazumijeva dodatno povećanje troškova hrane za 730 rubalja. Prvi parametar ne podliježe ekonomska interpretacija.

Pouzdanost svakog od parametara modela se procjenjuje korištenjem Studentovog t-testa. Za bilo koji od parametara modela a j, vrijednost t-kriterijuma se izračunava pomoću formule , Gdje


S ε – standardna (srednja kvadratna) devijacija regresione jednadžbe)

određena formulom

Koeficijent regresije a j se smatra dovoljno pouzdanim ako je izračunata vrijednost t- kriterijum sa ( n - k - 1) stepeni slobode premašuju tabelu vrijednost, tj. t calc > t A jn - k -1 . Ako pouzdanost koeficijenta regresije nije potvrđena, onda bi trebalo; zaključak o beznačajnosti u faktorskom modelu j karakteristiku i potrebu da se ona eliminira iz modela ili zamijeni nekom drugom faktorskom karakteristikom.

Važna uloga Pri procjeni uticaja faktora ulogu igraju koeficijenti regresijskog modela. Međutim, direktno uz njihovu pomoć nemoguće je porediti karakteristike faktora prema stepenu njihovog uticaja na zavisnu varijablu zbog razlike u mernim jedinicama i različitih stepeni varijabilnosti. Da biste uklonili takve razlike, koristite parcijalni koeficijenti elastičnosti E j i beta koeficijenti β j.

Formula za izračunavanje koeficijenta elastičnosti

Gdje

a j – koeficijent faktorske regresije j,

Prosječna vrijednost efektivne karakteristike

Prosječna vrijednost karakteristike j

Koeficijent elastičnosti pokazuje za koji se postotak mijenja zavisna varijabla at kada se faktor promeni j za 1%.

Formula za određivanje beta koeficijenta.

, Gdje

S xj – prosjek standardna devijacija faktor a j;

S y - standardna devijacija faktora y.

β - koeficijent pokazuje za koji dio standardne devijacije S y zavisna varijabla će se promijeniti at sa promjenom odgovarajuće nezavisne varijable X j po vrijednosti njegove standardne devijacije sa fiksnom vrijednošću preostalih nezavisnih varijabli.

Udio uticaja određenog faktora u ukupnom uticaju svih faktora može se procijeniti vrijednošću delta koeficijenti Δ j.

Ovi koeficijenti vam omogućavaju da rangirate faktore prema stepenu uticaja faktora na zavisnu varijablu.

Formula za određivanje delta koeficijenta.

r yj – koeficijent parne korelacije između faktora j i zavisne varijable;

R 2 – višestruki koeficijent odlučnost.

Koeficijent višestruke determinacije se koristi za ocjene kvaliteta višestruki regresijski modeli.

Formula za određivanje koeficijenta višestruke determinacije.

Koeficijent determinacije pokazuje udio varijacije u rezultantnoj karakteristici koja je pod uticajem faktorskih karakteristika, tj. određuje koliki je udio varijacije u osobini at uzeti u obzir u modelu i nastaje zbog uticaja na njega faktora uključenih u model. Što bliže R 2 do jedan, što je kvalitetniji model

Prilikom dodavanja nezavisnih vrijednost varijabli R 2 raste, pa koeficijent R 2 mora se prilagoditi za broj nezavisnih varijabli koristeći formulu

Za testiranje značaja modela Fisherov F test se koristi za regresiju. Određuje se formulom

Ako je izračunata vrijednost kriterija sa γ 1, = k I γ 2 = (n - k- 1) stepena slobode veće od tabele na datom nivou značajnosti, onda se model smatra značajnim.

Kao mjera tačnosti koristi se model standardna greška, što je omjer zbira kvadrata nivoa zaostale komponente i vrijednosti (n - k -1):

Na osnovu klasičnog pristupa procjeni parametara linearnog modela metoda najmanjih kvadrata (LSM). Sistem normalnih jednačina ima oblik:

Rješenje sistema se može izvesti prema jednom od poznate metode: Gaussova metoda, Cramerova metoda itd.

Primjer 15.

Za četiri preduzeća u regionu (tabela 41) proučava se zavisnost proizvodnje proizvoda po zaposlenom y(hiljadu rubalja) od puštanja u rad novih osnovnih sredstava (% vrijednosti imovine na kraju godine) i od udjela visokokvalifikovanih radnika u ukupan broj radnika (%). Morate napisati jednadžbu višestruke regresije.

Tabela 41 – Ovisnost proizvodnje proizvoda po zaposlenom

Uvod

Ekonometrija naširoko koristi statističke metode. Sa ciljem da pruži kvantitativni opis odnosa između ekonomskih varijabli, ekonometrija je prvenstveno povezana sa metodama regresije i korelacije.

U zavisnosti od broja faktora uključenih u jednadžbu regresije, uobičajeno je razlikovati jednostavnu (uparnu) i višestruku regresiju.

Jednostavna regresija je model u kojem se prosječna vrijednost zavisne (objašnjene) varijable y smatra funkcijom jedne nezavisne (objašnjavajuće) varijable x, tj. ovo je model pogleda

Višestruka regresija je model u kojem se prosječna vrijednost zavisne (objašnjene) varijable y posmatra kao funkcija nekoliko nezavisnih (objašnjavajućih) varijabli x 1, x 2,..., tj. ovo je model pogleda

Y = ѓ (x 1, x 2..., x k).

Ovaj rad je posvećen metodama jednostavne ili parne regresije i korelacije, te mogućnostima njihove primjene u ekonometriji.

Linearna regresija i korelacija: značenje i procjena parametara

Linearna regresija se široko koristi u ekonometriji zbog jasne ekonomske interpretacije njenih parametara. Linearna regresija se svodi na pronalaženje jednačine oblika

y x = a + b * x ili y = a + b * x + e. (1)

Jednačina oblika y x = a + b * x dozvoljava date vrijednosti faktor x ima teorijske vrijednosti rezultirajuće karakteristike zamjenom stvarnih vrijednosti faktora x u njega (slika 1)

Izgradnja linearna regresija svodi se na procjenu njegovih parametara - a i b. Procjene parametara linearne regresije mogu se pronaći korištenjem različitih metoda. Možete se okrenuti korelacijskom polju i odabirom dvije točke na grafikonu nacrtati pravu liniju kroz njih (vidi sliku 1), a zatim pomoću grafikona pronaći vrijednosti parametara. Parametar a definiramo kao točku presjeka linije regresije sa osom oy i procjenjujemo parametar b na osnovu nagiba linije regresije kao dy/dx, gdje je dy prirast rezultata y, a dx prirast faktor x, tj.

Klasični pristup procjeni parametara linearne regresije baziran je na metodi najmanjih kvadrata (OLS).

Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara a i b za koje je zbroj kvadrata odstupanja stvarnih vrijednosti rezultujuće karakteristike y od izračunatog (teoretskog) y x minimalan:

U(yi - yx i) 2 > min (2)

Drugim riječima, iz cijelog skupa linija, linija regresije na grafu je odabrana tako da je zbir kvadrata vertikalnih udaljenosti između tačaka i ove linije minimalan (slika 2):

e i = y i - y x,

dakle,

Da bi se našao minimum funkcije (2), potrebno je izračunati parcijalne izvode za svaki od parametara a i b i izjednačiti ih sa nulom.

Označimo Y e i 2 sa S, tada:

S = Y(y i - y x)2 = Y(y - a - b *x)2 ;

dS / da = - 2Uy + 2 * n*a + 2 *bUx= 0; (3)

dS / da = - 2Uy * x + 2 *a Ux + 2 * b Ux 2 = 0.

Transformišući formulu (3), dobijamo sledeći sistem normalnih jednačina za procenu parametara a i b:

N *a + bUx = Uy,

aUx + b Ux 2 = Uy * x. (4)

Rješavanjem sistema normalnih jednačina (4) bilo metodom sekvencijalne eliminacije varijabli ili metodom determinanti, nalazimo tražene procjene za parametre a i b. Možete koristiti sljedeće formule za a i b:

a = y - b * x (5)

Formula (5) se dobija iz prve jednadžbe sistema (4), ako se njeni ukupni članovi podele sa n:

b = cov(x,y) / y 2 x

gdje je cov(x,y) kovarijansa karakteristika; y 2 x je varijansa karakteristike x.

Budući da cov(x,y) = yx - y * x, i y 2 x = x 2 - x -2, dobijamo sljedeću formulu za izračunavanje procjene parametra b:

b = yx - y * x / x 2 - x 2 (6)

Formula (6) se dobija i rešavanjem sistema (4) metodom determinanti, ako se svi elementi proračuna podele sa n 2.

Parametar b se naziva koeficijent regresije. Njegova vrijednost pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu. Dakle, ako je funkcija troškova (y, hiljada rubalja) izražena kao y x = 3000 + 2 * x, (x je broj jedinica proizvodnje), onda, prema tome, s povećanjem obima proizvodnje x za jednu jedinicu , troškovi proizvodnje rastu u prosjeku za 2 tisuće rubalja, odnosno dodatno povećanje proizvodnje za jednu jedinicu zahtijevat će povećanje troškova u prosjeku za 2 tisuće rubalja.

Predznak koeficijenta regresije b pokazuje smjer odnosa: za b > 0 odnos je direktan, a za b< 0 - связь обратная.

Mogućnost jasne ekonomske interpretacije koeficijenta regresije učinila je jednačinu linearne regresije prilično uobičajenom u ekonometrijskom istraživanju.

Formalno, a je vrijednost y na x = 0. Ako atribut-faktor x nema i ne može imati nultu vrijednost, onda interpretacija slobodnog pojma a nema smisla. Parametar a možda nema ekonomski sadržaj. Pokušaji ekonomskog tumačenja parametra a mogu dovesti do apsurda, posebno kada a< 0.

Može se interpretirati samo znak parametra a. Ako a< 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Иными словами, вариация результата меньше вариации фактора - коэффициент вариации по фактору x выше коэффициента вариации для результата y: Vx >Vy. Za dokaz ovu odredbu Relativne promjene faktora x i rezultata y su uporedive:

Jednačina regresije je uvijek dopunjena indikatorom bliskosti veze. Kada se koristi linearna regresija, koeficijent linearne korelacije r xy služi kao takav indikator. Postoje različite modifikacije formule linearni koeficijent korelacije, na primjer:

na chn = u * u ch. u n = sschm(bn). u ch * u n = nch - n * ch. u ch * u n (7)

Kao što je poznato, koeficijent linearne korelacije je u opsegu - 1? r xy? 0.

Ako je koeficijent regresije b > 0, onda je 0? r xy? 1, i obrnuto, za b< 0 - 1 ? r xy ? 0.

Treba imati na umu da vrijednost koeficijenta linearne korelacije procjenjuje bliskost veze između karakteristika koje se razmatraju u njenom linearnom obliku. Dakle, blizina apsolutne vrijednosti koeficijenta linearne korelacije nuli ne znači da ne postoji veza između karakteristika. Uz drugačiju specifikaciju modela, odnos između karakteristika može se pokazati prilično bliskim.

Za procjenu kvaliteta selekcije linearna funkcija izračunava se kvadrat koeficijenta linearne korelacije r 2 xy, nazvan koeficijent determinacije. Koeficijent determinacije karakterizira udio varijanse rezultujućeg atributa y objašnjenog regresijom, u totalna varijansa rezultujući znak:

r 2 xy = y 2 y objasniti. / god 2 god ukupno (8)

Shodno tome, vrijednost 1 - r 2 karakterizira udio varijanse y uzrokovane utjecajem drugih faktora koji nisu uzeti u obzir u modelu.

Vrijednost koeficijenta determinacije jedan je od kriterija za ocjenu kvaliteta linearnog modela. Što je veći udio objašnjene varijacije, shodno tome manja je i uloga drugih faktora i, stoga, linearni model dobro aproksimira izvorne podatke, te se može koristiti za predviđanje vrijednosti rezultirajuće karakteristike. Koeficijent linearne korelacije po sadržaju razlikuje se od koeficijenta regresije. Djelujući kao indikator čvrstoće veze, koeficijent regresije b na prvi pogled može se koristiti kao mjera njegove čvrstoće. Vrijednost koeficijenta regresije zavisi od mjernih jedinica varijabli i od dimenzije karakteristika. Osim toga, koeficijenti regresije su imenovane vrijednosti i stoga su neuporedivi za različite karakteristike.

Upoređivanje koeficijenata regresije za različite karakteristike omogućava nam da definišemo sličan indikator u standardizovanom sistemu jedinica, gde se njegova standardna devijacija (y) koristi kao jedinica mere za karakteristiku. Budući da koeficijent regresije b ima razlomke mjernih jedinica (rezultat/faktor), množeći ga sa standardnom devijacijom faktora x (y x) i podijelivši sa standardnom devijacijom rezultata (y y), dobijamo indikator pogodan za poređenje intenzitet promena rezultata pod uticajem različitih faktora. Drugim riječima, dolazimo do formule za koeficijent linearne korelacije:

r xy = b y/x * y x / y y

Njegova vrijednost djeluje kao standardizirani koeficijent regresije i karakterizira prosječnu promjenu rezultata u sigmama (y y) sa promjenom faktora za jedan y x.

Koeficijent linearne korelacije, kao mjera blizine linearne veze između karakteristika, logički je povezan ne samo sa koeficijentom regresije b, već i sa koeficijentom elastičnosti, koji je pokazatelj jačine veze, izražen kao postotak. Uz linearnu vezu između karakteristika x i y, prosječni koeficijent elastičnosti za populaciju u cjelini određuje se kao

E y/x = b y/x * x / y,

one. njegova formula je po konstrukciji bliska formuli za koeficijent linearne korelacije

r xy = b y/x * y x / y y ,

Kao i koeficijent linearne korelacije, koeficijent elastičnosti je uporediv po različitim kriterijumima.

Ako je E y/x = 0,8%, a E y/z = 0,2%, onda možemo zaključiti da faktor x ima veći utjecaj na rezultat y od faktora z, jer kako se x povećava za 1%, y raste za 0,8% , a uz povećanje z za 1% - samo za 0,2%.

Uprkos sličnosti ovih pokazatelja, koeficijent linearne korelacije (r xy) služi kao mjera čvrstoće veze, a koeficijent regresije (b y/x) i koeficijent elastičnosti (E y/x) su pokazatelji čvrstoće veze: koeficijent regresije je apsolutna mjera, jer ima mjerne jedinice, svojstvene proučavanim karakteristikama y i x, a koeficijent elastičnosti je relativni pokazatelj čvrstoće veze, jer se izražava u procentima .

Da biste objasnili bliskost veze, razmotrite sliku 3. Uprkos važnosti merenja bliskosti veze, u ekonometriji koeficijent determinacije r 2 xy dobija veći praktični interes, jer daje relativnu meru uticaja faktora na rezultat, istovremeno bilježeći ulogu grešaka, tj. slučajne komponente u formiranju modelirane varijable. Što je koeficijent determinacije bliži 1, to je više u većoj meri jednačina regresije je pogodna za predviđanje.

Rice. 3 Vrste korelacije

a - potpuna korelacija: r xy = 1; b - jaka korelacija: r xy ? 0,8:0,9;

c - slaba korelacija: r xy ? 0.2

korelacija linearna nelinearna regresija

100 RUR bonus za prvu narudžbu

Odaberite vrstu posla Diplomski rad Rad na kursu Sažetak Magistarski rad Izvještaj o praksi Članak Pregled izvještaja Test Monografija Rešavanje problema Poslovni plan Odgovori na pitanja Kreativni rad Esej Crtanje Eseji Prevod Prezentacije Tipkanje Ostalo Povećanje jedinstvenosti teksta Magistarska teza Laboratorijski rad Online pomoć

Saznajte cijenu

Prilikom procjene parametara jednadžbe regresije koristi se metoda najmanjih kvadrata (OLS). U ovom slučaju, određeni su preduslovi u vezi sa slučajnom komponentom e. U modelu, slučajna komponenta e je veličina koja se ne može uočiti. Nakon što su parametri modela procijenjeni, izračunavanje razlika između stvarnih i teoretskih vrijednosti rezultirajuće karakteristike y , moguće je odrediti procjene slučajne komponente. Pošto nisu stvarni slučajni ostaci, mogu se smatrati realizacijom nekog uzorka nepoznatog ostatka zadata jednačina, tj. ei.

Kada se mijenja specifikacija modela ili joj se dodaju nova zapažanja, procjene uzoraka reziduala ei mogu se promijeniti. Dakle, zadatak regresione analize uključuje ne samo konstrukciju samog modela, već i proučavanje slučajnih devijacija ei, odnosno rezidualnih vrijednosti.

Kada se koriste Fisher i Student testovi, prave se pretpostavke o ponašanju reziduala ei - reziduali su nezavisni slučajne varijable a njihova srednja vrijednost je 0; imaju istu (konstantnu) varijansu i prate normalnu distribuciju.

Statistički testovi regresijskih parametara i indikatora korelacije zasnovani su na neprovjerljivim pretpostavkama distribucije slučajne komponente ei. Oni su samo preliminarni. Nakon konstruisanja regresione jednadžbe, prisustvo od

procjenjuje ei (slučajne reziduale) onih svojstava koja su pretpostavljena. To je zbog činjenice da procjene parametara regresije moraju zadovoljiti određene kriterije. Moraju biti nepristrasni, bogati i efikasni. Ova svojstva procjena dobijenih korištenjem OLS-a su izuzetno važna. praktični značaj u korištenju rezultata regresije i korelacije.

Nepristrasan procjene to znače očekivanu vrijednost ostatak je nula. Ako su procjene nepristrasne, onda se mogu porediti u različitim studijama.

Ocjene se računaju efektivno, ako ih karakteriše najmanja disperzija. U praktičnim istraživanjima to znači mogućnost prelaska sa tačke na ocenu intervala.

Bogatstvo procjene karakterizira povećanje njihove tačnosti sa povećanjem veličine uzorka. Od velikog praktičnog interesa su oni rezultati regresije za koje interval povjerenja očekivana vrijednost parametra regresije bi ima granicu vrijednosti vjerovatnoće, jednako jedan. Drugim riječima, vjerovatnoća dobijanja procjene na datoj udaljenosti od prave vrijednosti parametra je blizu jedan.

Navedeni kriterijumi evaluacije (nepristrasnost, doslednost i efikasnost) se nužno uzimaju u obzir kada na različite načine procjena. Metoda najmanjih kvadrata konstruiše procjene regresije zasnovane na minimiziranju sume kvadrata reziduala. Stoga je vrlo važno ispitati ponašanje reziduala regresije ei. Uslovi neophodni za dobijanje nepristrasnih, konzistentnih i efikasnih procena su preduslovi OLS-a koji su poželjni za dobijanje pouzdanih rezultata regresije.

Studije ei ostataka uključuju provjeru prisustva sljedećeg pet prostorija CG:

1. nasumična priroda ostataka;

2. nula prosječna vrijednost ostaci, nezavisno od xi;

3. homoskedastičnost – varijansa svakog odstupanja ei je ista za sve vrijednosti x ;

4. odsustvo autokorelacije reziduala – vrijednosti reziduala ei se distribuiraju nezavisno jedna od druge;

5. ostaci prate normalnu distribuciju.

Ako distribucija slučajnih reziduala ei ne odgovara nekim pretpostavkama OLS-a, tada model treba prilagoditi.

Prije svega, provjerava se slučajna priroda reziduala ei - prva premisa OLS-a. U tu svrhu iscrtava se graf ovisnosti reziduala ei od teorijske vrijednosti rezultirajuće karakteristike.

Ako se na grafu dobije vodoravna traka, tada su reziduali ei slučajne varijable i opravdana je metoda najmanjih kvadrata; teorijske vrijednosti su dobro približne stvarnim vrijednostima y.

Sljedeći slučajevi su mogući ako ei zavisi od to:

1) ostaci ei nisu slučajni

2) reziduali ei nemaju konstantnu varijansu

3) ostaci ei su sistematski.

U ovim slučajevima, potrebno je ili primijeniti drugu funkciju ili uvesti dodatne informacije i ponovo izgraditi jednadžbu regresije sve dok reziduali ei ne budu slučajne varijable.

Druga OLS pretpostavka u vezi sa nultim srednjim rezidualima to znači . Ovo je izvodljivo za linearne modele i modele koji su nelinearni u odnosu na uključene varijable.

Istovremeno, nepristrasnost procena koeficijenata regresije dobijenih OLS zavisi od nezavisnosti slučajnih reziduala i x vrednosti, što se takođe proučava u okviru usaglašenosti sa drugom premisom OLS. U tu svrhu, uz prikazani graf ovisnosti reziduala ei o teoretskim vrijednostima rezultantnog atributa, konstruiran je graf ovisnosti slučajnih reziduala ei od faktora uključenih u regresiju xj.

Ako se ostaci na grafu nalaze u obliku vodoravne trake, tada su neovisni o vrijednostima xj. Ako graf pokazuje postojanje veze između ei i xj, onda je model neadekvatan. Razlozi za neadekvatnost mogu biti različiti. Moguće je da je treća premisa OLS-a narušena i da disperzija reziduala nije konstantna za svaku vrijednost faktora xj. Specifikacija modela je možda netačna i treba je unijeti

dodatni pojmovi iz xj, na primjer . Akumulacija bodova u određenim područjima vrijednosti faktora xj ukazuje na prisustvo sistematske greške u modelu.

Pretpostavka normalne raspodjele reziduala omogućava testiranje regresijskih i korelacijskih parametara korištenjem F- i t-testova. Istovremeno, procjene regresije pronađene korištenjem OLS-a imaju dobra svojstva čak iu odsustvu normalne raspodjele reziduala, tj. ako je povrijeđena peta premisa MNK.

Apsolutno je neophodno dobiti konzistentne procjene parametara regresije korištenjem OLS metoda, poštujući treći i četvrti preduvjet.

Treća premisa OLS-a zahtijeva da varijansa reziduala bude homoskedastičan. To znači da za svaku vrijednost faktora xj reziduali ei imaju istu varijansu. Ako ovaj uvjet za primjenu metode najmanjih kvadrata nije ispunjen, onda heteroskedastičnost. Prisustvo heteroskedastičnosti može se jasno vidjeti iz korelacionog polja:

1. Varijanca reziduala raste kako se x povećava.

Onda imamo sljedeći pogled heteroskedastičnost: velika varijansa ei za velike vrijednosti

2. Varijanca reziduala dostiže svoju maksimalnu vrijednost pri prosječnim vrijednostima x, a opada na minimalnim i maksimalnim vrijednostima.

Tada imamo sljedeći tip heteroskedastičnosti: velika disperzija ei za prosječne vrijednosti i mala disperzija ei za male i velike vrijednosti

3. Varijanca reziduala je maksimalna pri malim vrijednostima x i varijansa reziduala je ujednačena kako se x povećava.

Tada imamo sljedeći tip heteroskedastičnosti: velika disperzija ei za male vrijednosti, opadajuća disperzija reziduala ei kao

Prilikom konstruiranja regresijskih modela, izuzetno je važno pridržavati se četvrte premise OLS-a - odsustvo autokorelacije reziduala, odnosno vrijednosti reziduala ei se distribuiraju nezavisno jedna od druge.

Autokorelacija reziduala znači postojanje korelacije između reziduala trenutnih i prethodnih (naknadnih) opservacija. Koeficijent korelacije između ei i ej, gdje su ei reziduali trenutnih opažanja, ej su reziduali prethodnih opažanja (na primjer, j=i-1), može se definirati kao:

tj. prema uobičajenoj formuli za koeficijent linearne korelacije. Ako se pokaže da se ovaj koeficijent značajno razlikuje od nule, tada su reziduali autokorelirani i funkcija gustoće vjerovatnoće F(e) ovisi o j -toj tački posmatranja i iz distribucije zaostalih vrijednosti na drugim osmatračkim tačkama.

Odsustvo autokorelacije rezidualnih vrijednosti osigurava konzistentnost i efikasnost procjena koeficijenata regresije. Posebno je važno pridržavati se ove premise OLS-a kada se konstruiraju regresijski modeli zasnovani na vremenskim serijama, gdje se, zbog prisustva trenda, naknadni nivoi vremenske serije, po pravilu, zavise od njihovih prethodnih nivoa.

Ukoliko osnovne pretpostavke OLS-a nisu ispunjene, potrebno je prilagoditi model, mijenjajući njegovu specifikaciju, dodajući (isključujući) neke faktore, transformirajući izvorne podatke kako bi se dobile procjene koeficijenata regresije koji imaju svojstvo nepristrasnosti, nižu vrijednost disperzije reziduala i stoga obezbjeđuju efikasnije statističko testiranje značajnosti parametara regresije.

Prilikom procjene parametara jednadžbe regresije koristi se metoda najmanjih kvadrata (OLS). U ovom slučaju, određeni su preduslovi u vezi sa slučajnom komponentom e. U modelu, slučajna komponenta e je veličina koja se ne može uočiti. Nakon što su parametri modela procijenjeni, izračunavanjem razlika između stvarnih i teoretskih vrijednosti rezultirajućeg atributa y, mogu se odrediti procjene slučajne komponente. Pošto nisu stvarni slučajni ostaci, mogu se smatrati nekom realizacijom uzorka nepoznatog ostatka date jednačine, tj.

Kada se mijenja specifikacija modela ili joj se dodaju nova zapažanja, procjene uzoraka reziduala ei mogu se promijeniti. Dakle, zadatak regresione analize uključuje ne samo konstrukciju samog modela, već i proučavanje slučajnih devijacija ei, odnosno rezidualnih vrijednosti.

Kada se koriste Fisher i Student testovi, prave se pretpostavke o ponašanju reziduala ei - reziduali su nezavisne slučajne varijable i njihova srednja vrijednost je 0; imaju istu (konstantnu) varijansu i prate normalnu distribuciju.

Statistički testovi regresijskih parametara i indikatora korelacije zasnovani su na neprovjerljivim pretpostavkama distribucije slučajne komponente ei. Oni su samo preliminarni. Nakon konstruisanja regresione jednadžbe, provjeravamo da li procjene ei (slučajni reziduali) imaju svojstva koja su pretpostavljena. To je zbog činjenice da procjene parametara regresije moraju zadovoljiti određene kriterije. Moraju biti nepristrasni, bogati i efikasni. Ova svojstva procjena dobijenih OLS-om su od izuzetno važne praktične važnosti u korištenju rezultata regresije i korelacije.

Nepristrasan procjene znači da je matematičko očekivanje reziduala nula. Ako su procjene nepristrasne, onda se mogu porediti u različitim studijama.

Ocjene se računaju efektivno, ako ih karakteriše najmanja disperzija. U praktičnim istraživanjima to znači mogućnost prelaska sa tačke na ocenu intervala.

Bogatstvo procjene karakterizira povećanje njihove tačnosti sa povećanjem veličine uzorka. Od velikog praktičnog interesa su oni rezultati regresije za koje interval pouzdanosti očekivane vrijednosti regresijskog parametra bi ima granicu vjerovatnoće jednaku jedan. Drugim riječima, vjerovatnoća dobijanja procjene na datoj udaljenosti od prave vrijednosti parametra je blizu jedan.

Navedeni kriterijumi evaluacije (nepristrasnost, doslednost i efikasnost) se nužno uzimaju u obzir u različitim metodama evaluacije. Metoda najmanjih kvadrata konstruiše procjene regresije zasnovane na minimiziranju sume kvadrata reziduala. Stoga je vrlo važno ispitati ponašanje reziduala regresije ei. Uslovi neophodni za dobijanje nepristrasnih, konzistentnih i efikasnih procena su preduslovi OLS-a koji su poželjni za dobijanje pouzdanih rezultata regresije.

Studije reziduala ei uključuju testiranje prisutnosti sljedećih pet OLS prostorija:

1. slučajna priroda bilansa;

2. nultu prosječnu vrijednost reziduala, nezavisno od xi;

3. homoskedastičnost – varijansa svakog odstupanja ei je ista za sve vrijednosti x;

4. odsustvo autokorelacije reziduala – vrijednosti reziduala ei se distribuiraju nezavisno jedna od druge;

5. Ostaci slijede normalnu distribuciju.

Ako distribucija slučajnih reziduala ei ne odgovara nekim pretpostavkama OLS-a, tada model treba prilagoditi.

Prije svega, provjerava se slučajna priroda reziduala ei - prva premisa OLS-a. U tu svrhu iscrtava se graf ovisnosti reziduala ei od teorijske vrijednosti rezultirajuće karakteristike.

Da biste predvidjeli korištenjem jednadžbe regresije, morate izračunati regresijske koeficijente i jednačine. I tu postoji još jedan problem koji utiče na tačnost predviđanja. Ona leži u činjenici da obično ne postoje sve moguće vrijednosti varijabli X i Y, tj. opšta populacija zajedničke distribucije u problemima predviđanja nije poznata, poznat je samo uzorak iz ove opšte populacije. Kao rezultat toga, prilikom predviđanja, pored slučajne komponente, javlja se još jedan izvor grešaka – greške uzrokovane nepotpunom korespondencijom uzorka sa opštom populacijom i rezultirajuće greške u određivanju koeficijenata regresione jednačine.

Drugim riječima, zbog činjenice da je broj stanovnika nepoznat, tačne vrijednosti koeficijenti i regresijske jednačine se ne mogu odrediti. Koristeći uzorak iz ove nepoznate populacije, mogu se dobiti samo procjene pravih koeficijenata i.

Da bi greške predviđanja kao rezultat takve zamjene bile minimalne, procjena se mora provesti korištenjem metode koja jamči nepristrasne i efikasne dobivene vrijednosti. Metoda daje nepristrasne procjene ako je, kada se ponovi nekoliko puta s novim uzorcima iz iste populacije, ispunjen uslov i. Metoda daje efikasne procjene ako se, kada se više puta ponavlja sa novim uzorcima iz iste populacije, osigura minimalna disperzija koeficijenata a i b, tj. uslove i ispunjeni su.

U teoriji vjerovatnoće dokazana je teorema prema kojoj se primjenom metode najmanjih kvadrata osigurava efikasnost i nepristrasne procjene koeficijenata jednačine linearne regresije na osnovu podataka uzorka.

Suština metode najmanjih kvadrata je sljedeća. Za svaku tačku uzorka upisuje se jednačina oblika . Tada se pronalazi greška između izračunatih i stvarnih vrijednosti. Rješenje optimizacijskog problema pronalaženja takvih vrijednosti i koje daju minimalni zbir grešaka na kvadrat za svih n tačaka, tj. rješenje problema traženja , daje nepristrasne i efikasne procjene koeficijenata i . Za slučaj uparene linearne regresije, ovo rješenje ima oblik:

Treba napomenuti da su nepristrasne i efektivne procjene dobijene na ovaj način prave vrednosti koeficijenti regresije za populaciju uopće ne jamče grešku kada se primjene jednom. Garancija je da je, kao rezultat ponovljenog ponavljanja ove operacije sa drugim uzorcima iz iste populacije, zagarantovana manja količina grešaka u odnosu na bilo koju drugu metodu i da će širenje ovih grešaka biti minimalno.

Dobijeni koeficijenti jednadžbe regresije određuju položaj linije regresije, koja je glavna os oblaka formiranog od tačaka originalnog uzorka. Oba koeficijenta imaju sasvim određeno značenje. Koeficijent pokazuje vrijednost na , ali u mnogim slučajevima nema smisla; osim toga, često ni nema smisla, stoga se dato tumačenje koeficijenta mora pažljivo koristiti. Univerzalnija interpretacija značenja je sljedeća. Ako je , tada je relativna promjena nezavisne varijable (procentualna promjena) uvijek manja od relativne promjene zavisne varijable.

Koeficijent pokazuje koliko će se jedinica zavisna varijabla promijeniti kada se nezavisna varijabla promijeni za jednu jedinicu. Koeficijent se često naziva koeficijent regresije, naglašavajući da je važniji od . Konkretno, ako umjesto vrijednosti zavisnih i nezavisnih varijabli uzmemo njihova odstupanja od njihovih prosječnih vrijednosti, tada se regresijska jednadžba pretvara u oblik . Drugim riječima, u transformiranom koordinatnom sistemu svaka regresijska linija prolazi kroz početak koordinata (slika 13) i nema koeficijenta.

Slika 13. Položaj zavisnosti regresije u transformiranom koordinatnom sistemu.

Parametri regresijske jednadžbe nam govore kako su zavisne i nezavisne varijable povezane jedna s drugom, ali nam ne govore ništa o stepenu bliskosti odnosa, tj. prikazuje položaj glavne ose oblaka podataka, ali ne govori ništa o stepenu nepropusnosti veze (koliko je oblak uzak ili širok).

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”