Formula greške aproksimacije. Testiranje hipoteza u pogledu koeficijenata jednačine linearne regresije

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Među razne metode predviđanje ne može a da ne istakne aproksimaciju. Uz njegovu pomoć možete napraviti približne proračune i izračunati planirane pokazatelje zamjenom originalnih objekata jednostavnijim. U Excelu je također moguće koristiti ovu metodu za predviđanje i analizu. Pogledajmo kako se ova metoda može primijeniti u navedenom programu pomoću ugrađenih alata.

Naziv ove metode potiče od latinska reč proxima – „najbliži“ To je aproksimacija pojednostavljivanjem i izglađivanjem poznatih indikatora, poređajući ih u trend koji je njegova osnova. Ali ovu metodu može se koristiti ne samo za predviđanje, već i za proučavanje postojećih rezultata. Na kraju krajeva, aproksimacija je, u suštini, pojednostavljenje originalnih podataka, a pojednostavljena verzija je lakša za proučavanje.

Glavni alat pomoću kojeg se u Excelu vrši izglađivanje je izrada linije trenda. Suština je da je, na osnovu postojećih indikatora, završen graf funkcije za buduće periode. Kao što možete pretpostaviti, glavna svrha linije trenda je da se napravi prognoza ili identificira opći trend.

Ali može se konstruirati korištenjem jedne od pet vrsta aproksimacije:

  • Linear;
  • Eksponencijalno;
  • Logaritamski;
  • Polinom;
  • Moćno.

Razmotrimo svaku od opcija detaljnije zasebno.

Metoda 1: Linearno izglađivanje

Prije svega, pogledajmo najjednostavniju verziju aproksimacije, odnosno korištenje linearna funkcija. Zadržat ćemo se na tome detaljnije, budući da ćemo opisati opće točke karakteristične za druge metode, odnosno izgradnju rasporeda i neke druge nijanse, na kojima se nećemo zadržavati prilikom razmatranja sljedećih opcija.

Prije svega, napravićemo graf na osnovu kojeg ćemo izvršiti proceduru izglađivanja. Da bismo napravili grafikon, uzmimo tabelu koja prikazuje mjesečni trošak po jedinici proizvodnje koju je proizvelo preduzeće i odgovarajući profit u datom periodu. Grafička funkcija koju ćemo konstruisati će prikazati zavisnost povećanja dobiti od smanjenja troškova proizvodnje.


Zaglađivanje koje se koristi u ovom slučaju opisano je sljedećom formulom:

U našem konkretnom slučaju formula ima sljedeći oblik:

y=-0,1156x+72,255

Naša vrijednost pouzdanosti aproksimacije je jednaka 0,9418 , što je prilično prihvatljiv rezultat, karakterizirajući izglađivanje kao pouzdano.

Metoda 2: eksponencijalna aproksimacija

Pogledajmo sada eksponencijalni tip aproksimacije u Excelu.


Opšti izgled funkcije zaglađivanja je sljedeći:

Gdje e- ovo je osnova prirodni logaritam.

U našem konkretnom slučaju formula je imala sljedeći oblik:

y=6282,7*e^(-0,012*x)

Metoda 3: Logaritamsko izglađivanje

Sada je red da razmotrimo metodu logaritamske aproksimacije.


IN opšti pogled Formula za izglađivanje izgleda ovako:

Gdje ln je vrijednost prirodnog logaritma. Otuda i naziv metode.

U našem slučaju formula ima sljedeći oblik:

y=-62,81ln(x)+404,96

Metoda 4: Polinomsko izglađivanje

Sada je vrijeme da razmotrimo metodu polinomskog izglađivanja.


Formula koja opisuje ovu vrstu zaglađivanja ima sljedeći oblik:

y=8E-08x^6-0,0003x^5+0,3725x^4-269,33x^3+109525x^2-2E+07x+2E+09

Metoda 5: Izglađivanje snage

Na kraju, pogledajmo metodu aproksimacije snage u Excelu.


Ova metoda se efikasno koristi u slučajevima intenzivnih promjena u funkcijskim podacima. Važno je napomenuti da je ova opcija primjenjiva samo ako funkcija i argument ne prihvaćaju negativne ili nulte vrijednosti.

Opća formula koja opisuje ovu metodu je sljedeća:

U našem konkretnom slučaju to izgleda ovako:

y = 6E+18x^(-6.512)

Kao što vidite, kada smo koristili konkretne podatke koje smo koristili kao primjer, najviši nivo pouzdanosti pokazao je metod polinomske aproksimacije polinomom do šestog stepena ( 0,9844 ), najniži nivo povjerenja je linearna metoda (0,9418 ). Ali to uopće ne znači da će se isti trend pojaviti i kada se koriste drugi primjeri. Ne, nivo efikasnosti gornjih metoda može značajno varirati, u zavisnosti od specifičnog tipa funkcije za koju će se konstruisati linija trenda. Stoga, ako je odabrana metoda najefikasnija za ovu funkciju, to uopće ne znači da će biti optimalna i u nekoj drugoj situaciji.

Ako još ne možete odmah odrediti, na osnovu gore navedenih preporuka, koja je vrsta aproksimacije prikladna konkretno u vašem slučaju, onda ima smisla isprobati sve metode. Nakon što napravite liniju trenda i pogledate njen nivo pouzdanosti, možete odabrati najbolju opciju.

Rad na kursu

u disciplini "Ekonometrija"

« Sveobuhvatna analiza međuodnosi finansijskih i ekonomskih pokazatelja poslovanja preduzeća"

Opcija br. 12

Završeno:

student grupe EET-312

Logunov N.Yu.

Provjereno:

vanr. Ishkhanyan M.V.

Moskva 2015

Formulacija problema

1. Kompilacija korelacijske matrice. Izbor faktora

2. Konstrukcija višestruke jednačine linearna regresija. Interpretacija parametara jednadžbe

3. Koeficijent determinacije, višestruki koeficijent korelacije

4. Procjena kvaliteta jednačine višestruke linearne regresije

4.1. Prosječna relativna greška aproksimacije

4.2.Provjera statistički značaj jednačine višestruka regresija ukupno koristeći Fišerov F test

4.3.Provjera statističke značajnosti parametara jednačine višestruke regresije. Intervalne procjene parametara

5.Primjena regresijskog modela

5.1. Tačkasta prognoza

5.2 Parcijalni koeficijenti elastičnosti i prosječni koeficijenti parcijalne elastičnosti

6. Analiza reziduala regresijskog modela (provjera premisa Gauss-Markovljeve teoreme)

6.1. Ocjene matematičko očekivanje ostaci

6.2.Provjera autokorelacije u rezidualima

7. Kriterijum Gregory Chow

Formulacija problema

Navedene su vrijednosti 6 indikatora koji karakterišu privrednu aktivnost 53 preduzeća. Obavezno:

1. Kreirajte matricu korelacije. Podesite skup nezavisnih varijabli (odaberite 2 faktora).

4.2. Testirajte statističku značajnost jednačine višestruke regresije u cjelini koristeći Fišerov F test. Izvucite zaključke

4.3. Provjerite statističku značajnost parametara jednačine višestruke regresije. Build intervalne procjene parametri. Izvucite zaključke.



5. Primjena regresijskog modela:

5.1. Koristeći konstruiranu jednačinu, dajte prognozu bodova. Nađite vrijednost proučavanog parametra y, ako je vrijednost prvog faktora (najbliže y) 110% njegove prosječne vrijednosti, vrijednost drugog faktora je 80% njegove prosječne vrijednosti. Daj ekonomska interpretacija rezultat.

5.2. Pronađite koeficijente parcijalne elastičnosti i prosječne parcijalne koeficijente elastičnosti. Interpretirajte rezultate. Izvucite zaključke.

6. Analizirajte ostatke regresijskog modela (provjerite zahtjeve Gauss-Markovljeve teoreme):

6.1. Pronađite procjene matematičkog očekivanja reziduala.

6.2. Provjerite autokorelaciju u reziduama. Izvucite zaključak.

7. Podijelite uzorak na dva jednaka dijela. Uzimajući u obzir prvo i posljednje opažanje kao nezavisne uzorke, testirajte hipotezu o mogućnosti njihovog kombiniranja u jedan uzorak koristeći Gregory-Chow kriterij.

Izrada korelacione matrice. Izbor faktora

Preduzeće br. Y3 X10 X12 X5 X7 X13
13,26 1,45 167,69 0,78 1,37
10,16 1,3 186,1 0,75 1,49
13,72 1,37 220,45 0,68 1,44
12,85 1,65 169,3 0,7 1,42
10,63 1,91 39,53 0,62 1,35
9,12 1,68 40,41 0,76 1,39
25,83 1,94 102,96 0,73 1,16
23,39 1,89 37,02 0,71 1,27
14,68 1,94 45,74 0,69 1,16
10,05 2,06 40,07 0,73 1,25
13,99 1,96 45,44 0,68 1,13
9,68 1,02 41,08 0,74 1,1
10,03 1,85 136,14 0,66 1,15
9,13 0,88 42,39 0,72 1,23
5,37 0,62 37,39 0,68 1,39
9,86 1,09 101,78 0,77 1,38
12,62 1,6 47,55 0,78 1,35
5,02 1,53 32,61 0,78 1,42
21,18 1,4 103,25 0,81 1,37
25,17 2,22 38,95 0,79 1,41
19,4 1,32 81,32 0,77 1,35
1,48 67,26 0,78 1,48
6,57 0,68 59,92 0,72 1,24
14,19 2,3 107,34 0,79 1,40
15,81 1,37 512,6 0,77 1,45
5,23 1,51 53,81 0,8 1,4
7,99 1,43 80,83 0,71 1,28
17,5 1,82 59,42 0,79 1,33
17,16 2,62 36,96 0,76 1,22
14,54 1,75 91,43 0,78 1,28
6,24 1,54 17,16 0,62 1,47
12,08 2,25 27,29 0,75 1,27
9,49 1,07 184,33 0,71 1,51
9,28 1,44 58,42 0,74 1,46
11,42 1,4 59,4 0,65 1,27
10,31 1,31 49,63 0,66 1,43
8,65 1,12 391,27 0,84 1,5
10,94 1,16 258,62 0,74 1,35
9,87 0,88 75,66 0,75 1,41
6,14 1,07 123,68 0,75 1,47
12,93 1,24 37,21 0,79 1,35
9,78 1,49 53,37 0,72 1,4
13,22 2,03 32,87 0,7 1,2
17,29 1,84 45,63 0,66 1,15
7,11 1,22 48,41 0,69 1,09
22,49 1,72 13,58 0,71 1,26
12,14 1,75 63,99 0,73 1,36
15,25 1,46 104,55 0,65 1,15
31,34 1,6 222,11 0,82 1,87
11,56 1,47 25,76 0,8 1,17
30,14 1,38 29,52 0,83 1,61
19,71 1,41 41,99 0,7 1,34
23,56 1,39 78,11 0,74 1,22

1. Kreirajte matricu korelacije. Podesite skup nezavisnih varijabli (odaberite 2 faktora).

Razmotrimo rezultujući znak Y3 i faktorske karakteristike X10, X12, X5, X7, X13 .

Kreirajmo matricu korelacije koristeći opciju “Analiza podataka→Korelacija” u MS Excel-u:

Y3 X10 X12 X5 X7 X13
Y3 1,0000 0,3653 0,0185 0,2891 0,1736 0,0828
X10 0,3653 1,0000 -0,2198 -0,0166 -0,2061 -0,0627
X12 0,0185 -0,2198 1,0000 0,2392 0,3796 0,6308
X5 0,2891 -0,0166 0,2392 1,0000 0,4147 0,0883
X7 0,1736 -0,2061 0,3796 0,4147 1,0000 0,1939
X13 0,0828 -0,0627 0,6308 0,0883 0,1939 1,0000

Odabiremo 2 faktora prema kriterijima:

1) veza između Y i X treba da bude maksimalna

2) veza između Xmi treba biti minimalna

Stoga će se u sljedećim paragrafima raditi sa faktorima X10 , X5.

Izrada višestruke linearne regresijske jednačine. Interpretacija parametara jednadžbe.

2. Konstruirajte jednadžbu višestruke linearne regresije. Dajte tumačenje parametara jednačine.

Kreirajmo regresijski model koristeći paket analize “Analiza podataka→Regresija” u MS Excel-u:

Odds
Y -20,7163
X 10 5,7169
X 5 34,9321

Jednačina regresije će izgledati ovako:

ŷ = b 0 + b 10 * x 10 + b 5 * x 5

ŷ = -20,7163-5,7169* x 10 +34,9321* x 5

1) b10 je pozitivan;

2) b5 je pozitivan;

Koeficijent determinacije, koeficijent višestruke korelacije

3. Naći koeficijent determinacije, koeficijent višestruke korelacije. Izvucite zaključke.

IN regresiona analiza obavljene pomoću paketa analize “Analiza podataka→Regresija” u MS Excel-u, nalazimo tabelu “ Statistika regresije»:

Višestruka R-veza između Y3 i X10,X5 je slaba

R-kvadrat - 22,05% varijacije u osobini Y objašnjava se varijacijom u osobinama X10 i X5

Procjena kvaliteta višestruke linearne regresijske jednačine

4. Procijenite kvalitet jednačine višestruke linearne regresije:

Prosječna relativna greška aproksimacije

4.1. Pronađite prosječnu relativnu grešku aproksimacije. Izvucite zaključke.

Izračunajmo predviđene vrijednosti za svako zapažanje ili koristimo kolonu "Predviđeno Y" u tabeli "Rezidualni izlaz" u regresionoj analizi koja se izvodi pomoću paketa analize "Analiza podataka→Regresija" u MS Excel-u)

Izračunajmo relativne greške za svako opažanje koristeći formulu:

Izračunajmo prosječnu relativnu grešku aproksimacije koristeći formulu:

zaključak: 20% < А < 50%, качество уравнения среднее (удовлетворительное).

Stvarne vrijednosti količine koja nas zanima razlikuju se od onih izračunatih regresijskom jednadžbom. Što je ta razlika manja, što su izračunate vrijednosti bliže empirijskim podacima, to više boljeg kvaliteta modeli. Veličina odstupanja stvarnih i izračunatih vrijednosti varijable za svako opažanje predstavlja grešku aproksimacije. Budući da odstupanje može biti pozitivno ili negativno, greške aproksimacije za svako opažanje se obično određuju kao postotak prema apsolutnoj vrijednosti.

Odstupanja () se smatraju apsolutnom greškom aproksimacije, zatim – relativnom greškom aproksimacije.

Prosječna greška aproksimacija je definirana kao aritmetička sredina: . Ponekad koriste definiciju prosječne greške aproksimacije, koja ima oblik .

Kraj rada -

Ova tema pripada sekciji:

Ekonometrija

Na web stranici pročitajte: ekonomski specijaliteti..

Ako vam je potreban dodatni materijal na ovu temu, ili niste pronašli ono što ste tražili, preporučujemo da koristite pretragu u našoj bazi radova:

Šta ćemo sa primljenim materijalom:

Ako vam je ovaj materijal bio koristan, možete ga spremiti na svoju stranicu na društvenim mrežama:

Sve teme u ovoj sekciji:

Sastav početnih informacija
Glavni izvor informacija za ekonometrijska istraživanja su statistički podaci ili podaci računovodstvo. Odnosi koje proučava ekonometrija su stohastičke prirode, tj.

Lagrangeov interpolacijski polinom
Neka postoji odnos y = f(x) između vrijednosti x i y, za koje znamo pojedinačne tačke (xi,yi), i = 0,1,2,…,

Slučaj 1.
Kroz jednu tačku (x0, y0) možemo povući snop pravih y = y0+b(x-x0) (2.1) (kao i okomitu pravu

Slučaj 2.
Kroz dvije različite tačke (x0,y0), (x1,y1) prolazi jedna i samo jedna prava. Ako je x0 ¹

Slučaj 3.
Polinom drugog stepena ( kvadratna funkcija), čiji graf prolazi kroz tri tačke (x0,y0), (x1,y1), (x2

Slučaj br.
Sada je jasno da se Lagrangeov interpolacijski polinom n-tog stepena, čiji graf prolazi kroz n+1 tačaka (xi,yi), i=0,1,2,…,n, može zapisati u vi

Uparena linearna regresija. Metoda najmanjeg kvadrata
Neka postoji n parova brojeva (xi, yi), i=1,2,…,n, za koje se pretpostavlja da odgovaraju linearna zavisnost između x i y vrijednosti:

Višestruka linearna regresija
Uparena regresija može dati dobre rezultate modeliranja ako se zanemari uticaj drugih faktora koji utiču na predmet proučavanja. Ali, obično ih ima nekoliko

Nelinearni modeli
Proučavali smo primjenu metode najmanjih kvadrata da se linearno odrede parametri koji su uključeni u funkcionalne zavisnosti. Dakle, za njih u paragrafima 3 i 4 imamo sistem

Sistemi simultanih ekonometrijskih jednačina
Objekat statistička studija u društveno-ekonomskim naukama su složeni sistemi. Mjerenje bliskosti odnosa između varijabli, konstruiranje izolovanih regresionih jednačina

Komponente vremenske serije
Vremenski niz x(t) je skup vrijednosti količine x koji odgovara nizu trenutaka u vremenu t, tj. ovo je funkcija t®x(t), koja se obično računa

Određivanje komponenti vremenske serije
Jedan od najčešćih načina za modeliranje trenda vremenske serije je konstruiranje analitičke funkcije koja karakterizira ovisnost uzastopnih vrijednosti

U ovom slučaju, koeficijenti ak, bk će biti jednaki
Ako je funkcija x (t) parna, tj. vrijedi jednakost x (-t) = x (t), tada in

Vremenske serije kao slučajni proces
Neka vrijednost ekonomskog indikatora x(t) u bilo kojem trenutku t bude slučajna varijabla X(t). Pretpostavimo to

ARIMA modeli
U ekonometriji, analiza vremenskih serija koristeći procjenu spektralne gustine (spektralna analiza) obično igra pomoćnu ulogu, pomažući da se utvrde vremenski periodi.

Uzimajući u obzir sezonske komponente
Generalizaciju ARIMA modela kako bi se uzele u obzir periodične (sezonske) komponente vremenske serije predložili su J. Box i G. Jenkins. Ova metoda je implementirana u sistem

Analiza grešaka u izvornim informacijama
Vrijednosti ekonomskih pokazatelja obično su poznate netačno, s određenom greškom. Razmotrimo osnovna pravila za obradu podataka koji sadrže greške ili greške mjerenja. Pus

Intervali pouzdanosti
Hajde da uvedemo slučajnu varijablu. (13.1) Lako je provjeriti da je xON(0,1), zbog h

Obračun grešaka
Empirijski podaci se često podvrgavaju matematičkoj obradi - nad njima se izvode aritmetičke operacije sabiranja, oduzimanja, množenja i dijeljenja, u nekim slučajevima

Koeficijent determinacije
Koeficijent determinacije karakteriše kvalitet regresionog modela. Dobijaju se vrijednosti raznih veličina

Princip maksimalne vjerovatnoće. Konstrukcija regresijskih modela sa heteroskedastičnošću grešaka
Za pronalaženje nepoznatih veličina iz rezultata mjerenja koji sadrže slučajne greške, koristi se metoda najmanjih kvadrata (LSM). Određene količine se obično povezuju formiranjem jednačina

Statističke hipoteze
Prethodni paragrafi razmatrali su metodologiju za modeliranje odnosa između ekonomskih indikatora i procesa. Koristeći dobijene regresijske jednačine, modeliran je ovaj odnos.

F – statistika
Značaj regresijskog modela se utvrđuje korištenjem Fišerovog F testa. Da biste to učinili, izračunajte omjer

T – statistika
Da bi se procijenila značajnost pojedinih parametara regresionog modela y=a+bx+e, njihova vrijednost se upoređuje sa njihovom standardnom greškom. U ovom slučaju, tzv

5. Koristeći F-test, ustanovljeno je da je rezultirajuća uparena regresiona jednačina u cjelini statistički beznačajna i da ne opisuje na adekvatan način proučavani fenomen odnosa između vrijednosti mjesečne penzije y i troškova života x.

6. Generiran je ekonometrijski model višestruke linearne regresije koji povezuje iznos neto prihoda uslovne firme y sa obrtom kapitala x1 i utrošenim kapitalom x2

7. Izračunavanjem koeficijenata elastičnosti pokazuje se da se kada se promet kapitala promijeni za 1%, iznos neto prihoda preduzeća mijenja za 0,0008%, a kada se utrošeni kapital mijenja za 1% iznos neto prihoda preduzeća promjene za 0,56%.

8. Pomoću t-testa procijenjena je statistička značajnost koeficijenata regresije.Utvrđeno je da je eksplanatorna varijabla x 1 statistički beznačajna i da se može isključiti iz jednačine regresije, dok je u isto vrijeme eksplanatorna varijabla x 2 statistički značajno.

9. Koristeći F-test, ustanovljeno je da je rezultirajuća uparena regresiona jednačina u cjelini statistički značajna, te da adekvatno opisuje proučavani fenomen odnosa između neto prihoda uslovnog preduzeća y i obrta kapitala x 1 i utrošenog kapitala. x 2.

10. Izračunata je prosječna greška aproksimacije statističkih podataka linearnom višestrukom regresionom jednačinom koja je iznosila 29,8%. Pokazuje se zbog kojeg posmatranja u statističkoj bazi podataka veličina ove greške prelazi dozvoljenu vrijednost.

14. Izgradnja uparenog regresijskog modela bez korištenja EXCEL-a.

Koristeći statistički materijal dat u tabeli 3.5 potrebno je:

2. Procijenite bliskost veze koristeći indikatore korelacije i determinacije.

3. Koristeći koeficijent elastičnosti odrediti stepen povezanosti između faktorske karakteristike i rezultantne karakteristike.

4. Odrediti prosječnu grešku aproksimacije.

5. Procijeniti statističku pouzdanost modeliranja koristeći Fišerov F-test.

Tabela 3.5. Početni podaci.

Dijeli gotovinski prihod u cilju povećanja štednje na depozitima, kreditima, certifikatima i za kupovinu deviza, u ukupnom iznosu prosječnog novčanog dohotka po stanovniku, %

Prosječne mjesečne obračunate plaće, k.u.

Kaluzhskaya

Kostromskaya

Orlovskaya

Ryazan

Smolenskaya

Za određivanje nepoznatih parametara b 0 , b 1 uparene jednačine linearne regresije koristimo standardni sistem normalnih jednačina, koji ima oblik

(3.7)

Za rješavanje ovog sistema prvo je potrebno odrediti vrijednosti Sx 2 i Sxy. Ove vrijednosti se određuju iz tabele izvornih podataka, dopunjujući je odgovarajućim kolonama (tabela 3.6).

Tabela 3.6. Ka izračunavanju koeficijenata regresije.

Tada sistem (3.7) poprima oblik

Izražavajući b 0 iz prve jednačine i zamjenom rezultirajućeg izraza u drugu jednačinu dobijamo:

Izvođenjem množenja član po član i otvaranjem zagrada dobijamo:

Konačno, uparena jednačina linearne regresije koja povezuje vrijednost udjela gotovinskog dohotka stanovništva u cilju povećanja štednje y sa prosječnom mjesečnom obračunatom platom x ima oblik:

Dakle, kako se konstruiše jednačina uparene linearne regresije, određujemo koeficijent linearne korelacije prema zavisnosti:

gdje su vrijednosti standardnih devijacija odgovarajućih parametara.

Da bismo izračunali koeficijent linearne korelacije iz zavisnosti (3.9), vršimo međuproračune.

Zamjenom vrijednosti pronađenih parametara u izraz (3.9) dobijamo

.

Dobijena vrijednost koeficijenta linearne korelacije ukazuje na postojanje slabe inverzne statističke veze između udjela novčanih prihoda stanovništva usmjerenih na povećanje štednje y i iznosa prosječne mjesečne obračunate zarade x.

Koeficijent determinacije je , što znači da je samo 9,6% objašnjeno regresijom eksplanatorne varijable x na y. Shodno tome, vrijednost 1 jednaka 90,4% karakteriše udio varijanse varijable y uzrokovan utjecajem svih ostalih eksplanatornih varijabli koje nisu uzete u obzir u ekonometrijskom modelu.

Koeficijent elastičnosti je

Shodno tome, kada se prosječna mjesečna obračunata plata promijeni za 1%, udio novčanih prihoda stanovništva usmjerenih na povećanje štednje također se smanjuje za 1%, a sa povećanjem zarada dolazi do smanjenja udjela novčanih prihoda stanovništva. stanovništva u cilju povećanja štednje. Ovaj zaključak je u suprotnosti sa zdravim razumom i može se objasniti samo neispravnošću generisanog matematičkog modela.

Izračunajmo prosječnu grešku aproksimacije.

Tabela 3.7. U smjeru izračuna prosječne greške aproksimacije.

Dobijena vrijednost prelazi (12...15)%, što ukazuje na značajnost prosječnog odstupanja izračunatih podataka od stvarnih podataka na kojima je izgrađen ekonometrijski model.

Pouzdanost statističkog modeliranja će se vršiti na osnovu Fišerovog F-testa. Teorijska vrijednost Fisherovog kriterija F calc određuje se iz omjera vrijednosti faktora i preostale disperzije izračunatih za jedan stepen slobode prema formuli

gdje je n broj zapažanja;

m je broj eksplanatornih varijabli (za primjer koji se razmatra m m =1).

Kritična vrijednost F crit je određena iz statističkih tabela i za nivo značajnosti a = 0,05 je 10,13. Pošto je F izračunao

15. Izgradnja modela višestruke regresije bez korištenja EXCEL-a.

Koristeći statistički materijal dat u tabeli 3.8 morate:

1. Konstruirajte linearnu višestruku regresiju i objasnite ekonomsko značenje njenih parametara.

2. Dajte komparativnu ocjenu bliskosti odnosa između faktora i rezultirajućeg atributa koristeći prosječne (opće) koeficijente elastičnosti.

3. Procijeniti statističku značajnost koeficijenata regresije koristeći t-test i nultu hipotezu o ne-značajnosti jednačine koristeći F-test.

4. Procijeniti kvalitet jednačine određivanjem prosječne greške aproksimacije.

Tabela 3.8. Početni podaci.

Neto prihod, milion američkih dolara

Promet kapitala u milionima američkih dolara

Korišteni kapital, milion američkih dolara

Za određivanje nepoznatih parametara b 0 , b 1 , b 2 jednačine višestruke linearne regresije koristimo standardni sistem normalnih jednačina, koji ima oblik

(3.11)

Za rješavanje ovog sistema prvo je potrebno odrediti vrijednosti veličina Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Ove vrijednosti se određuju iz tabele izvornih podataka, dopunjujući je odgovarajućim kolonama (tabela 3.9).

Tabela 3.9. Ka izračunavanju koeficijenata regresije.

Tada sistem (3.11) poprima oblik

Da bismo riješili ovaj sistem, koristit ćemo Gaussovu metodu, koja se sastoji od sekvencijalnog eliminisanja nepoznanica: podijelite prvu jednačinu sistema sa 10, zatim pomnožite rezultirajuću jednačinu sa 370,6 i oduzmite je od druge jednačine sistema, a zatim pomnožite rezultirajuću jednačinu za 158,20 i oduzmite je od treće jednačine sistema. Ponavljajući navedeni algoritam za transformisanu drugu i treću jednačinu sistema, dobijamo:

Þ Þ

Þ .

Nakon transformacije imamo:

Tada je konačna zavisnost neto prihoda od obrta kapitala i utrošenog kapitala u obliku linearna jednačina višestruka regresija ima oblik:

Iz dobijene ekonometrijske jednačine može se vidjeti da s povećanjem utrošenog kapitala raste neto prihod i obrnuto, s povećanjem obrta kapitala, neto prihod opada. Osim toga, što je veći koeficijent regresije, veći je utjecaj eksplanatorne varijable na zavisnu varijablu. U primjeru koji se razmatra, vrijednost koeficijenta regresije je veća od vrijednosti koeficijenta, stoga utrošeni kapital ima značajno veći utjecaj na neto prihod od obrta kapitala. Da bismo kvantificirali ovaj zaključak, odredit ćemo parcijalne koeficijente elastičnosti.

Analiza rezultata takođe pokazuje da upotrebljeni kapital ima veći uticaj na neto prihod. Tako se, posebno, sa povećanjem korišćenog kapitala za 1%, neto prihod povećava za 1,17%. Istovremeno, sa povećanjem obrta kapitala za 1%, neto prihod se smanjuje za 0,5%.

Teorijska vrijednost Fišerovog kriterija F rač.

Vrijednost kritične vrijednosti F crit je određena iz statističkih tabela i za nivo značajnosti a = 0,05 jednaka je 4,74. Pošto je F calc > F crit, nulta hipoteza se odbacuje i rezultirajuća regresiona jednačina se prihvata kao statistički značajna.

Procjena statističke značajnosti koeficijenata regresije i t-kriterijuma svodi se na poređenje numeričke vrijednosti ovih koeficijenata sa veličinom njihovih slučajnih grešaka i prema odnosu:

Radna formula za izračunavanje teorijske vrijednosti t-statistike je:

, (3.13)

gdje su koeficijenti parne korelacije i koeficijent višestruke korelacije izračunati iz zavisnosti:

Tada su teorijske (izračunate) vrijednosti t-statistike jednake:

Budući da je kritična vrijednost t-statistike, određena iz statističkih tabela za nivo značajnosti a = 0,05 jednak t crit = 2,36, po apsolutnoj vrijednosti veća od = - 1,798, onda se nulta hipoteza ne odbacuje i eksplanatorna varijabla x 1 je statistički beznačajan i može se isključiti iz jednačine regresije. Suprotno tome, za drugi koeficijent regresije > t crit (3,3 > 2,36), a eksplanatorna varijabla x 2 je statistički značajna.

Izračunajmo prosječnu grešku aproksimacije.

Tabela 3.10. Prema proračunu prosječne greške aproksimacije.

Tada je prosječna greška aproksimacije

Dobijena vrijednost ne prelazi dozvoljenu granicu jednaku (12…15)%.

16. Istorijat razvoja teorije mjerenja

TI se prvo razvio kao teorija psihofizičkih mjerenja. U poslijeratnim publikacijama američki psiholog S.S. Stevens se fokusirao na mjerne skale. U drugoj polovini 20. veka. Opseg primjene TI se brzo širi. Jedan od tomova "Enciklopedije psiholoških nauka" objavljen u SAD-u 50-ih zvao se "Psihološka mjerenja". Autori ove publikacije proširili su opseg TI sa psihofizike na psihologiju uopšte. U članku u ovoj zbirci, „Osnove teorije mjerenja“, prezentacija je bila na apstraktnom matematičkom nivou, bez upućivanja na bilo koje specifično polje primjene. U njemu je akcenat stavljen na „homomorfizme empirijskih sistema sa relacijama u numeričke“ (ovde nema potrebe ulaziti u ove matematičke termine), a matematička složenost prikaza je povećana u odnosu na radove S.S. Stevens.

U jednom od prvih domaćih članaka o TI (kraj 60-ih godina) ustanovljeno je da se bodovi koje dodeljuju stručnjaci prilikom procene predmeta ispitivanja, po pravilu, mere na ordinalnoj skali. Radovi koji su se pojavili početkom 70-ih doveli su do značajnog proširenja obima upotrebe TI. Primijenjena je u pedagoškoj kvalimetriji (mjerenje kvaliteta znanja studenata), u sistemskim istraživanjima i raznim teorijskim problemima. stručne procjene, za agregiranje pokazatelja kvaliteta proizvoda, u sociološkim studijama, itd.

Kao dva glavna problema TI, uz utvrđivanje tipa skale za merenje konkretnih podataka, izneta je potraga za algoritmima za analizu podataka čiji se rezultat ne menja nikakvom dozvoljenom transformacijom skale (tj. invarijantan je u odnosu na skalu). Ordinalne skale u geografiji su vjetrovi Beaufortove skale („tiho“, „blag vjetar“, „umjeren vjetar“ itd.), skala jačine potresa. Očigledno, ne može se reći da je potres magnitude 2 (lampa koja se ljulja ispod plafona) tačno 5 puta slabiji od zemljotresa magnitude 10 (potpuno uništenje svega na površini zemlje).

U medicini, ordinalne skale su skala faza hipertenzije (prema Myasnikovu), skala stupnjeva srčane insuficijencije (prema Strazhesko-Vasilenko-Langu), skala težine koronarne insuficijencije (prema Fogelsonu) itd. . Sve ove skale su izgrađene prema sljedećoj shemi: nije otkrivena bolest; prva faza bolesti; druga faza; treći stadij... Ponekad se razlikuju stadijumi 1a, 16 itd. Svaki stadij ima jedinstvenu medicinsku karakteristiku. Kada se opisuju grupe invaliditeta, brojevi se koriste suprotnim redoslijedom: najteža je prva grupa invaliditeta, zatim druga, najlakša je treća.

Brojevi kuća se mjere i na ordinacionoj skali - pokazuju kojim redom se kuće nalaze duž ulice. Brojevi svezaka u sabranim delima pisca ili brojevi predmeta u arhivi preduzeća obično su povezani sa hronološkim redosledom njihovog nastanka.

Kod ocjenjivanja kvaliteta proizvoda i usluga popularne su ordinalne skale u tzv. kvalimetriji (doslovni prijevod – mjerenje kvaliteta). Naime, jedinica proizvodnje se ocjenjuje kao prohodna ili nepodobna. Za detaljniju analizu koristi se skala sa tri gradacije: postoje značajni nedostaci - postoje samo manji nedostaci - nema nedostataka. Ponekad se koriste četiri gradacije: postoje kritični nedostaci (što onemogućava korištenje) - postoje značajni nedostaci - postoje samo manji nedostaci - nema nedostataka. Ocjenjivanje proizvoda ima slično značenje - premium, prvi razred, drugi razred,...

Prilikom procjene uticaja na životnu sredinu, prva, najopštija procjena je obično redovna, na primjer: prirodna sredina je stabilna - prirodna sredina je potlačena (degradirana). Ekološko-medicinska skala je slična: nema izraženog utjecaja na zdravlje ljudi - primjećuje se negativan utjecaj na zdravlje.

Redna skala se koristi i u drugim oblastima. U ekonometriji su to prije svega različite metode stručnih procjena.

Sve skale merenja su podeljene u dve grupe - skale kvalitativnih karakteristika i skale kvantitativnih karakteristika. Ordinalna skala i skala imenovanja su glavne skale kvalitativnih atributa, tako da se u mnogim specifičnim oblastima rezultati kvalitativne analize mogu smatrati mjerenjima na ovim skalama. Skale kvantitativnih karakteristika su skale intervala, omjera, razlika, apsoluta. Koristeći intervalnu skalu, mjeri se veličina potencijalne energije ili koordinata tačke na pravoj liniji. U tim slučajevima, ni prirodno porijeklo ni prirodna mjerna jedinica ne mogu se označiti na skali. Istraživač mora postaviti početnu tačku i sam odabrati mjernu jedinicu. Prihvatljive transformacije u intervalnoj skali su linearne rastuće transformacije, tj. linearne funkcije. Temperaturne skale Celzijus i Farenhajt su povezane upravo ovom zavisnošću: °C = 5/9 (°F - 32), gdje je °C temperatura (u stepenima) na Celzijusovoj skali, a °F temperatura na Farenhajtu skala.

Od kvantitativnih skala, u nauci i praksi najčešće su skale omjera. Imaju prirodnu referentnu tačku - nulu, tj. odsustvo količine, ali nema prirodne mjerne jedinice. Većina fizičkih jedinica se mjeri na skali omjera: tjelesna masa, dužina, naboj, kao i cijene u privredi. Prihvatljive transformacije u skali omjera su slične (mijenja se samo skala). Drugim riječima, linearne rastuće transformacije bez slobodnog termina, na primjer, pretvaranje cijena iz jedne valute u drugu po fiksnoj stopi. Pretpostavimo da uporedimo ekonomsku efikasnost dva investiciona projekta koristeći cijene u rubljama. Neka se prvi projekat pokaže boljim od drugog. Sada pređimo na kinesku valutu - juan, koristeći fiksni kurs konverzije. Očigledno je da bi prvi projekat opet trebao biti isplativiji od drugog. Međutim, algoritmi proračuna ne osiguravaju automatski ispunjenje ovog uvjeta, te je potrebno provjeriti da li je ispunjen. Rezultati takvog testa za prosječne vrijednosti su opisani u nastavku.

Skala razlike ima prirodnu mjernu jedinicu, ali nema prirodnu referentnu tačku. Vrijeme se mjeri na skali razlika, ako se kao prirodna mjerna jedinica uzme godina (ili dan - od podneva do podneva), a na skali intervala u opšti slučaj. Na sadašnjem nivou znanja nemoguće je naznačiti prirodnu polaznu tačku. Različiti autori na različite načine računaju datum stvaranja svijeta, kao i trenutak rođenja Hristovog.

Samo za apsolutnu skalu rezultati mjerenja su brojevi u uobičajenom smislu riječi, na primjer, broj ljudi u prostoriji. Za apsolutnu skalu, dozvoljena je samo transformacija identiteta.

U procesu razvoja odgovarajuće oblasti znanja, tip skale se može promijeniti. Dakle, najprije se temperatura mjerila na ordinalnoj skali (hladnije - toplije). Zatim - prema intervalu (Celzijusova, Farenhajtova, Reaumur skala). Konačno, nakon otkrića apsolutne nule, temperatura se može smatrati mjerenom na skali omjera (Kelvinova skala). Treba napomenuti da ponekad postoje neslaganja među stručnjacima o tome koje skale treba koristiti za razmatranje određenih stvarnih izmjerenih vrijednosti. Drugim riječima, proces mjerenja uključuje i određivanje vrste vage (zajedno sa obrazloženjem za izbor određene vrste vage). Pored navedenih šest glavnih tipova skala, ponekad se koriste i druge skale.

17. Invarijantni algoritmi i prosječne vrijednosti.

Formulirajmo glavni zahtjev za algoritme analize podataka u TI: zaključci izvedeni na osnovu podataka mjerenih na skali određenog tipa ne bi se trebali mijenjati kada je skala mjerenja ovih podataka dozvoljena. Drugim riječima, zaključci moraju biti invarijantni prema važećim transformacijama skale.

Dakle, jedan od glavnih ciljeva teorije mjerenja je suzbijanje subjektivnosti istraživača pri dodjeljivanju numeričkih vrijednosti stvarnim objektima. Dakle, udaljenosti se mogu mjeriti u aršinima, metrima, mikronima, miljama, parsecima i drugim mjernim jedinicama. Masa (težina) - u poodima, kilogramima, funtama, itd. Cijene za robu i usluge mogu se navesti u juanima, rubljama, tenge, grivnama, latovima, krunama, markama, američkim dolarima i drugim valutama (podliježu određenim stopama konverzije). Istaknimo jednu vrlo važnu, iako sasvim očiglednu činjenicu: izbor mjernih jedinica zavisi od istraživača, tj. subjektivno. Statistički zaključci mogu biti adekvatni stvarnosti samo kada ne zavise od toga koju jedinicu mere istraživač preferira, kada su invarijantni u odnosu na dozvoljenu transformaciju skale. Od mnogih algoritama za ekonometrijsku analizu podataka, samo nekoliko zadovoljava ovaj uslov. Pokažimo to upoređivanjem prosječnih vrijednosti.

Neka je X 1, X 2,.., X n uzorak volumena n. Često se koristi aritmetička sredina. Upotreba aritmetičkog prosjeka je toliko uobičajena da se druga riječ u terminu često izostavlja i ljudi govore o prosječnoj plati, prosječnom dohotku i drugim prosjecima za specifične ekonomske podatke, što znači „prosjek“ aritmetičkog prosjeka. Ova tradicija može dovesti do pogrešnih zaključaka. Pokažimo to na primjeru izračunavanja prosječne plate (prosječnog dohotka) zaposlenih u hipotetičkom preduzeću. Od 100 radnika samo njih 5 ima platu koja je veća, a plata preostalih 95 znatno je manja od aritmetičkog prosjeka. Razlog je očigledan - plata jedne osobe - generalnog direktora - veća je od plate 95 radnika - niskokvalifikovanih i visokokvalifikovanih radnika, inženjera i kancelarijskih radnika. Situacija liči na opisanu u poznata priča o bolnici u kojoj je 10 pacijenata, njih 9 ima temperaturu od 40°C, a jedan je već patio, leži u mrtvačnici sa temperaturom od 0°C. U međuvremenu, prosječna temperatura u bolnici je 36°C - ne može biti bolje!

Dakle, aritmetička sredina se može koristiti samo za prilično homogene populacije (bez velikih odstupanja u jednom ili drugom smjeru). Koje prosječne vrijednosti treba koristiti za opisivanje plata? Sasvim je prirodno koristiti medijanu - aritmetičku sredinu 50. i 51. zaposlenih, ako je njihov plate poredane u nepadajućem redosledu. Prvo dolaze plate 40 niskokvalifikovanih radnika, a zatim - od 41. do 70. radnika - plate visokokvalifikovanih radnika. Posljedično, medijana pada upravo na njih i jednaka je 200. Za 50 radnika plata ne prelazi 200, a za 50 - najmanje 200, tako da medijana pokazuje „centar“ oko kojeg je najveći dio proučavanih vrijednosti ​su grupisane. Druga prosječna vrijednost je mod, vrijednost koja se najčešće pojavljuje. U predmetnom slučaju to su plate niskokvalifikovanih radnika, tj. 100. Dakle, za opisivanje plate imamo tri prosječne vrijednosti - mod (100 jedinica), medijan (200 jedinica) i aritmetička sredina (400 jedinica).

Za distribuciju dohotka i plata posmatrane u stvarnom životu, isti obrazac je istinit: mod je manji od medijane, a medijan je manji od aritmetičke sredine.

Zašto se prosjeci koriste u ekonomiji? Obično se kolekcija brojeva zamijeni jednim brojem kako bi se uporedile populacije koristeći prosjeke. Neka je, na primjer, Y 1, Y 2,..., Y n skup stručnih procjena „datih“ jednom objektu ekspertize (na primjer, jedna od opcija za strateški razvoj kompanije), Z 1 , Z 2,..., Z n -druga (još jedna verzija ovog razvoja). Kako se ove populacije upoređuju? Očigledno, najlakši način je prosječnim vrijednostima.

Kako izračunati prosjek? Poznato različite vrste prosječne vrijednosti: aritmetička sredina, medijana, mod, geometrijska sredina, harmonijska sredina, kvadratna sredina. Da vas podsjetimo na to opšti koncept prosječnu vrijednost uveo je francuski matematičar iz prve polovine 19. vijeka. akademik O. Cauchy. To je kako slijedi: prosječna vrijednost je bilo koja funkcija F(H 1, H 2,..., H n) takva da za sve moguće vrijednosti argumenata vrijednost ove funkcije nije manja od minimuma brojevi X 1, H 2,... , X n , i ne više od maksimuma ovih brojeva. Sve gore navedene vrste proseka su Cauchyjevi proseci.

Uz važeću transformaciju skale, vrijednost prosječne veličine, očigledno, se mijenja. Ali zaključci za koju populaciju je prosjek veći, a za koju manji ne bi se trebali mijenjati (u skladu sa zahtjevom invarijantnosti zaključaka, prihvaćenim kao glavnim zahtjevom u TI). Formulirajmo odgovarajući matematički problem traženja tipa prosječnih vrijednosti čiji je rezultat poređenja stabilan u odnosu na dozvoljene transformacije skale.

Neka je F(H 1 H 2 ,..., H n) Cauchyjev prosjek. Neka je prosjek za prvu populaciju manji od prosjeka za drugu populaciju: tada je, prema TI, za stabilnost rezultata poređenja prosjeka potrebno da za bilo koju dopuštenu transformaciju g iz grupe dopuštenih transformacija u na odgovarajućoj skali tačno je da je prosjek transformiranih vrijednosti iz prve populacije također manji od prosjeka transformiranih vrijednosti za drugi skup. Štaviše, formulirani uslov mora biti istinit za bilo koja dva skupa Y 1, Y 2,...,Y n i Z 1, Z 2,..., Z n i, podsjetimo, bilo koju dopuštenu transformaciju. Prosječne vrijednosti koje zadovoljavaju formulirani uvjet nazivamo prihvatljivim (u odgovarajućoj skali). Prema TI, samo takvi prosjeci se mogu koristiti pri analizi stručnih mišljenja i drugih podataka mjerenih na skali koja se razmatra.

Koristeći matematičku teoriju razvijenu 1970-ih, moguće je opisati vrstu prihvatljivih prosjeka na osnovnim skalama. Jasno je da je za podatke mjerene na skali imena, samo modus pogodan kao prosjek.

18. Prosječne vrijednosti na ordinalnoj skali

Razmotrimo obradu stručnih mišljenja mjereno na ordinalnoj skali. Sljedeća izjava je tačna.

Teorema1 . Od svih Cauchyjevih prosjeka, jedini prihvatljivi prosjeci na ordinalnoj skali su termini varijantne serije(redna statistika).

Teorema 1 vrijedi pod uslovom da je prosjek F(H 1 H 2 ,..., H n) kontinuirana (preko skupa varijabli) i simetrična funkcija. Ovo poslednje znači da kada se argumenti preurede, vrednost funkcije F(H 1 H 2 ,..., H n) se ne menja. Ovaj uslov je sasvim prirodan, jer nalazimo prosječnu vrijednost za totalitet (skup), a ne za niz. Skup se ne mijenja ovisno o redoslijedu kojim navodimo njegove elemente.

Prema teoremi 1, medijana se može koristiti kao prosjek za podatke mjerene na ordinalnoj skali (ako je veličina uzorka neparna). Ako je volumen paran, treba koristiti jedan od dva centralna pojma varijacionog niza - kako se ponekad nazivaju, lijevi medijan ili desni medijan. Moda se također može koristiti - uvijek je član serije varijacija. Ali nikada ne možete izračunati aritmetičku sredinu, geometrijsku sredinu, itd.

Sljedeća teorema je tačna.

Teorema 2. Neka su Y 1, Y 2,...,Y m nezavisne identično raspoređene slučajne varijable sa funkcijom distribucije F(x), a Z 1, Z 2,..., Zn nezavisne identično raspoređene slučajne varijable sa distribucijama funkcija H(x), a uzorci Y 1, Y 2,...,Y m i Z 1, Z 2,..., Z n su nezavisni jedan od drugog i MY X > MZ X. Da bi vjerovatnoća događaja težila 1 u min(m, n) za bilo koju striktno rastuću kontinuiranu funkciju g koja zadovoljava uvjet |g i |>X potrebno je i dovoljno da nejednakost F(x) bude zadovoljena za sve x< Н(х), причем существовало число х 0 , для которого F(x 0)

Bilješka. Stanje sa gornjom granicom je čisto intra-matematičke prirode. Zapravo, funkcija g je proizvoljna prihvatljiva transformacija na ordinalnoj skali.

Prema teoremi 2, aritmetička sredina se također može koristiti u ordinalnoj skali ako se uporede uzorci iz dvije distribucije koje zadovoljavaju nejednakost datu u teoremi. Jednostavno rečeno, jedna od funkcija distribucije uvijek mora ležati iznad druge. Funkcije distribucije se ne mogu ukrštati, dozvoljeno im je samo da se dodiruju. Ovaj uvjet je ispunjen, na primjer, ako se funkcije distribucije razlikuju samo po pomaku:

F(x) = N(x + ∆)

za neki ∆.

Posljednji uvjet je zadovoljen ako se pomoću istog mjernog instrumenta mjere dvije vrijednosti određene veličine, kod kojih se raspodjela grešaka ne mijenja pri prelasku s mjerenja jedne vrijednosti dotične veličine na mjerenje druge.

Prosjek prema Kolmogorovu

Generalizacija nekoliko proseka navedenih iznad je Kolmogorov prosek. Za brojeve X 1, X 2,..., X n, Kolmogorovljev prosjek se izračunava pomoću formule

G((F(X l) + F(X 2)+...F(X n))/n),

gdje je F strogo monotona funkcija (tj. striktno rastuća ili striktno opadajuća),

G je inverzna funkcija od F.

Među Kolmogorovljevim prosjekima ima mnogo poznatih likova. Dakle, ako je F(x) = x, onda je Kolmogorovljeva sredina aritmetička sredina, ako je F(x) = lnx, onda je geometrijska sredina, ako je F(x) = 1/x, onda je harmonijska sredina, ako je F( x) = x 2, zatim srednji kvadrat, itd. Kolmogorovljev prosjek je poseban slučaj Cauchyjevog prosjeka. S druge strane, popularni prosjeci kao što su medijana i modus ne mogu se predstaviti kao Kolmogorovljevi prosjeci. U monografiji su dokazane sljedeće tvrdnje.

Teorema3 . Ako su određeni intramatematički uslovi pravilnosti u intervalnoj skali važeći, od svih Kolmogorovljevih sredina, dozvoljena je samo aritmetička sredina. Dakle, geometrijska sredina ili srednji kvadrat temperatura (u Celzijusima) ili udaljenosti su besmislene. Aritmetička sredina se mora koristiti kao prosjek. Također možete koristiti medijanu ili mod.

Teorema 4. Ako su određeni intramatematički uslovi pravilnosti u skali omjera važeći, od svih Kolmogorovljevih prosjeka, dozvoljeni su samo prosjeci snage sa F(x) = x c i geometrijskim prosjekom.

Komentar. Geometrijska sredina je granica srednje vrijednosti snage za c > 0.

Postoje li prosjeci Kolmogorova koji se ne mogu koristiti u skali omjera? Naravno. Na primjer F(x) = e x.

Slično prosječnim vrijednostima, mogu se proučavati i druge statističke karakteristike - indikatori raspršenosti, povezanosti, udaljenosti itd. Nije teško pokazati, na primjer, da se koeficijent korelacije ne mijenja pri bilo kakvoj dozvoljenoj transformaciji u posudi intervala, baš kao i omjer disperzija, disperzija se ne mijenja u skali razlika, koeficijent varijacije u skala omjera itd.

Gore navedeni rezultati o prosječnim vrijednostima se široko koriste, ne samo u ekonomiji, menadžmentu, teoriji stručnih procjena ili sociologiji, već i u inženjerstvu, na primjer, za analizu metoda za agregiranje senzora u automatiziranim sistemima upravljanja procesima visokih peći. Odlično primijenjena vrijednost TI u problemima standardizacije i upravljanja kvalitetom, posebno u kvalimetriji, gdje su dobijeni zanimljivi teorijski rezultati. Tako, na primjer, svaka promjena težinskih koeficijenata pojedinih pokazatelja kvalitete proizvoda dovodi do promjene redoslijeda proizvoda prema ponderiranom prosječnom pokazatelju (ovaj teorem je dokazao prof. V.V. Podinovski). Shodno tome, gore navedene kratke informacije o TI i njegovim metodama kombinuju, u izvesnom smislu, ekonomiju, sociologiju i inženjerske nauke i predstavljaju adekvatan aparat za rešavanje složenih problema koji ranije nisu bili podložni delotvornoj analizi, štaviše, otvara se put ka izgradnji realističnih modela i rješavanju problema prognoze.

22. Uparena linearna regresija

Okrenimo se sada detaljnijem proučavanju najjednostavnijeg slučaja linearne regresije u paru. Linearna regresija je opisana najjednostavnijim funkcionalnim odnosom u obliku pravolinijske jednačine i karakterizirana je transparentnom interpretacijom parametara modela (koeficijenata jednadžbe). Desna strana jednadžbe nam omogućava da dobijemo teorijske (izračunate) vrijednosti rezultirajuće (objašnjene) varijable na osnovu datih vrijednosti regresora (objašnjavajuće varijable). Ove vrijednosti se ponekad nazivaju i predviđenim (u istom smislu), tj. dobijene iz teorijskih formula. Međutim, kada se postavlja hipoteza o prirodi zavisnosti, koeficijenti jednačine i dalje ostaju nepoznati. Općenito govoreći, dobivanje približnih vrijednosti ovih koeficijenata moguće je različitim metodama.

Ali najvažnija i najraširenija od njih je metoda najmanjih kvadrata (OLS). Zasnovan je (kao što je već objašnjeno) na zahtjevu da se minimizira zbroj kvadrata odstupanja stvarnih vrijednosti rezultirajuće karakteristike od izračunatih (teoretskih) vrijednosti. Umjesto teoretskih vrijednosti (da biste ih dobili), zamijenite desnu stranu jednadžbe regresije u zbir kvadrata odstupanja, a zatim pronađite parcijalne izvode ove funkcije (zbir kvadrata odstupanja stvarnih vrijednosti proizašle karakteristike iz teorijskih). Ove parcijalne derivacije se ne uzimaju u odnosu na varijable x i y, već u odnosu na parametre a i b. Parcijalne derivacije se postavljaju jednake nuli i nakon jednostavnih, ali glomaznih transformacija dobija se sistem normalnih jednačina za određivanje parametara. Koeficijent za varijablu x, tj. b se naziva koeficijent regresije, on pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu. Parametar a možda nema ekonomsku interpretaciju, posebno ako je predznak ovog koeficijenta negativan.

Parna linearna regresija se koristi za proučavanje funkcije potrošnje. Koeficijent regresije u funkciji potrošnje koristi se za izračunavanje množitelja. Gotovo uvijek, jednačina regresije je dopunjena indikatorom bliskosti veze. Za najjednostavniji slučaj linearne regresije, ovaj indikator bliskosti veze je linearni koeficijent korelacije. Ali budući da koeficijent linearne korelacije karakterizira bliskost odnosa između obilježja u linearnom obliku, blizina apsolutne vrijednosti koeficijenta linearne korelacije nuli još uvijek ne služi kao pokazatelj odsustva veze između obilježja.

Uz drugačiji izbor specifikacije modela, a samim tim i tipa zavisnosti, stvarni odnos se može pokazati prilično blizak jedinici. Ali kvalitet odabira linearne funkcije određuje se pomoću kvadrata koeficijenta linearne korelacije - koeficijenta determinacije. Karakterizira udio varijanse u rezultantnom atributu y objašnjen regresijom u totalna varijansa efektivan znak. Vrijednost koja dopunjuje koeficijent determinacije na 1 karakterizira udio varijanse uzrokovane utjecajem drugih faktora koji nisu uzeti u obzir u modelu (rezidualna varijansa).

Uparena regresija je predstavljena jednadžbom koja povezuje dvije varijable y i x sljedećeg oblika:

gdje je y zavisna varijabla (rezultativni atribut), a x je nezavisna varijabla (objašnjavajuća varijabla ili faktor-atribut). Postoji linearna regresija i nelinearna regresija. Linearna regresija je opisana jednadžbom oblika:

y = a+ bx + .

Nelinearna regresija, zauzvrat, može biti nelinearna u odnosu na objašnjavajuće varijable uključene u analizu, ali linearna u odnosu na procijenjene parametre. Ili je možda regresija nelinearna u smislu parametara koji se procjenjuju. Primjeri regresije koja je nelinearna u eksplanatornim varijablama, ali linearna u procijenjenim parametrima, uključuju polinomske zavisnosti različitih stupnjeva (polinome) i jednakostraničnu hiperbolu.

Nelinearna regresija za procijenjene parametre je ovisnost o snazi ​​u odnosu na parametar (parametar je u eksponentu), eksponencijalna ovisnost, gdje je parametar u osnovi eksponenta, i eksponencijalna ovisnost, kada je cijela linearna ovisnost u potpunosti u eksponentu. Imajte na umu da je u sva ova tri slučaja slučajna komponenta (slučajni ostatak)  uključena desna strana jednadžbe u obliku faktora, a ne u obliku sabirka, tj. multiplikativno! Prosječno odstupanje izračunatih vrijednosti rezultirajuće karakteristike od stvarnih karakterizira prosječna greška aproksimacije. Izražava se u procentima i ne bi trebalo da prelazi 7-8%. Ova prosječna greška aproksimacije je jednostavno procentualni prosjek relativnih veličina razlika između stvarnih i izračunatih vrijednosti.

Važan je prosječni koeficijent elastičnosti, koji služi kao važna karakteristika mnogih ekonomskih pojava i procesa. Izračunava se kao proizvod vrijednosti derivacije date funkcionalne veze i odnosa prosječne vrijednosti x i prosječne vrijednosti y. Koeficijent elastičnosti pokazuje za koji procenat u prosjeku će se rezultat y promijeniti u odnosu na svoju prosječnu vrijednost kada se faktor x promijeni za 1% od svoje (faktora x) prosječne vrijednosti.

Problemi analize varijanse su usko povezani sa parnom regresijom i višestrukom regresijom (kada postoji mnogo faktora) i rezidualnom varijansom. Analiza varijanse ispituje varijansu zavisne varijable. U ovom slučaju, ukupni zbir kvadrata odstupanja se dijeli na dva dijela. Prvi član je zbir odstupanja na kvadrat zbog regresije, ili objašnjena (faktorijalna). Drugi pojam je rezidualni zbir kvadrata odstupanja neobjašnjenih faktorskom regresijom.

Udio varijanse objašnjen regresijom u ukupnoj varijansi rezultirajuće karakteristike y karakterizira koeficijent (indeks) determinacije, koji nije ništa drugo do omjer zbira kvadrata odstupanja zbog regresije i ukupnog zbira kvadrata odstupanja (prvi član na cijeli zbir).

Kada se parametri modela (koeficijenti nepoznanica) određuju metodom najmanjih kvadrata, tada se, u suštini, pronalaze neke slučajne varijable (u procesu dobijanja procjena). Od posebnog značaja je procjena koeficijenta regresije, koji je neki poseban oblik slučajne varijable. Svojstva ove slučajne varijable zavise od svojstava zaostalog člana u jednačini (u modelu). Za model uparene linearne regresije, razmotrite eksplanatornu varijablu x kao neslučajnu egzogenu varijablu. To samo znači da se vrijednosti varijable x u svim opservacijama mogu smatrati unaprijed određenim i ni na koji način se ne odnose na ovisnost koja se proučava. Dakle, stvarna vrijednost objašnjene varijable sastoji se od dvije komponente: neslučajne i slučajne komponente (rezidualni član).

S druge strane, koeficijent regresije određen metodom najmanjih kvadrata (OLS) jednak je količniku dijeljenja kovarijanse varijabli x i y varijansom varijable x. Stoga sadrži i slučajnu komponentu. Na kraju krajeva, kovarijansa zavisi od vrednosti varijable y, pri čemu vrednosti varijable y zavise od vrednosti slučajnog rezidualnog člana . Dalje, lako je pokazati da je kovarijansa varijabli x i y jednaka proizvodu procijenjenog koeficijenta regresije beta () i varijanse varijable x, plus kovarijansa varijabli x i . Dakle, procjena koeficijenta regresije beta jednaka je samom ovom nepoznatom regresijskom koeficijentu, dodatom kvocijentu dijeljenja kovarijanse varijabli x i  varijansom varijable x. One. procjena koeficijenta regresije b dobijena iz bilo kojeg uzorka predstavljena je kao zbir dva člana: konstantna vrijednost jednaka pravoj vrijednosti koeficijenta  (beta) i slučajna komponenta ovisno o kovarijansi varijabli x i  .

23. Matematički Gauss-Markovljevi uslovi i njihova primjena.

Da bi regresiona analiza zasnovana na običnom OLS-u dala najbolje rezultate, slučajni član mora zadovoljiti četiri Gauss-Markovljeva uslova.

Matematičko očekivanje slučajnog člana je jednako nuli, tj. to je nepristrasno. Ako jednadžba regresije uključuje konstantan član, onda je prirodno smatrati da je ovaj zahtjev ispunjen, jer je to konstantan član i mora uzeti u obzir svaki sistematski trend u vrijednostima varijable y, koji bi, naprotiv, trebao nisu sadržane u objašnjavajućim varijablama regresione jednačine.

Varijanca slučajnog člana je konstantna za sva opažanja.

Kovarijantnost vrijednosti slučajne varijable, formiranje uzorka mora biti jednako nuli, tj. ne postoji sistematski odnos između vrijednosti slučajnog člana u bilo koja dva konkretna zapažanja. Slučajni članovi moraju biti nezavisni jedan od drugog.

Zakon distribucije slučajnog člana mora biti nezavisan od varijabli koje objašnjavaju.

Štaviše, u mnogim aplikacijama objašnjavajuće varijable nisu stohastičke, tj. nemaju slučajnu komponentu. Vrijednost bilo koje nezavisne varijable u svakoj opservaciji mora se smatrati egzogenom, u potpunosti određena vanjskim uzrocima koji nisu uzeti u obzir u jednadžbi regresije.

Zajedno sa navedenim Gauss-Markovovim uslovima, takođe se pretpostavlja da slučajni član ima normalnu distribuciju. Vrijedi pod vrlo širokim uvjetima i zasniva se na takozvanoj centralnoj graničnoj teoremi (CLT). Suština ove teoreme je da ako je slučajna varijabla ukupni rezultat interakcije velikog broja drugih slučajnih varijabli, od kojih nijedna nema dominantan utjecaj na ponašanje ovog ukupnog rezultata, onda će rezultirajuća slučajna varijabla biti opisana po približno normalnoj distribuciji. Ova bliskost normalnoj distribuciji omogućava korištenje normalne distribucije za dobivanje procjena, što je u određenom smislu njegova generalizacija je Studentova raspodjela, koja se uočljivo razlikuje od normalne uglavnom na takozvanim „repovima“, tj. za male veličine uzoraka. Takođe je važno da ako je slučajni član normalno raspoređen, onda će i koeficijenti regresije biti normalno raspoređeni.

Ustanovljena regresiona kriva (regresiona jednadžba) nam omogućava da riješimo problem tzv. tačka prognoza. U takvim proračunima, određena vrijednost x se uzima izvan proučavanog intervala promatranja i zamjenjuje u desnu stranu jednačine regresije (ekstrapolacijski postupak). Jer Procjene koeficijenata regresije su već poznate, tada je moguće izračunati vrijednost objašnjene varijable y koja odgovara preuzetoj vrijednosti x. Naravno, u skladu sa značenjem predviđanja (prognoze), proračuni se vrše naprijed (u područje budućih vrijednosti).

Međutim, budući da su koeficijenti određeni sa određenom greškom, nije interesantna tačkasta procjena (prognoza bodova) za rezultantni atribut, već poznavanje granica unutar kojih se, s određenom vjerovatnoćom, nalaze vrijednosti rezultantni atribut koji odgovara preuzetoj vrijednosti faktora x će ležati.

Da biste to učinili, izračunava se standardna greška (standardna devijacija). Može se dobiti u duhu onoga što je upravo rečeno na sljedeći način. Izraz slobodnog člana a iz procjena kroz prosječne vrijednosti zamjenjuje se u jednačinu linearne regresije. Tada se ispostavlja da standardna greška zavisi od greške prosečnog efektivnog faktora y i aditivno od greške koeficijenta regresije b. Jednostavno, kvadrat ove standardne greške jednak je zbiru kvadratne greške srednje vrijednosti y i proizvoda kvadratne greške koeficijenta regresije na kvadrat odstupanja faktora x i njegove srednje vrijednosti. Dalje, prvi član, prema zakonima statistike, jednak je količniku dijeljenja varijanse opće populacije veličinom (volumenom) uzorka.

Umjesto nepoznate varijanse, varijansa uzorka se koristi kao procjena. Prema tome, greška koeficijenta regresije je definisana kao količnik dijeljenja varijanse uzorka sa varijansom faktora x. Možete dobiti standardnu ​​grešku (standardnu ​​devijaciju) i druga razmatranja koja su nezavisnija od modela linearne regresije. Da bi se to postiglo, koristi se koncept prosječne greške i marginalne greške i odnos između njih.

Ali čak i nakon dobijanja standardne greške, ostaje pitanje u kojim granicama će se nalaziti predviđena vrijednost. Drugim riječima, o intervalu greške mjerenja, u prirodnoj pretpostavci u mnogim slučajevima da je sredina ovog intervala data izračunatom (prosječnom) vrijednošću efektivnog faktora y. Ovdje u pomoć dolazi središnja granična teorema, koja precizno pokazuje s kojom vjerovatnoćom se nepoznata veličina nalazi unutar ovog intervala povjerenja.

U suštini, formula standardne greške, bez obzira na to kako i u kom obliku je dobijena, karakteriše grešku u položaju linije regresije. Standardna greška dostiže minimum kada se vrednost faktora x poklapa sa srednjom vrednošću faktora.

24. Statistička provjera hipoteza i procjena značajnosti linearne regresije primjenom Fisherovog kriterija.

Nakon što se pronađe jednačina linearne regresije, procjenjuje se značaj jednačine u cjelini i njenih pojedinačnih parametara. Procjena značaja jednačine regresije u cjelini može se obaviti korištenjem različitih kriterija. Prilično česta i efikasna je upotreba Fišerovog F testa. U ovom slučaju se postavlja nulta hipoteza da je koeficijent regresije jednak nuli, tj. b=0, pa stoga faktor x nema uticaja na rezultat y. Neposrednom izračunavanju F-testa prethodi analiza varijanse. Centralno mjesto u njemu zauzima dekompozicija ukupnog zbira kvadrata odstupanja varijable y od prosječne vrijednosti y na dva dijela – “objašnjeno” i “neobjašnjeno”:

Ukupan zbir kvadrata odstupanja pojedinačnih vrijednosti rezultirajuće karakteristike y od prosječne vrijednosti y uzrokovan je utjecajem mnogih faktora.

Uvjetno podijelimo cijeli skup razloga u dvije grupe: proučavani faktor x i drugi faktori. Ako faktor ne utječe na rezultat, tada je linija regresije na grafu paralelna sa OX i y=y osom. Tada je cijela varijansa rezultirajuće karakteristike posljedica utjecaja drugih faktora i ukupni zbir kvadrata odstupanja će se poklopiti sa ostatkom. Ako drugi faktori ne utiču na rezultat, onda je y funkcionalno povezan sa x i rezidualni zbir kvadrata je nula. U ovom slučaju, zbir kvadrata odstupanja objašnjenih regresijom je isti kao i ukupni zbir kvadrata. Kako sve tačke korelacionog polja ne leže na regresijskoj liniji, njihovo rasipanje uvek nastaje usled uticaja faktora x, tj. regresija y na x, i uzrokovana drugim uzrocima (neobjašnjiva varijacija). Pogodnost linije regresije za predviđanje zavisi od toga koliko je ukupne varijacije u osobini y objašnjeno varijacijom.

Očigledno, ako je zbir kvadrata odstupanja zbog regresije veći od preostalog zbira kvadrata, tada je jednadžba regresije statistički značajna i x faktor ima značajan utjecaj na rezultat. Ovo je ekvivalentno činjenici da će se koeficijent determinacije približiti jedinici. Svaki zbir kvadrata odstupanja povezan je sa brojem stepeni slobode, tj. broj slobode nezavisne varijacije karakteristike. Broj stepeni slobode povezan je sa brojem jedinica populacije ili sa brojem konstanti koje se određuju iz njega. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od n mogućih [(y 1 -y), (y 2 -y),...(y n -y)] potrebno da se formira zadani zbir kvadrata. Dakle, za ukupan zbir kvadrata ∑(y-y sr) 2 potrebna su (n-1) nezavisna odstupanja, jer u populaciji od n jedinica, nakon izračunavanja prosječnog nivoa, samo (n-1) broj odstupanja slobodno varira. Prilikom izračunavanja objašnjene ili faktorske sume kvadrata ∑(y-y avg) 2, koriste se teorijske (izračunate) vrijednosti rezultujuće karakteristike y*, koje se nalaze duž linije regresije: y(x)=a+bx.

Vratimo se sada na proširenje ukupnog zbira kvadrata odstupanja efektivnog faktora od prosjeka ove vrijednosti. Ovaj zbir sadrži dva dijela koja su već definirana gore: zbir kvadrata odstupanja objašnjenih regresijom i drugi zbir koji se naziva rezidualni zbir kvadrata odstupanja. Uz ovu dekompoziciju je povezana i analiza varijanse, koja direktno odgovara na fundamentalno pitanje: kako procijeniti značaj regresione jednačine u cjelini i njenih pojedinačnih parametara? To također u velikoj mjeri određuje značenje ovog pitanja. Za procjenu značaja jednačine regresije u cjelini, koristi se Fisherov kriterij (F-test). Prema pristupu koji je predložio Fisher, postavlja se nulta hipoteza: koeficijent regresije je jednak nuli, tj. vrijednostb=0. To znači da faktor X nema uticaja na ishod Y.

Podsetimo se da skoro uvek tačke dobijene kao rezultat statističke studije ne leže tačno na liniji regresije. Oni su raštrkani, manje-više udaljeni od linije regresije. Takva disperzija je posljedica utjecaja drugih faktora, različitih od faktora objašnjenja X, koji se ne uzimaju u obzir u jednačini regresije. Prilikom izračunavanja objašnjene ili faktorske sume kvadrata odstupanja, koriste se teorijske vrijednosti rezultirajuće karakteristike pronađene iz regresijske linije.

Za dati skup vrijednosti varijabli Y i X, izračunata vrijednost prosječne vrijednosti Y je u linearnoj regresiji funkcija samo jednog parametra - koeficijenta regresije. U skladu s tim, faktor zbir kvadrata odstupanja ima broj stupnjeva slobode jednak 1. A broj stupnjeva slobode preostalog zbira kvadrata odstupanja u linearnoj regresiji je n-2.

Posljedično, podijelimo svaki zbir kvadrata odstupanja u originalnoj ekspanziji sa brojem stupnjeva slobode, dobivamo prosječne kvadratne devijacije (varijansa po jednom stepenu slobode). Zatim, dijelimo varijansu faktora sa jednim stepenom slobode sa rezidualna varijansa jednim stepenom slobode dobijamo kriterijum za proveru nulte hipoteze, tzv. F-razmer, ili istoimeni kriterijum. Naime, ako je nulta hipoteza tačna, faktor i rezidualne varijanse su jednostavno jednake jedna drugoj.

Odbaciti nultu hipotezu, tj. prihvaćajući suprotnu hipotezu, koja izražava činjenicu značajnosti (prisustva) odnosa koji se proučava, a ne samo slučajnu podudarnost faktora koji simuliraju odnos koji zapravo ne postoji, potrebno je koristiti tablice kritičnih vrijednosti specificirani odnos. Pomoću tabela određuje se kritična (granična) vrijednost Fisherovog kriterija. Naziva se i teorijskim. Zatim provjeravaju, upoređujući je sa odgovarajućom empirijskom (stvarnom) vrijednošću kriterija izračunatom iz podataka opservacije, da li stvarna vrijednost omjera premašuje kritičnu vrijednost iz tabela.

Ovo se radi detaljnije ovako. Odabrati dati nivo vjerovatnoće prisustva nulte hipoteze i pronaći iz tabela kritičnu vrijednost F-kriterijuma, pri kojoj još uvijek može doći do nasumične divergencije varijansi za 1 stepen slobode, tj. maksimalnu takvu vrijednost. Tada se izračunata vrijednost F-omjera smatra pouzdanom (tj. izražava razliku između stvarne i rezidualne varijanse) ako je ovaj omjer veći od tabelarnog. Tada se nulta hipoteza odbacuje (nije tačno da nema znakova veze) i, naprotiv, dolazimo do zaključka da veza postoji i da je značajna (nije slučajna, značajna).

Ako se ispostavi da je vrijednost odnosa manja od tabelarne, tada se ispostavlja da je vjerovatnoća nulte hipoteze veća od navedenog nivoa (koji je inicijalno odabran) i nulta hipoteza se ne može odbaciti bez primjetne opasnosti od dobijanje pogrešnog zaključka o postojanju veze. Shodno tome, jednačina regresije se smatra beznačajnom.

Vrijednost samog F-kriterijuma povezana je sa koeficijentom determinacije. Pored procjene značaja regresione jednačine u cjelini, procjenjuje se i značaj pojedinih parametara regresione jednačine. U ovom slučaju, standardna greška koeficijenta regresije se određuje korišćenjem empirijske stvarne standardne devijacije i empirijske varijanse po stepenu slobode. Studentova raspodjela se zatim koristi za testiranje značajnosti koeficijenta regresije za izračunavanje njegovih intervala povjerenja.

Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa vrši se poređenjem vrijednosti ovih veličina i standardne greške. Veličina greške parametara linearne regresije i koeficijenta korelacije određena je sljedećim formulama:

gdje je S srednja kvadratna rezidualna devijacija uzorka,

r xy – koeficijent korelacije.

Prema tome, vrijednost standardne greške predviđene regresijskom linijom je data formulom:

Odgovarajući omjeri vrijednosti koeficijenata regresije i korelacije prema njihovoj standardnoj grešci formiraju takozvanu t-statistiku, a poređenje odgovarajuće tablične (kritične) vrijednosti i njene stvarne vrijednosti omogućava da se prihvati ili odbije nulta vrijednost. hipoteza. Ali tada, da bi se izračunao interval pouzdanosti, maksimalna greška za svaki indikator se nalazi kao proizvod tabelarne vrednosti t statistike sa prosečnom slučajnom greškom odgovarajućeg indikatora. U stvari, mi smo to malo drugačije napisali malo iznad. Tada se dobijaju granice intervala poverenja: donja granica je oduzimanjem odgovarajuće marginalne greške od odgovarajućih koeficijenata (u stvari prosek), a gornja granica je sabiranjem (sabiranjem).

U linearnoj regresiji ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2. To je lako provjeriti pozivanjem na formulu za koeficijent linearne korelacije: r 2 xy = b 2 *σ 2 x /σ 2 y

gdje je σ 2 y ukupna varijansa osobine y;

σ 2 x - disperzija karakteristike y zbog faktora x. Prema tome, zbir kvadrata odstupanja zbog linearne regresije bit će:

∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 .

Budući da, za dati obim opažanja u x i y, suma faktora kvadrata u linearnoj regresiji zavisi samo od jedne konstante koeficijenta regresije b, onda ovaj iznos kvadrati imaju jedan stepen slobode. Razmotrimo sadržajnu stranu izračunate vrijednosti atributa y, tj. y x. Vrijednost y x određena je jednadžbom linearne regresije: y x ​​= a + bx.

Parametar a se može definirati kao a=y-bx. Zamjenom izraza za parametar a u linearni model dobijamo: y x ​​=y-bx+bx avg =y-b(x-x avg).

Za dati skup varijabli y i x, izračunata vrijednost y x u linearnoj regresiji je funkcija samo jednog parametra – koeficijenta regresije. U skladu s tim, zbir faktora kvadrata odstupanja ima broj stupnjeva slobode jednak 1.

Postoji jednakost između broja stupnjeva slobode ukupnog, faktorskog i rezidualnog zbroja kvadrata. Broj stepeni slobode preostalog zbira kvadrata u linearnoj regresiji je (n-2). Broj stepeni slobode za ukupan zbir kvadrata određen je brojem jedinica, a pošto koristimo prosek izračunat iz podataka uzorka, gubimo jedan stepen slobode, tj. (n-1). Dakle, imamo dvije jednakosti: za sume i za broj stupnjeva slobode. A ovo nas, zauzvrat, vraća na uporedive varijanse po stepenu slobode, čiji odnos daje Fišerov kriterijum.

25. Procjena značaja pojedinih parametara regresione jednačine i koeficijenata pomoću Studentovog testa.

27. Linearna i nelinearna regresija i metode za njihovo proučavanje.

Linearna regresija i metode njenog istraživanja i evaluacije ne bi bile toliko važne da uz ovaj vrlo važan, ali ipak najjednostavniji slučaj, uz njihovu pomoć ne bismo dobili alat za analizu složenijih nelinearnih zavisnosti. Nelinearne regresije se mogu podijeliti u dvije značajno različite klase. Prva i jednostavnija je klasa nelinearnih zavisnosti u kojoj postoji nelinearnost u odnosu na eksplanatorne varijable, ali koje ostaju linearne u parametrima koji su u njih uključeni i podložni su evaluaciji. Ovo uključuje polinome različitih stupnjeva i jednakostranične hiperbole.

Takva nelinearna regresija za varijable uključene u objašnjenje jednostavnom transformacijom (zamjenom) varijabli može se lako svesti na običnu linearnu regresiju za nove varijable. Stoga se procjena parametara u ovom slučaju vrši jednostavno pomoću najmanjih kvadrata, budući da su ovisnosti linearne u parametrima. Dakle, važnu ulogu u ekonomiji igra nelinearna zavisnost opisana jednakostraničnom hiperbolom:

Njegovi parametri su dobro procijenjeni metodom najmanjih kvadrata, a sama ova zavisnost karakterizira vezu između specifičnih troškova sirovina, goriva, materijala sa obimom proizvodnje, vremenom prometa robe i svih ovih faktora sa količinom prometa. promet. Na primjer, Phillipsova kriva karakterizira nelinearni odnos između stope nezaposlenosti i procenta rasta plata.

Situacija je potpuno drugačija s regresijom koja je nelinearna u parametrima koji se procjenjuju, na primjer, predstavljena funkcijom stepena, u kojoj je sam stepen (njegov eksponent) parametar, ili zavisi od parametra. Moglo bi i biti eksponencijalna funkcija, gdje je osnova stupnja parametar i eksponencijalna funkcija, u kojoj opet indikator sadrži parametar ili kombinaciju parametara. Ova klasa je zauzvrat podijeljena u dvije podklase: jedna uključuje eksterno nelinearnu, ali suštinski interno linearnu. U ovom slučaju, možete dovesti model u linearni oblik pomoću transformacija. Međutim, ako je model interno nelinearan, onda se ne može svesti na linearnu funkciju.

Dakle, samo modeli koji su suštinski nelinearni u regresionoj analizi smatraju se zaista nelinearnim. Svi ostali, koji se transformacijama mogu svesti na linearne, ne smatraju se takvima i upravo se oni najčešće razmatraju u ekonometrijskim studijama. Istovremeno, to ne znači da je nemoguće proučavati suštinski nelinearne zavisnosti u ekonometriji. Ako je model interno nelinearan u svojim parametrima, tada se za procjenu parametara koriste iterativne procedure, čiji uspjeh ovisi o vrsti jednadžbe za karakteristike korištene iterativne metode.

Vratimo se na zavisnosti svedene na linearne. Ako su nelinearne i u parametrima i u varijablama, na primjer, oblika y = a pomnoženo sa potencijom X, čiji je eksponent parametar -  (beta):

Očigledno, takav odnos se lako može pretvoriti u linearnu jednačinu jednostavnim logaritmom.

Nakon uvođenja novih varijabli koje označavaju logaritme, dobija se linearna jednačina. Postupak procjene regresije se tada sastoji od izračunavanja novih varijabli za svako opažanje uzimanjem logaritama od početne vrijednosti. Zatim se procjenjuje regresijska zavisnost novih varijabli. Da biste prešli na originalne varijable, trebalo bi da uzmete antilogaritam, odnosno da se zapravo vratite na same stepene umesto na njihove eksponente (na kraju krajeva, logaritam je eksponent). Slučaj eksponencijalnih ili eksponencijalnih funkcija može se razmatrati na sličan način.

Za značajno nelinearnu regresiju, nije moguće primijeniti uobičajenu proceduru procjene regresije jer se odgovarajući odnos ne može pretvoriti u linearnu. Opća shema radnji je sljedeća:

1. Neke vjerodostojne početne vrijednosti parametara su prihvaćene;

2. Predviđene Y vrijednosti se izračunavaju iz stvarnih X vrijednosti koristeći ove vrijednosti parametara;

3. Izračunavaju se reziduali za sva opažanja u uzorku, a zatim zbir kvadrata reziduala;

4. Male promjene su napravljene u jednom ili više procjena parametara;

5. Izračunavaju se nove predviđene vrijednosti Y, rezidua i suma kvadrata reziduala;

6. Ako je zbir kvadrata reziduala manji nego ranije, tada su nove procjene parametara bolje od prethodnih i treba ih koristiti kao novu polaznu tačku;

7. Koraci 4, 5 i 6 se ponavljaju sve dok ne postane nemoguće izvršiti takve promjene u procjenama parametara koje bi dovele do promjene u zbroju reziduala kvadrata;

8. Zaključeno je da je zbir kvadrata reziduala minimiziran, a konačne procjene parametara su procjene najmanjih kvadrata.

Među nelinearnim funkcijama koje se mogu svesti na linearni oblik, funkcija snage se široko koristi u ekonometriji. Parametar b u njemu ima jasnu interpretaciju, jer je koeficijent elastičnosti. U modelima koji su nelinearni u procijenjenim parametrima, ali se mogu svesti na linearni oblik, metoda najmanjih kvadrata se primjenjuje na transformirane jednadžbe. Praktična upotreba logaritama i, shodno tome, eksponenata je moguća kada rezultirajući znak nema negativne vrijednosti. Prilikom proučavanja odnosa među funkcijama koristeći logaritam rezultantnog atributa, u ekonometriji prevladavaju zavisnosti po stepenu (krivulje potražnje i ponude, proizvodne funkcije, krive apsorpcije za karakterizaciju odnosa između intenziteta rada proizvoda, obima proizvodnje, ovisnosti BND na nivou zaposlenosti, Engelove krive).

28. Inverzni model i njegova upotreba

Ponekad se koristi takozvani inverzni model, koji je interno nelinearan, ali u njemu, za razliku od jednakostranične hiperbole, nije eksplanatorna varijabla podložna transformaciji, već rezultirajući atribut Y. Dakle, inverzni model ispada kao biti interno nelinearan i OLS zahtjev nije zadovoljen za stvarne vrijednosti rezultirajućeg atributa Y i za njihove inverzne vrijednosti. Proučavanje korelacije za nelinearnu regresiju zaslužuje posebnu pažnju. U opštem slučaju, parabola drugog stepena, poput polinoma višeg reda, kada se linearizira, poprima oblik jednačine višestruke regresije. Ako, kada je linearizovana, jednačina regresije koja je nelinearna u odnosu na objašnjenu varijablu ima oblik linearne uparene regresione jednadžbe, tada se linearni koeficijent korelacije može koristiti za procjenu bliskosti veze.

Ako su transformacije regresijske jednadžbe u linearni oblik povezane sa zavisnom varijablom (rezultativnom karakteristikom), tada koeficijent linearne korelacije zasnovan na transformiranim vrijednostima karakteristika daje samo približnu procjenu odnosa i ne numerički se poklapa sa indeks korelacije. Treba imati na umu da se pri izračunavanju indeksa korelacije koriste sumi kvadrata odstupanja rezultirajuće karakteristike Y, a ne njihovi logaritmi. Procjena značajnosti indeksa korelacije vrši se na isti način kao i procjena pouzdanosti (značajnosti) koeficijenta korelacije. Sam indeks korelacije, kao i indeks determinacije, koristi se za testiranje ukupnog značaja jednačine nelinearne regresije koristeći Fisher F test.

Imajte na umu da mogućnost konstruisanja nelinearnih modela, kako svođenjem na linearni oblik, tako i upotrebom nelinearne regresije, s jedne strane, povećava univerzalnost regresione analize. S druge strane, to značajno otežava zadatke istraživača. Ako se ograničimo na analizu uparene regresije, možemo prikazati zapažanja Y i X kao dijagram raspršenja. Često nekoliko različitih nelinearnih funkcija aproksimira opažanja ako leže na nekoj krivulji. Ali u slučaju analize višestruke regresije, takav graf se ne može konstruisati.

Kada se razmatraju alternativni modeli sa istom definicijom zavisne varijable, postupak odabira je relativno jednostavan. Može se procijeniti regresija na temelju svih vjerodostojnih funkcija koje se mogu zamisliti i odabrati funkciju koja najviše objašnjava promjenu zavisne varijable. Jasno je da kada linearna funkcija objašnjava približno 64% varijanse u y, a hiperbolička funkcija objašnjava 99,9%, očito bi trebalo odabrati potonju. Ali kada različiti modeli korištenjem različitih funkcionalnih oblika, problem odabira modela postaje znatno složeniji.

29. Korištenje Box-Cox testa.

Općenito, kada se razmatraju alternativni modeli sa istom definicijom zavisne varijable, izbor je jednostavan. Najrazumnije je procijeniti regresiju na osnovu svih vjerojatnih funkcija, fokusirajući se na funkciju koja najviše objašnjava promjenu zavisne varijable. Ako koeficijent determinacije mjeri, u jednom slučaju, udio varijanse objašnjene regresijom, au drugom udio varijanse u logaritmu ove zavisne varijable objašnjene regresijom, onda se izbor vrši bez poteškoća. Druga je stvar kada su ove vrijednosti za dva modela vrlo bliske i problem izbora postaje znatno složeniji.

Zatim treba primijeniti standardni postupak u obliku Box-Cox testa. Ako samo trebate uporediti modele koristeći efektivni faktor i njegov logaritam u obliku varijante zavisne varijable, tada se koristi verzija Zarembka testa. Predlaže transformaciju skale posmatranja Y, koja omogućava direktno poređenje srednje kvadratne greške (MSE) u linearnim i logaritamskim modelima. Odgovarajući postupak uključuje sljedeće korake:

    Izračunava se geometrijska sredina vrijednosti Y u uzorku, koja se poklapa sa eksponentom srednje vrijednosti aritmetičke vrijednosti logaritam od Y;

    Zapažanja Y se ponovo izračunavaju na način da se podijele s vrijednošću dobivenom u prvom koraku;

    Regresija se procjenjuje za linearni model koristeći skalirane Y vrijednosti umjesto originalnih Y vrijednosti, a za logaritamski model koristeći logaritam skaliranih Y vrijednosti. RMSE vrijednosti za dvije regresije su sada uporedive i stoga model sa manjim zbirom kvadrata odstupanja omogućava bolje uklapanje u pravi odnos posmatranih vrednosti;

    Da bi se provjerilo da jedan od modela ne pruža značajno bolje uklapanje, može se koristiti umnožak polovice broja promatranja i logaritma omjera vrijednosti standardne devijacije u ponovno izračunatim regresijama, a zatim uzeti apsolutnu vrijednost ove vrijednosti.

30. Koncepti interkorelacije i multikolinearnosti faktora.

34. Osnove MNK i valjanost njegove primjene.

Okrenimo se sada osnovama OLS-a, valjanosti njegove primjene (uključujući probleme višestruke regresije) i najvažnijim svojstvima procjena dobivenih korištenjem OLS-a. Počnimo s činjenicom da, uz analitičku ovisnost na desnoj strani jednadžba regresije Nasumični termin takođe igra važnu ulogu. Ova nasumična komponenta je veličina koja se ne može uočiti. Statistički testovi regresijskih parametara i indikatora korelacije sami se zasnivaju na neproverljivim pretpostavkama o distribuciji ove slučajne komponente višestruke regresije. Ove pretpostavke su samo preliminarne. Tek nakon konstruisanja regresione jednadžbe provjerava se da li procjene slučajnih reziduala (empirijski analogi slučajne komponente) imaju svojstva pretpostavljena a priori. U suštini, kada se procjenjuju parametri modela, izračunavaju se razlike između teorijske i stvarne vrijednosti rezultirajućeg atributa kako bi se na taj način procijenila sama slučajna komponenta. Važno je imati na umu da je ovo samo primjer implementacije nepoznatog ostatka date jednačine.

Regresijski koeficijenti dobijeni iz sistema normalnih jednačina su uzorke procjene jačine veze. Jasno je da oni imaju praktičan značaj samo kada su nepristrasni. Podsjetimo da je u ovom slučaju srednja vrijednost reziduala jednaka nuli, ili, što je isto, srednja vrijednost procjene jednaka je samom procijenjenom parametru. Tada se ostaci neće akumulirati kada veliki broj procjene uzorka, a sam pronađeni parametar regresije može se smatrati prosjekom velika količina nepristrasne procjene.

Osim toga, procjene bi trebale imati najmanju varijansu, tj. bude efikasna i tada postaje moguće preći sa praktično neupotrebljivih tačaka na procenu intervala. Konačno, intervali povjerenja su korisni kada je vjerovatnoća dobijanja procjene na datoj udaljenosti od prave (nepoznate) vrijednosti parametra blizu jedan. Takve procjene se nazivaju konzistentnim, a svojstvo konzistentnosti karakterizira povećanje njihove točnosti s povećanjem veličine uzorka.

Međutim, uslov konzistentnosti nije zadovoljen automatski i značajno zavisi od ispunjenja sledeća dva važna zahteva. Prvo, sami reziduali moraju biti stohastički sa najizraženijom slučajnošću, tj. sve jasno funkcionalne zavisnosti moraju biti posebno uključene u analitičku komponentu višestruke regresije, a osim toga, vrednosti reziduala moraju biti raspoređene nezavisno jedna od druge za različite uzorke (nema autokorelacije reziduala). Drugi, ne manje važan zahtjev je da varijansa svakog odstupanja (rezidualna) bude identična za sve vrijednosti X varijabli (homoskedastičnost). One. homoskedastičnost se izražava konstantnošću varijanse za sva opažanja:

Naprotiv, heteroskedastičnost je kršenje takve konstantnosti varijanse za različita opažanja. U ovom slučaju, apriorna (prije opažanja) vjerojatnost dobivanja vrlo devijantnih vrijednosti s različitim teorijskim distribucijama slučajnog člana za različita opažanja u uzorku će biti relativno visoka.

Autokorelacija reziduala, odnosno prisustvo korelacije između reziduala tekućih i prethodnih (naknadnih) opservacija, određena je vrijednošću uobičajenog linearnog koeficijenta korelacije. Ako se značajno razlikuje od nule, tada su reziduali autokorelirani i, stoga, funkcija gustoće vjerovatnoće (distribucija reziduala) ovisi o točki promatranja i o raspodjeli vrijednosti reziduala na drugim točkama promatranja. Pogodno je odrediti autokorelaciju reziduala koristeći dostupne statističke informacije ako postoji poređanje opservacija po faktoru X. Odsustvo autokorelacije reziduala osigurava konzistentnost i efektivnost procjena koeficijenata regresije.

35. Homoskedastičnost i heteroskedastičnost, autokorelacija reziduala, generalizirani najmanji kvadrati (GLM).

Istost varijansi reziduala za sve vrijednosti X varijabli, ili homoskedastičnost, također je apsolutno neophodna da bi se dobile konzistentne procjene parametara regresije korištenjem OLS-a. Neispunjavanje uslova homoskedastičnosti dovodi do takozvane heteroskedastičnosti. To može dovesti do pristrasnih procjena koeficijenata regresije. Heteroskedastičnost će uglavnom uticati na smanjenje efikasnosti procjena koeficijenta regresije. U ovom slučaju postaje posebno teško koristiti formulu za standardnu ​​grešku koeficijenta regresije, čija upotreba pretpostavlja jednoliku disperziju reziduala za bilo koje vrijednosti faktora. Što se tiče nepristrasnosti procjena regresijskih koeficijenata, ona prvenstveno ovisi o neovisnosti reziduala i vrijednosti samih faktora.

Prilično jasan, iako nerigorozan i koji zahtijeva vještine, način testiranja homoskedastičnosti je grafičko proučavanje prirode ovisnosti reziduala o prosječnom izračunatom (teorijskom) rezultantnom atributu, ili odgovarajućim poljima korelacije. Analitičke metode za proučavanje i procjenu heteroskedastičnosti su rigoroznije. Ako postoji značajno prisustvo heteroskedastičnosti, preporučljivo je koristiti generalizirani OLS (GLM) umjesto OLS.

Pored zahtjeva za višestruku regresiju koji proizilaze iz upotrebe OLS-a, potrebno je ispoštovati i uslove o varijablama uključenim u model. Oni, prije svega, uključuju zahtjeve u pogledu broja faktora modela za datu količinu opservacija (1 do 7). U suprotnom, parametri regresije će biti statistički beznačajni. Sa stanovišta efikasnosti korišćenja odgovarajućih numeričke metode pri implementaciji OLS-a potrebno je da broj opservacija bude veći od broja parametara koji se procjenjuju (u sistemu jednačina broj jednačina je veći od broja varijabli koje se traže).

Najznačajnije dostignuće ekonometrije je značajan razvoj metoda za procenu nepoznatih parametara i unapređenje kriterijuma za identifikaciju statičkog značaja efekata koji se razmatraju. S tim u vezi, nemogućnost ili nesvrsishodnost upotrebe tradicionalnog OLS-a zbog heteroskedastičnosti koja se manifestuje u različitom stepenu dovela je do razvoja generalizovanog OLS-a (GLM). U stvari, ovo uključuje prilagođavanje modela, promjenu njegove specifikacije i transformaciju originalnih podataka kako bi se osigurale nepristrasne, efikasne i konzistentne procjene koeficijenata regresije.

Pretpostavlja se da je prosjek reziduala nula, ali njihova disperzija više nije konstantna, već je proporcionalna vrijednostima K i, gdje su ove vrijednosti koeficijenti proporcionalnosti koji su različiti za različite vrijednosti faktor x. Dakle, ovi koeficijenti (vrijednosti K i) karakteriziraju heterogenost disperzije. Naravno, smatra se da je sama količina disperzije, koja je zajednički faktor za ove koeficijente proporcionalnosti, nepoznata.

Originalni model, nakon uvođenja ovih koeficijenata u jednadžbu višestruke regresije, nastavlja ostati heteroskedastičan (tačnije, to su rezidualne vrijednosti modela). Neka ovi ostaci (reziduali) nisu autokorelirani. Uvedemo nove varijable dobijene dijeljenjem početnih varijabli modela snimljenih kao rezultat i-tog opažanja kvadratnim korijenom koeficijenata proporcionalnosti K i . Tada dobijamo novu jednačinu u transformisanim varijablama u kojoj će reziduali biti homoskedastični. Nove varijable same su ponderisane stare (originalne) varijable.

Stoga će se procjena parametara nove jednadžbe dobijene na ovaj način sa homoskedastičkim rezidualima svesti na metodu ponderiranih najmanjih kvadrata (u suštini, ovo je OLS metoda). Kada se koriste umjesto samih regresijskih varijabli, njihova odstupanja od prosjeka, izrazi za koeficijente regresije poprimaju jednostavan i standardiziran (ujednačen) oblik, malo drugačiji za OLS i OLS po faktoru korekcije 1/K u brojniku i nazivniku razlomka koji daje koeficijent regresije.

Treba imati na umu da parametri transformisanog (prilagođenog) modela značajno zavise od toga koji se koncept koristi kao osnova za koeficijente proporcionalnosti K i. Često se pretpostavlja da su ostaci jednostavno proporcionalni vrijednostima faktora. Model dobija svoj najjednostavniji oblik kada se prihvati hipoteza da su greške proporcionalne vrijednostima posljednjeg faktora po redu. Tada OLS omogućava povećanje težine zapažanja s manjim vrijednostima transformiranih varijabli pri određivanju parametara regresije u odnosu na rad standardnog OLS-a s originalnim izvornim varijablama. Ali ove nove varijable već dobijaju drugačiji ekonomski sadržaj.

Hipoteza o proporcionalnosti reziduala prema veličini faktora može imati realnu osnovu. Neka se obrađuje određeni nedovoljno homogen skup podataka, na primjer, uključujući i velika i mala preduzeća u isto vrijeme. Tada velike volumetrijske vrijednosti faktora mogu odgovarati i velikoj disperziji rezultirajuće karakteristike i velikoj disperziji preostalih vrijednosti. Nadalje, korištenje OLS-a i odgovarajući prijelaz na relativne vrijednosti ne samo da smanjuje varijaciju faktora, već i smanjuje varijansu greške. Dakle, najjednostavniji slučaj uzimanja u obzir i korekcije heteroskedastičnosti u regresijskim modelima se ostvaruje upotrebom OLS-a.

Gore navedeni pristup implementaciji OLS-a u obliku ponderisanog OLS-a je prilično praktičan – jednostavno se implementira i ima transparentnu ekonomsku interpretaciju. Naravno, ovo nije najopštiji pristup, a u kontekstu matematičke statistike, koja služi kao teorijska osnova ekonometrije, nudi nam se mnogo rigorozniji metod koji implementira OLS u najopštijem obliku. U njemu morate znati matricu kovarijanse vektora greške (rezidualni stupac). A to je obično nepravedno u praktičnim situacijama i može biti nemoguće pronaći ovu matricu kao takvu. Stoga, općenito govoreći, potrebno je nekako procijeniti traženu matricu da bi se takva procjena koristila u odgovarajućim formulama umjesto same matrice. Dakle, opisana realizacija OMNC-a predstavlja jednu od takvih procjena. Ponekad se naziva pristupačnim generaliziranim najmanjim kvadratima.

Također treba uzeti u obzir da koeficijent determinacije ne može poslužiti kao zadovoljavajuća mjera kvalitete uklapanja pri korištenju OLS-a. Vraćajući se upotrebi OLS-a, takođe napominjemo da metoda korišćenja standardnih devijacija (standardnih grešaka) u White obliku (tzv. konzistentne standardne greške u prisustvu heteroskedastičnosti) ima dovoljnu opštost. Ova metoda je primjenjiva pod uvjetom da je matrica kovarijanse vektora greške dijagonalna. Ako postoji autokorelacija reziduala (greške), kada postoje različiti od nule elementi (koeficijenti) u matrici kovarijanse i izvan glavne dijagonale, tada treba koristiti opštiju metodu standardne greške u Neve West obliku. Postoji značajno ograničenje: elementi različiti od nule, pored glavne dijagonale, nalaze se samo na susjednim dijagonalama, udaljenim od glavne dijagonale ne više od određenog iznosa.

Iz navedenog je jasno da je potrebno biti u mogućnosti provjeriti podatke na heteroskedastičnost. U tu svrhu služe donji testovi. Oni testiraju glavnu hipotezu o jednakosti varijansi reziduala u odnosu na alternativnu hipotezu (o nejednakosti ovih hipoteza). Osim toga, postoje a priori strukturna ograničenja na prirodu heteroskedastičnosti. Goldfeld-Quandt test obično koristi pretpostavku da je varijansa greške (rezidualna) direktno zavisna od vrijednosti neke nezavisne varijable. Shema za korištenje ovog testa je sljedeća. Prvo, podaci se poredaju u opadajućem redosledu nezavisne varijable za koju se sumnja na heteroskedastičnost. Ovaj poredani skup podataka zatim eliminiše nekoliko prosječnih zapažanja, gdje riječ "nekoliko" znači oko četvrtinu (25%) ukupan broj sva zapažanja. Zatim se izvode dvije nezavisne regresije na prvom od preostalih (nakon eliminacije) prosječnih opservacija i posljednje dvije od ovih preostalih prosječnih opservacija. Nakon toga se konstruišu dva odgovarajuća ostatka. Konačno, sastavlja se Fisher F statistika i ako je hipoteza koja se proučava tačna, onda je F zaista Fisherova raspodjela sa odgovarajućim stupnjevima slobode. Tada velika vrijednost ove statistike znači da hipoteza koja se testira mora biti odbačena. Bez koraka eliminacije, snaga ovog testa je smanjena.

Breusch-Pagan test se koristi u slučajevima kada se a priori pretpostavlja da varijanse zavise od nekih dodatnih varijabli. Prvo se izvodi obična (standardna) regresija i dobija se vektor reziduala. Zatim se konstruiše procjena varijanse. Zatim se izvodi regresija kvadratnog vektora reziduala podijeljenog sa empirijskom varijansom (procjenom varijanse). Za nju (regresija) se nalazi objašnjeni dio varijacije. I za ovaj objašnjeni dio varijacije, podijeljen na pola, izgrađuje se statistika. Ako je nulta hipoteza tačna (nije tačna heteroskedastičnost), tada ova vrijednost ima distribuciju hee-kvadrat. Ako test, naprotiv, otkrije heteroskedastičnost, tada se originalni model transformira dijeljenjem komponenti vektora reziduala sa odgovarajućim komponentama vektora promatranih nezavisnih varijabli.

36. Metoda standardne devijacije u bijelom obliku.

Mogu se izvući sljedeći zaključci. Upotreba OLS-a u prisustvu heteroskedastičnosti svodi se na minimiziranje sume ponderisanih kvadratnih devijacija. Upotreba dostupnog OLS-a povezana je sa potrebom za velikim brojem opservacija koje premašuju broj procijenjenih parametara. Najpovoljniji slučaj za korištenje OLS-a je slučaj kada je greška (reziduali) proporcionalna jednoj od nezavisnih varijabli i rezultirajuće procjene su konzistentne. Ako je, ipak, u modelu s heteroskedastičnošću potrebno koristiti ne OLS, već standardni OLS, tada se za dobivanje konzistentnih procjena mogu koristiti procjene greške u bijelom ili Nevje-West obliku.

Prilikom analize vremenskih serija često je potrebno uzeti u obzir statističku zavisnost posmatranja u različitim vremenskim momentima. U ovom slučaju, pretpostavka nekoreliranih grešaka nije zadovoljena. Hajde da razmotrimo jednostavan model, u kojem greške formiraju autoregresivni proces prvog reda. U ovom slučaju, greške zadovoljavaju jednostavnu rekurentnu relaciju, na čijoj desnoj strani je jedan od članova niz nezavisnih normalno raspoređenih slučajnih varijabli sa nultom srednjom vrijednosti i konstantnom varijansom. Drugi pojam je proizvod parametra (koeficijent autoregresije) i vrijednosti reziduala u prethodnom trenutku. Sam niz vrijednosti greške (rezidua) čini stacionarni slučajni proces. Stacionarni slučajni proces karakteriše konstantnost njegovih karakteristika tokom vremena, posebno srednje vrednosti i varijanse. U ovom slučaju, kovarijansna matrica (njeni termini) koja nas zanima može se lako napisati korištenjem snaga parametra.

Procjena autoregresivnog modela za poznati parametar se izvodi pomoću OLS-a. U ovom slučaju, dovoljno je jednostavno svesti originalni model jednostavnom transformacijom u model čije greške zadovoljavaju uslove standardnog regresijskog modela. To je vrlo rijetko, ali ipak postoji situacija u kojoj je poznat parametar autoregresije. Stoga je općenito potrebno izvršiti procjenu s nepoznatim autoregresivnim parametrom. Postoje tri najčešće korištena postupka za takvu procjenu. Cochrane-Orcutt metoda, Hildreth-Lu procedura i Durbin metoda.

Općenito govoreći, slijedeći zaključci su tačni. Analiza vremenskih serija zahteva korekciju konvencionalnog OLS-a, pošto su greške u ovom slučaju obično povezane. Često ove greške formiraju stacionarni autoregresivni proces prvog reda. OLS estimatori za autoregresiju prvog reda su nepristrasni, konzistentni, ali neefikasni. Sa poznatim koeficijentom autoregresije, OLS se svodi na jednostavne transformacije (korekcije) originalnog sistema, a zatim na primenu standardnog OLS-a. Ako je, što je češći slučaj, koeficijent autoregresije nepoznat, tada je za OLS na raspolaganju nekoliko procedura koje se sastoje u procjeni nepoznatog parametra (koeficijenta), nakon čega se primjenjuju iste transformacije kao u prethodnom slučaju poznatog parametar.

37. Koncept Breusch-Pagan testa, Goldfeldt-Quandt test

Prosječna greška aproksimacije- prosječno odstupanje izračunatih vrijednosti od stvarnih:

Gdje je y x izračunata vrijednost iz jednadžbe.

Prosječna greška aproksimacije do 15% ukazuje na dobro prilagođen model jednačine.

Za sedam teritorija Uralske regije za 199X poznate su vrijednosti dvije karakteristike.

Obavezno:
1. Da biste okarakterizirali ovisnost y od x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) moć;
c) demonstrativna;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Procijenite svaki model do kraja prosječna greška aproksimacije A cf i Fišerov F-test.

Rješenje provodimo korištenjem online kalkulator Jednačina linearne regresije.
a) jednačina linearne regresije;
Korišćenjem grafičke metode.
Ova metoda se koristi za vizuelni prikaz oblika povezanosti proučavanih ekonomskih pokazatelja. Da biste to učinili, crta se graf u pravokutnom koordinatnom sistemu, pojedinačne vrijednosti rezultujuće karakteristike Y iscrtavaju se duž ordinatne ose, a pojedinačne vrijednosti faktorske karakteristike X crtaju se duž ose apscise.
Skup tačaka rezultantnih i faktorskih karakteristika se naziva korelaciono polje.


Na osnovu korelacionog polja, možemo pretpostaviti (za populaciju) da je odnos između svih mogućih vrijednosti X i Y linearan.
Jednačina linearne regresije je y = bx + a + ε
Ovdje je ε slučajna greška (odstupanje, poremećaj).
Razlozi za postojanje slučajne greške:
1. Neuključivanje značajnih objašnjavajućih varijabli u regresijski model;
2. Agregacija varijabli. Na primjer, funkcija ukupne potrošnje je pokušaj da se općenito izrazi zbir pojedinačnih odluka o potrošnji. Ovo je samo aproksimacija pojedinačnih odnosa koji imaju različite parametre.
3. Netačan opis strukture modela;
4. Neispravna funkcionalna specifikacija;
5. Greške u mjerenju.
Budući da su odstupanja ε i za svako specifično opažanje i slučajna i njihove vrijednosti u uzorku su nepoznate, tada:
1) iz opažanja x i i y i mogu se dobiti samo procjene parametara α i β
2) Procene parametara α i β regresionog modela su vrednosti a i b, respektivno, koje su slučajne prirode, jer odgovaraju slučajnom uzorku;
Tada će jednadžba regresije procjene (konstruirana iz podataka uzorka) imati oblik y = bx + a + ε, gdje su e i uočene vrijednosti (procjene) grešaka ε i , a a i b su procjene parametri α i β regresionog modela koji treba pronaći.
Za procjenu parametara α i β koristi se metoda najmanjih kvadrata (metoda najmanjih kvadrata).




Dobijamo b = -0,35, a = 76,88
Jednačina regresije:
y = -0,35 x + 76,88

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 |y - y x |:y
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Napomena: vrijednosti y(x) se nalaze iz rezultirajuće regresijske jednadžbe:
y(45.1) = -0.35*45.1 + 76.88 = 61.28
y(59) = -0,35*59 + 76,88 = 56,47
... ... ...

Greška aproksimacije
Procijenimo kvalitetu jednadžbe regresije koristeći grešku apsolutne aproksimacije. Prosječna greška aproksimacije- prosječno odstupanje izračunatih vrijednosti od stvarnih:

Pošto je greška manja od 15%, ova jednačina se može koristiti kao regresija.

F-statistika. Fisherov kriterijum.










3. Tabelarna vrijednost se utvrđuje iz Fisherove distributivne tablice za dati nivo značajnosti, uzimajući u obzir da je broj stupnjeva slobode za ukupan zbir kvadrata (veća varijansa) 1 i broj stupnjeva slobode za ostatak zbir kvadrata (manja varijansa) u linearnoj regresiji je n-2.
4. Ako je stvarna vrijednost F-testa manja od vrijednosti u tabeli, onda kažu da nema razloga za odbacivanje nulte hipoteze.
U suprotnom, nulta hipoteza se odbacuje i alternativna hipoteza o statističkom značaju jednačine u cjelini se prihvata s vjerovatnoćom (1-α).

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

b) regresija snage;
Rješenje se provodi pomoću usluge nelinearne regresije. Prilikom odabira navedite Snaga y = ax b
c) eksponencijalna regresija;
d) model jednakostranične hiperbole.
Sistem normalnih jednačina.

Za naše podatke sistem jednačina ima oblik
7a + 0,1291b = 405,2
0,1291a + 0,0024b = 7,51
Iz prve jednačine izražavamo a i zamjenjujemo ga u drugu jednačinu
Dobijamo b = 1054,67, a = 38,44
Jednačina regresije:
y = 1054,67 / x + 38,44
Greška aproksimacije.
Procijenimo kvalitetu jednadžbe regresije koristeći grešku apsolutne aproksimacije.

Pošto je greška manja od 15%, ova jednačina se može koristiti kao regresija.

Fisherov kriterijum.
Testiranje značaja regresijskog modela provodi se korištenjem Fišerovog F testa, čija se izračunata vrijednost nalazi kao omjer varijanse originalne serije zapažanja indikatora koji se proučava i nepristrasne procjene varijanse zaostalog niza za ovaj model.
Ako je izračunata vrijednost sa k1=(m) i k2=(n-m-1) stepenima slobode veća od tabelarne vrijednosti na datom nivou značajnosti, tada se model smatra značajnim.

gdje je m broj faktora u modelu.
Statistička značajnost uparene linearne regresije se procjenjuje korištenjem sljedećeg algoritma:
1. Postavlja se nulta hipoteza da je jednadžba u cjelini statistički beznačajna: H 0: R 2 =0 na nivou značajnosti α.
2. Zatim odredite stvarnu vrijednost F-kriterijuma:

gdje je m=1 za parnu regresiju.
Tabelarna vrijednost kriterija sa stupnjevima slobode k1=1 i k2=5, Fkp = 6,61
Budući da je stvarna vrijednost F< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”