Microsoft softverski paket kao efikasno sredstvo ekonometrijske analize. Proračun linearne regresije

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

  1. Procijenite kvalitetu izrađenog modela. Da li se kvalitet modela poboljšao u odnosu na jednofaktorski model? Dajte procjenu uticaja značajnih faktora na rezultat koristeći koeficijente elastičnosti, - i -koeficijenata.
Za procjenu kvaliteta odabranog višestrukog modela (6) , slično kao u tački 1.4 ovog problema, koristimo koeficijent determinacije R- na kvadrat, srednja relativna greška aproksimacije, i F- Fišerov kriterijum.

Koeficijent determinacije R- kvadrat uzimamo iz rezultata "Regresije" (tabela "Statistika regresije" za model (6)).

Dakle, varijacija (promjena) u cijeni stana Y 76,77% je objašnjeno ovom jednačinom varijacijom grada u regionu X 1 , broj soba u stanu X 2 i životni prostor X 4 .

Koristimo originalne podatke Y i i ostatke pronađene alatom Regresija (tabela "Zaključak ostatka" za model (6)). Izračunajte relativne greške i pronađite prosječnu vrijednost
.

PREOSTALO POVLAČENJE


Opservacija

Predviđeno Y

Ostaje

Rel. greška

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Prosjek

101,2375

22,51770962

Po koloni relativnih grešaka nalazimo prosječnu vrijednost =22.51% (koristeći funkciju AVERAGE).

Poređenje pokazuje da je 22,51%>7%. Stoga je tačnost modela nezadovoljavajuća.

Korišćenjem F – Fišerov kriterijum Provjerimo značaj modela u cjelini. Da bismo to učinili, ispisat ćemo iz rezultata korištenja alata "Regresija" (tablica "analiza varijanse" za model (6)) F= 39,6702.

Koristeći FDISP funkciju, nalazimo vrijednost F kr =3.252 za nivo značaja α = 5%, i brojevi stupnjeva slobode k 1 = 2 , k 2 = 37 .

F> F kr, dakle, jednačina modela (6) je značajna, njena upotreba je svrsishodna, zavisna varijabla Y je prilično dobro opisan faktorskim varijablama uključenim u model (6) X 1 , X 2. i X 4 .

Dodatno koristeći t –Učenički kriterijum Provjerimo značaj pojedinih koeficijenata modela.

t– statistika za koeficijente jednačine regresije data je u rezultatima alata "Regresija". Za odabrani model (6) dobijaju se sljedeće vrijednosti:


Odds

standardna greška

t-statistika

P-vrijednost

donjih 95%

Top 95%

Donji 95,0%

Top 95,0%

Y-raskrsnica

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

kritična vrijednost t kr pronađeno za nivo značajnosti α=5% i broj stepena slobode k=40–2–1=37 . t kr =2.026 (funkcija STEUDRESPO).

Za slobodni koeficijent α =–5.643 definisane statistike
, t kr, dakle, slobodni koeficijent nije značajan, može se isključiti iz modela.

Za koeficijent regresije β 1 =6.859 definisane statistike
, β 1 nije značajan, on i faktor područja grada mogu se ukloniti iz modela.

Za koeficijent regresije β 2 =-1,985 definisane statistike
, t kr, dakle koeficijent regresije β 2 nije značajan, on i faktor broja soba u stanu se mogu isključiti iz modela.

Za koeficijent regresije β 4 =2.591 definisane statistike
, >t cr, dakle, koeficijent regresije β 4 je značajan, on i faktor stambene površine stana mogu se pohraniti u model.

Zaključci o značajnosti koeficijenata modela donose se na nivou značajnosti α=5%. Uzimajući u obzir kolonu "P-vrijednost", imajte na umu da je slobodni koeficijent α može se smatrati značajnim na nivou od 0,64 = 64%; koeficijent regresije β 1 – na nivou od 0,46 = 46%; koeficijent regresije β 2 – na nivou od 0,8 = 80%; i koeficijent regresije β 4 – na nivou 2,27E-06= 2,26691790951854E-06 = 0,0000002%.

Prilikom dodavanja novih faktorskih varijabli u jednačinu, koeficijent determinacije se automatski povećava R 2 a prosječna greška aproksimacije se smanjuje, iako to ne poboljšava uvijek kvalitet modela. Stoga, za usporedbu kvaliteta modela (3) i odabranog višestrukog modela (6), koristimo normalizirane koeficijente determinacije.

Dakle, pri dodavanju faktora "grad regije" u regresionu jednačinu X 1 i faktor "broj soba u stanu" X 2, kvalitet modela je pogoršan, što govori u prilog uklanjanju faktora X 1 i X 2 iz modela.

Izvršimo dalje proračune.

Prosječni koeficijenti elastičnosti u slučaju linearnog modela određuju se formulama
.

Koristeći funkciju AVERAGE, nalazimo: S Y, uz povećanje samo faktora X 4 za jednu od svojih standardnih devijacija - povećava se za 0,914 S Y

Delta koeficijenti definisani su formulama
.

Pronađimo koeficijente korelacije parova pomoću alata "Korelacija" paketa "Analiza podataka" u Excel-u.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Koeficijent determinacije određen je ranije i iznosi 0,7677.

Izračunajmo delta koeficijente:

;

Pošto je Δ 1 1 i X 2 loše odabrane i potrebno ih je ukloniti iz modela. Dakle, prema jednačini dobijenog linearnog trofaktorskog modela, promjena rezultirajućeg faktora Y(cijena stana) je 104% zbog uticaja faktora X 4 (stambene površine stana), za 4% uticajem faktora X 2 (broj soba), za 0,0859% uticajem faktora X 1 (grad regije).

Regresiona analiza je statistička metoda istraživanja koja vam omogućava da pokažete ovisnost parametra o jednoj ili više nezavisnih varijabli. U predkompjuterskoj eri, njegova upotreba je bila prilično teška, posebno kada se radilo o velikim količinama podataka. Danas, nakon što ste naučili kako napraviti regresiju u Excelu, možete riješiti složene statističke probleme za samo nekoliko minuta. U nastavku su dati konkretni primjeri iz oblasti ekonomije.

Vrste regresije

Sam koncept je uveden u matematiku 1886. Regresija se dešava:

  • linearno;
  • parabolični;
  • snaga;
  • eksponencijalni;
  • hiperbolično;
  • demonstrativna;
  • logaritamski.

Primjer 1

Razmotrimo problem utvrđivanja zavisnosti broja penzionisanih članova tima od prosječne plate u 6 industrijskih preduzeća.

Zadatak. U šest preduzeća analizirali smo prosečnu mesečnu zaradu i broj zaposlenih koji su otišli samovoljno. U tabelarnom obliku imamo:

Broj ljudi koji su otišli

Plata

30000 rubalja

35000 rubalja

40000 rubalja

45000 rubalja

50000 rubalja

55000 rubalja

60000 rubalja

Za problem određivanja zavisnosti broja penzionisanih radnika od prosečne plate u 6 preduzeća, regresioni model ima oblik jednačine Y = a 0 + a 1 x 1 +…+a k x k , gde su x i uticajne varijable , a i su koeficijenti regresije, a k je broj faktora.

Za ovaj zadatak Y je indikator zaposlenih koji su otišli, a faktor koji utiče je plata koju označavamo sa X.

Korištenje mogućnosti proračunske tablice "Excel"

Regresionoj analizi u Excelu mora prethoditi primjena ugrađenih funkcija na dostupne tabelarne podatke. Međutim, u ove svrhe je bolje koristiti vrlo koristan dodatak "Analysis Toolkit". Da biste ga aktivirali potrebno vam je:

  • sa kartice "Datoteka" idite na odjeljak "Opcije";
  • u prozoru koji se otvori odaberite redak "Dodaci";
  • kliknite na dugme "Idi" koje se nalazi pri dnu, desno od linije "Upravljanje";
  • označite polje pored naziva "Paket analize" i potvrdite svoje radnje klikom na "OK".

Ako je sve urađeno kako treba, željeno dugme će se pojaviti na desnoj strani kartice Podaci, koja se nalazi iznad Excel radnog lista.

u Excelu

Sada kada imamo pri ruci sve potrebne virtuelne alate za izvođenje ekonometrijskih proračuna, možemo početi rješavati naš problem. Za ovo:

  • kliknite na dugme "Analiza podataka";
  • u prozoru koji se otvori kliknite na dugme "Regresija";
  • u kartici koja se pojavi unesite raspon vrijednosti za Y (broj zaposlenih koji su dali otkaz) i za X (njihove plate);
  • Svoje radnje potvrđujemo pritiskom na dugme "OK".

Kao rezultat, program će automatski popuniti novi list tabele sa podacima regresione analize. Bilješka! Excel ima mogućnost ručnog postavljanja željene lokacije u tu svrhu. Na primjer, to može biti isti list na kojem su vrijednosti Y i X, ili čak nova radna knjiga posebno dizajnirana za pohranjivanje takvih podataka.

Analiza rezultata regresije za R-kvadrat

U Excelu podaci dobijeni tokom obrade podataka razmatranog primjera izgledaju ovako:

Prije svega, treba obratiti pažnju na vrijednost R-kvadrata. To je koeficijent determinacije. U ovom primjeru R-kvadrat = 0,755 (75,5%), odnosno izračunati parametri modela objašnjavaju odnos između razmatranih parametara za 75,5%. Što je veća vrijednost koeficijenta determinacije, to je odabrani model primjenjiviji za određeni zadatak. Vjeruje se da ispravno opisuje stvarnu situaciju sa vrijednošću R-kvadrata iznad 0,8. Ako je R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza omjera

Broj 64.1428 pokazuje kolika će biti vrijednost Y ako su sve varijable xi u modelu koji razmatramo postavljene na nulu. Drugim riječima, može se tvrditi da na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u konkretnom modelu.

Sledeći koeficijent -0,16285, koji se nalazi u ćeliji B18, pokazuje težinu uticaja varijable X na Y. To znači da prosečna mesečna plata zaposlenih u okviru modela koji se razmatra utiče na broj onih koji odustaju sa ponderom od -0,16285, tj. stepen njenog uticaja uopšte mali. Znak "-" označava da koeficijent ima negativnu vrijednost. To je očigledno, jer svi znaju da što je veća plata u preduzeću, to manje ljudi izražava želju za raskidom ugovora o radu ili davanjem otkaza.

Višestruka regresija

Ovaj termin se odnosi na jednadžbu veze sa nekoliko nezavisnih varijabli oblika:

y \u003d f (x 1 + x 2 + ... x m) + ε, gdje je y efektivna karakteristika (zavisna varijabla), a x 1 , x 2 , ... x m su faktori faktori (nezavisne varijable).

Procjena parametara

Za višestruku regresiju (MR) provodi se metodom najmanjih kvadrata (OLS). Za linearne jednadžbe oblika Y = a + b 1 x 1 +…+b m x m + ε, konstruiramo sistem normalnih jednačina (vidi dolje)

Da biste razumjeli princip metode, razmotrite dvofaktorski slučaj. Tada imamo situaciju opisanu formulom

Odavde dobijamo:

gdje je σ varijansa odgovarajuće karakteristike prikazane u indeksu.

LSM je primjenjiv na MP jednačinu na standardiziranoj skali. U ovom slučaju dobijamo jednačinu:

gdje su t y , t x 1, … t xm standardizirane varijable za koje su srednje vrijednosti 0; β i su standardizirani koeficijenti regresije, a standardna devijacija je 1.

Napominjemo da su svi β i u ovom slučaju postavljeni kao normalizirani i centralizirani, pa se njihovo međusobno poređenje smatra ispravnim i dopuštenim. Osim toga, uobičajeno je filtrirati faktore, odbacujući one s najmanjim vrijednostima βi.

Problem korištenjem jednadžbe linearne regresije

Pretpostavimo da postoji tabela dinamike cijena određenog proizvoda N tokom posljednjih 8 mjeseci. Potrebno je donijeti odluku o preporučljivosti kupovine njegove serije po cijeni od 1850 rubalja/t.

broj mjeseca

naziv mjeseca

cijena artikla N

1750 rubalja po toni

1755 rubalja po toni

1767 rubalja po toni

1760 rubalja po toni

1770 rubalja po toni

1790 rubalja po toni

1810 rubalja po toni

1840 rubalja po toni

Da biste riješili ovaj problem u Excel tabeli, trebate koristiti alat za analizu podataka koji je već poznat iz gornjeg primjera. Zatim odaberite odjeljak "Regresija" i postavite parametre. Mora se imati na umu da se u polje "Input interval Y" mora unijeti raspon vrijednosti za zavisnu varijablu (u ovom slučaju cijena proizvoda u određenim mjesecima u godini), a u "Input interval X" - za nezavisnu varijablu (broj mjeseca). Potvrdite akciju klikom na "U redu". Na novom listu (ako je tako naznačeno) dobijamo podatke za regresiju.

Na osnovu njih gradimo linearnu jednačinu oblika y=ax+b, gde su parametri a i b koeficijenti reda sa nazivom broja meseca i koeficijentima i reda „Y-presek“ iz list sa rezultatima regresione analize. Dakle, jednadžba linearne regresije (LE) za problem 3 se piše kao:

Cijena proizvoda N = 11.714* broj mjeseca + 1727.54.

ili u algebarskoj notaciji

y = 11,714 x + 1727,54

Analiza rezultata

Da bi se odlučilo da li je rezultirajuća jednačina linearne regresije adekvatna, koriste se višestruki koeficijenti korelacije (MCC) i koeficijenti determinacije, kao i Fisherov test i Studentov test. U Excel tabeli sa rezultatima regresije, oni se pojavljuju pod nazivima višestrukih R, R-kvadrata, F-statistike i t-statistike, respektivno.

KMC R omogućava procjenu čvrstoće vjerovatnoće odnosa između nezavisnih i zavisnih varijabli. Njegova visoka vrijednost ukazuje na prilično jaku vezu između varijabli "Broj mjeseca" i "Cijena robe N u rubljama po 1 toni". Međutim, priroda ovog odnosa ostaje nepoznata.

Kvadrat koeficijenta determinacije R 2 (RI) je numerička karakteristika udjela u ukupnom raspršenju i prikazuje čiji dio eksperimentalnih podataka, tj. vrijednosti zavisne varijable odgovaraju jednadžbi linearne regresije. U problemu koji se razmatra ova vrijednost je jednaka 84,8%, odnosno statistički podaci su opisani sa visokim stepenom tačnosti dobijenim SD.

F-statistika, koja se naziva i Fišerov test, koristi se za procjenu značaja linearne veze, pobijajući ili potvrđujući hipotezu o njenom postojanju.

(Studentov kriterijum) pomaže da se proceni značaj koeficijenta sa nepoznatim ili slobodnim članom linearne veze. Ako je vrijednost t-kriterijuma > t cr, onda se hipoteza o beznačajnosti slobodnog člana linearne jednačine odbacuje.

U zadatku koji se razmatra za slobodni član, korišćenjem Excel alata, dobijeno je da je t = 169,20903, i p = 2,89E-12, odnosno da imamo nultu verovatnoću da će tačna hipoteza o beznačajnosti slobodnog člana biti odbijen. Za koeficijent na nepoznatom t=5,79405, i p=0,001158. Drugim riječima, vjerovatnoća da će tačna hipoteza o beznačajnosti koeficijenta za nepoznato biti odbačena je 0,12%.

Stoga se može tvrditi da je rezultirajuća jednačina linearne regresije adekvatna.

Problem svrsishodnosti kupovine paketa akcija

Višestruka regresija u Excelu se izvodi pomoću istog alata za analizu podataka. Razmotrite konkretan primijenjen problem.

Uprava NNN-a mora donijeti odluku o preporučljivosti kupovine 20% udjela u MMM SA. Cijena paketa (JV) je 70 miliona američkih dolara. Stručnjaci NNN-a prikupili su podatke o sličnim transakcijama. Odlučeno je da se vrijednost paketa dionica procijeni prema takvim parametrima, izraženim u milionima američkih dolara, kao što su:

  • obaveze prema dobavljačima (VK);
  • godišnji promet (VO);
  • potraživanja (VD);
  • trošak osnovnih sredstava (SOF).

Pored toga, koristi se parametar zaostale obaveze preduzeća (V3 P) u hiljadama američkih dolara.

Rješenje pomoću Excel tabele

Prije svega, potrebno je kreirati tabelu početnih podataka. izgleda ovako:

  • pozovite prozor "Analiza podataka";
  • odaberite odjeljak "Regresija";
  • u polje "Input interval Y" unesite raspon vrijednosti zavisnih varijabli iz stupca G;
  • kliknite na ikonu sa crvenom strelicom desno od prozora "Input interval X" i odaberite raspon svih vrijednosti ​​iz kolona B, C, D, F na listu.

Odaberite "Novi radni list" i kliknite "U redu".

Nabavite regresionu analizu za dati problem.

Ispitivanje rezultata i zaključaka

"Prikupljamo" iz zaokruženih podataka predstavljenih gore na Excel tablici, regresijska jednačina:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

U poznatijem matematičkom obliku, može se napisati kao:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Podaci za AD "MMM" prikazani su u tabeli:

Zamjenjujući ih u jednadžbu regresije, dobijaju cifru od 64,72 miliona američkih dolara. To znači da akcije AD MMM ne treba kupovati, jer je njihova vrijednost od 70 miliona američkih dolara prilično precijenjena.

Kao što vidite, upotreba Excel tabele i regresione jednadžbe omogućila je donošenje informirane odluke u vezi izvodljivosti vrlo specifične transakcije.

Sada znate šta je regresija. Gore navedeni primjeri u Excelu pomoći će vam u rješavanju praktičnih problema iz područja ekonometrije.

Višestruki koeficijent korelacije koristi se kao mjera stepena bliskosti statističke veze između rezultirajućeg indikatora (zavisne varijable) y i skup eksplanatornih (nezavisnih) varijabli ili, drugim riječima, procjenjuje bliskost zajedničkog uticaja faktora na rezultat.

Koeficijent višestruke korelacije može se izračunati iz niza formula 5 , uključujući:

    koristeći matricu parnih koeficijenata korelacije

, (3.18)

gdje je  r- determinanta matrice parnih koeficijenata korelacije y,
,

r 11 - determinanta interfaktorske korelacione matrice
;

. (3.19)

Za model u kojem postoje dvije nezavisne varijable, formula (3.18) je pojednostavljena

. (3.20)

Kvadrat koeficijenta višestruke korelacije je koeficijent determinacije R 2. Kao iu slučaju parne regresije, R 2 ukazuje na kvalitetu regresijskog modela i odražava udio ukupne varijacije rezultirajuće osobine y objašnjava promjenom funkcije regresije f(x) (vidi 2.4). Osim toga, koeficijent determinacije se može naći po formuli

. (3.21)

Međutim, upotreba R 2 u slučaju višestruke regresije nije sasvim tačna, jer se koeficijent determinacije povećava kada se regresori dodaju u model. To je zato što se rezidualna varijansa smanjuje kako se uvode dodatne varijable. A ako se broj faktora približi broju zapažanja, tada će rezidualna varijansa biti nula, a koeficijent višestruke korelacije, a time i koeficijent determinacije, približit će se jedinici, iako je u stvarnosti odnos između faktora i rezultata i rezultata moć objašnjenja regresione jednačine može biti mnogo manja.

Da biste dobili adekvatnu procjenu koliko je varijacija rezultirajuće osobine objašnjena varijacijom nekoliko faktorskih osobina, primijenite prilagođeni koeficijent determinacije

(3.22)

Prilagođeni koeficijent determinacije je uvijek manji R 2. Štaviše, za razliku od R 2 što je uvijek pozitivno,
može imati i negativnu vrijednost.

Primjer (nastavak primjera 1). Izračunajmo koeficijent višestruke korelacije, prema formuli (3.20):

Vrijednost koeficijenta višestruke korelacije, jednaka 0,8601, ukazuje na jaku vezu između cijene transporta i težine tereta i udaljenosti na kojoj se transportuje.

Koeficijent determinacije je jednak: R 2 =0,7399.

Prilagođeni koeficijent determinacije izračunava se po formuli (3.22):

=0,7092.

Imajte na umu da se vrijednost prilagođenog koeficijenta determinacije razlikuje od vrijednosti koeficijenta determinacije.

Tako se 70,9% varijacije zavisne varijable (troškovi transporta) objašnjava varijacijom nezavisnih varijabli (težina tereta i udaljenost transporta). Preostalih 29,1% varijacije zavisne varijable se objašnjava faktorima koji nisu uzeti u obzir u modelu.

Vrijednost prilagođenog koeficijenta determinacije je prilično velika, pa smo u modelu mogli uzeti u obzir najznačajnije faktore koji određuju troškove transporta. 

REZULTATI

Tabela 8.3a. Statistika regresije
Statistika regresije
Višestruki R 0,998364
R-kvadrat 0,99673
Normalizovani R-kvadrat 0,996321
standardna greška 0,42405
Zapažanja 10

Pogledajmo prvo gornji dio proračuna predstavljenih u Tabeli 8.3a, statistiku regresije.

Vrijednost R-kvadrat, također nazvana mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremima, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedan, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Nasuprot tome, vrijednost R-kvadrata blizu nule znači loš kvalitet konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R je jednak kvadratnom korijenu koeficijenta determinacije, ova vrijednost ima vrijednosti u rasponu od nula do jedan.

U jednostavnoj linearnoj regresionoj analizi, višestruki R je jednak Pearsonovom koeficijentu korelacije. Zaista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti
Odds standardna greška t-statistika
Y-raskrsnica 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Navedena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna prikazanih u tabeli 8.3b. Ovdje je dat koeficijent regresije b (2,305454545) i pomak duž y-ose, tj. konstanta a (2,694545455).

Na osnovu proračuna, možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu znakova (negativnih ili pozitivnih) koeficijenti regresije(koeficijent b).

Ako je znak na koeficijent regresije- pozitivan, odnos zavisne varijable sa nezavisnom će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tabeli 8.3c. prikazani su rezultati izlaza reziduala. Da bi se ovi rezultati pojavili u izvještaju, potrebno je aktivirati checkbox "Residuals" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tabela 8.3c. Ostaje
Opservacija Predviđeno Y Ostaje Standardni bilansi
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruirane linije regresije. Najveća apsolutna vrijednost

Izgradnja linearne regresije, procjena njenih parametara i njihovog značaja može se obaviti mnogo brže kada se koristi Excel paket za analizu (Regression). Razmotrimo interpretaciju dobijenih rezultata u opštem slučaju ( k eksplanatorne varijable) prema primjeru 3.6.

Table regresijska statistika date su vrijednosti:

Višestruko R – koeficijent višestruke korelacije;

R- kvadrat- koeficijent odlučnosti R 2 ;

Normalizovano R - kvadrat- prilagođeno R 2 prilagođen broju stupnjeva slobode;

standardna greška je standardna greška regresije S;

Zapažanja - broj zapažanja n.

Table Analiza varijanse dato:

1. Kolona df - broj stepeni slobode, jednak

za niz Regresija df = k;

za niz Ostatakdf = nk – 1;

za niz Ukupnodf = n– 1.

2. Kolona SS- zbir kvadrata odstupanja, jednak

za niz Regresija ;

za niz Ostatak ;

za niz Ukupno .

3. Kolona GOSPOĐA varijanse određene formulom GOSPOĐA = SS/df:

za niz Regresija– faktorska varijansa;

za niz Ostatak je rezidualna varijansa.

4. Kolona F - izračunata vrijednost F-kriterijumi izračunati po formuli

F = GOSPOĐA(regresija)/ GOSPOĐA(ostatak).

5. Kolona Značaj F je vrijednost nivoa značajnosti koja odgovara izračunatoj F-statistika .

Značaj F= FRIST( F- statistika, df(regresija), df(ostatak)).

Ako značaj F < стандартного уровня значимости, то R 2 je statistički značajno.

Koeficijenti standardna greška t-statistika p-vrijednost donjih 95% Top 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Ova tabela prikazuje:

1. Odds– vrijednosti koeficijenata a, b.

2. Standardna greška su standardne greške koeficijenata regresije S a, Sb.



3. t- statistika– izračunate vrijednosti t -kriterijumi izračunati po formuli:

t-statistic = Koeficijenti / Standardna greška.

4.R-vrijednost (značaj t) je vrijednost nivoa značajnosti koji odgovara izračunatom t- statistika.

R-vrijednost= STUDRASP(t-statistika, df(ostatak)).

Ako a R-značenje< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Donjih 95% i gornjih 95% su donja i gornja granica 95% intervala povjerenja za koeficijente teorijske jednačine linearne regresije.

PREOSTALO POVLAČENJE
Opservacija Predviđeno y Ostaje e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Table PREOSTALO POVLAČENJE naznačeno:

u koloni Opservacija– broj posmatranja;

u koloni predviđeno y su izračunate vrijednosti zavisne varijable;

u koloni Ostaje e je razlika između posmatrane i izračunate vrednosti zavisne varijable.

Primjer 3.6. Dostupni podaci (arb. jedinice) o izdacima za hranu y i dohodak po glavi stanovnika x za devet grupa porodica:

x
y

Koristeći rezultate Excel paketa analize (Regresija), analiziramo zavisnost troškova hrane od vrijednosti dohotka po glavi stanovnika.

Rezultati regresione analize se obično pišu kao:

gdje su u zagradama standardne greške koeficijenata regresije.

Regresijski koeficijenti a = 65,92 i b= 0,107. Smjer komunikacije između y i x određuje predznak koeficijenta regresije b= 0,107, tj. odnos je direktan i pozitivan. Koeficijent b= 0,107 pokazuje da sa povećanjem dohotka po glavi stanovnika za 1 arb. jedinice troškovi hrane rastu za 0,107 konv. jedinice

Procijenimo značaj koeficijenata dobijenog modela. Značaj koeficijenata ( a, b) se provjerava t- test:

p-vrijednost ( a) = 0,00080 < 0,01 < 0,05

p-vrijednost ( b) = 0,00016 < 0,01 < 0,05,

dakle koeficijenti ( a, b) su značajni na nivou od 1%, a još više na nivou značajnosti od 5%. Dakle, koeficijenti regresije su značajni i model je adekvatan originalnim podacima.

Rezultati procjene regresije su kompatibilni ne samo sa dobivenim vrijednostima koeficijenata regresije, već i sa nekim od njihovog skupa (interval pouzdanosti). Sa vjerovatnoćom od 95%, intervali povjerenja za koeficijente su (38,16 - 93,68) za a i (0,0728 - 0,142) za b.

Kvaliteta modela se ocjenjuje koeficijentom determinacije R 2 .

Vrijednost R 2 = 0,884 znači da faktor dohotka po glavi stanovnika može objasniti 88,4% varijacije (raspršenosti) u potrošnji na hranu.

Značaj R 2 provjerio F- test: značaj F = 0,00016 < 0,01 < 0,05, следовательно, R 2 je značajan na nivou od 1%, a još više na nivou značajnosti od 5%.

U slučaju parne linearne regresije, koeficijent korelacije se može definirati kao . Dobijena vrijednost koeficijenta korelacije ukazuje da je veza između izdataka za hranu i dohotka po glavi stanovnika veoma bliska.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu "parkvak.ru".