Procijenite kvalitetu izrađenog modela. Da li se kvalitet modela poboljšao u odnosu na jednofaktorski model? Dajte procjenu uticaja značajnih faktora na rezultat koristeći koeficijente elastičnosti, - i -koeficijenata.
Koeficijent determinacije R- kvadrat uzimamo iz rezultata "Regresije" (tabela "Statistika regresije" za model (6)).
Dakle, varijacija (promjena) u cijeni stana Y 76,77% je objašnjeno ovom jednačinom varijacijom grada u regionu X 1 , broj soba u stanu X 2 i životni prostor X 4 .
Koristimo originalne podatke Y i i ostatke pronađene alatom Regresija (tabela "Zaključak ostatka" za model (6)). Izračunajte relativne greške i pronađite prosječnu vrijednost
.
PREOSTALO POVLAČENJE
Opservacija | Predviđeno Y | Ostaje | Rel. greška |
1 | 45,95089273 | -7,95089273 | 20,92340192 |
2 | 86,10296493 | -23,90296493 | 38,42920407 |
3 | 94,84442678 | 30,15557322 | 24,12445858 |
4 | 84,17648426 | -23,07648426 | 37,76838667 |
5 | 40,2537216 | 26,7462784 | 39,91981851 |
6 | 68,70572376 | 24,29427624 | 26,12287768 |
7 | 143,7464899 | -25,7464899 | 21,81905923 |
8 | 106,0907598 | 25,90924022 | 19,62821228 |
9 | 135,357993 | -42,85799303 | 46,33296544 |
10 | 114,4792566 | -9,47925665 | 9,027863476 |
11 | 41,48765602 | 0,512343975 | 1,219866607 |
12 | 103,2329236 | 21,76707636 | 17,41366109 |
13 | 130,3567798 | 39,64322022 | 23,3195413 |
14 | 35,41901876 | 2,580981242 | 6,7920559 |
15 | 155,4129693 | -24,91296925 | 19,0903979 |
16 | 84,32108188 | 0,678918123 | 0,798727204 |
17 | 98,0552279 | -0,055227902 | 0,056355002 |
18 | 144,2104618 | -16,21046182 | 12,66442329 |
19 | 122,8677535 | -37,86775351 | 44,55029825 |
20 | 100,0221225 | 59,97787748 | 37,48617343 |
21 | 53,27196558 | 6,728034423 | 11,21339071 |
22 | 35,06605378 | 5,933946225 | 14,47303957 |
23 | 114,4792566 | -24,47925665 | 27,19917406 |
24 | 113,1343153 | -30,13431529 | 36,30640396 |
25 | 40,43190991 | 4,568090093 | 10,15131132 |
26 | 39,34427892 | -0,344278918 | 0,882766457 |
27 | 144,4794501 | -57,57945009 | 66,25943623 |
28 | 56,4827667 | -16,4827667 | 41,20691675 |
29 | 95,38240332 | -15,38240332 | 19,22800415 |
30 | 228,6988826 | -1,698882564 | 0,748406416 |
31 | 222,8067278 | 12,19327221 | 5,188626473 |
32 | 38,81483144 | 1,185168555 | 2,962921389 |
33 | 48,36325811 | 18,63674189 | 27,81603267 |
34 | 126,6080021 | -3,608002113 | 2,933335051 |
35 | 84,85052935 | 15,14947065 | 15,14947065 |
36 | 116,7991162 | -11,79911625 | 11,23725357 |
37 | 84,17648426 | -13,87648426 | 19,73895342 |
38 | 113,9412801 | -31,94128011 | 38,95278062 |
39 | 215,494184 | 64,50581599 | 23,03779142 |
40 | 141,7795953 | 58,22040472 | 29,11020236 |
Prosjek | 101,2375 | 22,51770962 |
Po koloni relativnih grešaka nalazimo prosječnu vrijednost =22.51% (koristeći funkciju AVERAGE).
Poređenje pokazuje da je 22,51%>7%. Stoga je tačnost modela nezadovoljavajuća.
Korišćenjem F – Fišerov kriterijum Provjerimo značaj modela u cjelini. Da bismo to učinili, ispisat ćemo iz rezultata korištenja alata "Regresija" (tablica "analiza varijanse" za model (6)) F= 39,6702.
Koristeći FDISP funkciju, nalazimo vrijednost F kr =3.252 za nivo značaja α = 5%, i brojevi stupnjeva slobode k 1 = 2 , k 2 = 37 .
F> F kr, dakle, jednačina modela (6) je značajna, njena upotreba je svrsishodna, zavisna varijabla Y je prilično dobro opisan faktorskim varijablama uključenim u model (6) X 1 , X 2. i X 4 .
Dodatno koristeći t –Učenički kriterijum Provjerimo značaj pojedinih koeficijenata modela.
t– statistika za koeficijente jednačine regresije data je u rezultatima alata "Regresija". Za odabrani model (6) dobijaju se sljedeće vrijednosti:
Odds | standardna greška | t-statistika | P-vrijednost | donjih 95% | Top 95% | Donji 95,0% | Top 95,0% |
|
Y-raskrsnica | -5,643572321 | 12,07285417 | -0,46745966 | 0,642988 | -30,1285 | 18,84131 | -30,1285 | 18,84131 |
X4 | 2,591405557 | 0,461440597 | 5,61590284 | 2.27E-06 | 1,655561 | 3,52725 | 1,655561 | 3,52725 |
X1 | 6,85963077 | 9,185748512 | 0,74676884 | 0,460053 | -11,7699 | 25,48919 | -11,7699 | 25,48919 |
X2 | -1,985156991 | 7,795346067 | -0,25465925 | 0,800435 | -17,7949 | 13,82454 | -17,7949 | 13,82454 |
kritična vrijednost t kr pronađeno za nivo značajnosti α=5% i broj stepena slobode k=40–2–1=37 . t kr =2.026 (funkcija STEUDRESPO).
Za slobodni koeficijent α
=–5.643
definisane statistike ,
t kr, dakle, slobodni koeficijent nije značajan, može se isključiti iz modela.
Za koeficijent regresije β
1
=6.859
definisane statistike ,
β
1
nije značajan, on i faktor područja grada mogu se ukloniti iz modela.
Za koeficijent regresije β
2
=-1,985
definisane statistike ,
t kr, dakle koeficijent regresije β
2
nije značajan, on i faktor broja soba u stanu se mogu isključiti iz modela.
Za koeficijent regresije β
4
=2.591
definisane statistike ,
>t cr, dakle, koeficijent regresije β
4
je značajan, on i faktor stambene površine stana mogu se pohraniti u model.
Zaključci o značajnosti koeficijenata modela donose se na nivou značajnosti α=5%. Uzimajući u obzir kolonu "P-vrijednost", imajte na umu da je slobodni koeficijent α može se smatrati značajnim na nivou od 0,64 = 64%; koeficijent regresije β 1 – na nivou od 0,46 = 46%; koeficijent regresije β 2 – na nivou od 0,8 = 80%; i koeficijent regresije β 4 – na nivou 2,27E-06= 2,26691790951854E-06 = 0,0000002%.
Prilikom dodavanja novih faktorskih varijabli u jednačinu, koeficijent determinacije se automatski povećava R 2
a prosječna greška aproksimacije se smanjuje, iako to ne poboljšava uvijek kvalitet modela. Stoga, za usporedbu kvaliteta modela (3) i odabranog višestrukog modela (6), koristimo normalizirane koeficijente determinacije.
Dakle, pri dodavanju faktora "grad regije" u regresionu jednačinu X 1 i faktor "broj soba u stanu" X 2, kvalitet modela je pogoršan, što govori u prilog uklanjanju faktora X 1 i X 2 iz modela.
Izvršimo dalje proračune.
Prosječni koeficijenti elastičnosti
u slučaju linearnog modela određuju se formulama .
Koristeći funkciju AVERAGE, nalazimo: S Y, uz povećanje samo faktora X 4 za jednu od svojih standardnih devijacija - povećava se za 0,914 S Y
Delta koeficijenti
definisani su formulama .
Pronađimo koeficijente korelacije parova pomoću alata "Korelacija" paketa "Analiza podataka" u Excel-u.
Y | X1 | X2 | X4 |
|
Y | 1 | |||
X1 | -0,01126 | 1 | ||
X2 | 0,751061 | -0,0341 | 1 | |
X4 | 0,874012 | -0,0798 | 0,868524 | 1 |
Koeficijent determinacije određen je ranije i iznosi 0,7677.
Izračunajmo delta koeficijente:
;
Pošto je Δ 1 1
i X 2
loše odabrane i potrebno ih je ukloniti iz modela. Dakle, prema jednačini dobijenog linearnog trofaktorskog modela, promjena rezultirajućeg faktora Y(cijena stana) je 104% zbog uticaja faktora X 4
(stambene površine stana), za 4% uticajem faktora X 2
(broj soba), za 0,0859% uticajem faktora X 1
(grad regije).
Regresiona analiza je statistička metoda istraživanja koja vam omogućava da pokažete ovisnost parametra o jednoj ili više nezavisnih varijabli. U predkompjuterskoj eri, njegova upotreba je bila prilično teška, posebno kada se radilo o velikim količinama podataka. Danas, nakon što ste naučili kako napraviti regresiju u Excelu, možete riješiti složene statističke probleme za samo nekoliko minuta. U nastavku su dati konkretni primjeri iz oblasti ekonomije.
Vrste regresije
Sam koncept je uveden u matematiku 1886. Regresija se dešava:
- linearno;
- parabolični;
- snaga;
- eksponencijalni;
- hiperbolično;
- demonstrativna;
- logaritamski.
Primjer 1
Razmotrimo problem utvrđivanja zavisnosti broja penzionisanih članova tima od prosječne plate u 6 industrijskih preduzeća.
Zadatak. U šest preduzeća analizirali smo prosečnu mesečnu zaradu i broj zaposlenih koji su otišli samovoljno. U tabelarnom obliku imamo:
Broj ljudi koji su otišli | Plata |
||
30000 rubalja |
|||
35000 rubalja |
|||
40000 rubalja |
|||
45000 rubalja |
|||
50000 rubalja |
|||
55000 rubalja |
|||
60000 rubalja |
Za problem određivanja zavisnosti broja penzionisanih radnika od prosečne plate u 6 preduzeća, regresioni model ima oblik jednačine Y = a 0 + a 1 x 1 +…+a k x k , gde su x i uticajne varijable , a i su koeficijenti regresije, a k je broj faktora.
Za ovaj zadatak Y je indikator zaposlenih koji su otišli, a faktor koji utiče je plata koju označavamo sa X.
Korištenje mogućnosti proračunske tablice "Excel"
Regresionoj analizi u Excelu mora prethoditi primjena ugrađenih funkcija na dostupne tabelarne podatke. Međutim, u ove svrhe je bolje koristiti vrlo koristan dodatak "Analysis Toolkit". Da biste ga aktivirali potrebno vam je:
- sa kartice "Datoteka" idite na odjeljak "Opcije";
- u prozoru koji se otvori odaberite redak "Dodaci";
- kliknite na dugme "Idi" koje se nalazi pri dnu, desno od linije "Upravljanje";
- označite polje pored naziva "Paket analize" i potvrdite svoje radnje klikom na "OK".
Ako je sve urađeno kako treba, željeno dugme će se pojaviti na desnoj strani kartice Podaci, koja se nalazi iznad Excel radnog lista.
u Excelu
Sada kada imamo pri ruci sve potrebne virtuelne alate za izvođenje ekonometrijskih proračuna, možemo početi rješavati naš problem. Za ovo:
- kliknite na dugme "Analiza podataka";
- u prozoru koji se otvori kliknite na dugme "Regresija";
- u kartici koja se pojavi unesite raspon vrijednosti za Y (broj zaposlenih koji su dali otkaz) i za X (njihove plate);
- Svoje radnje potvrđujemo pritiskom na dugme "OK".
Kao rezultat, program će automatski popuniti novi list tabele sa podacima regresione analize. Bilješka! Excel ima mogućnost ručnog postavljanja željene lokacije u tu svrhu. Na primjer, to može biti isti list na kojem su vrijednosti Y i X, ili čak nova radna knjiga posebno dizajnirana za pohranjivanje takvih podataka.
Analiza rezultata regresije za R-kvadrat
U Excelu podaci dobijeni tokom obrade podataka razmatranog primjera izgledaju ovako:
Prije svega, treba obratiti pažnju na vrijednost R-kvadrata. To je koeficijent determinacije. U ovom primjeru R-kvadrat = 0,755 (75,5%), odnosno izračunati parametri modela objašnjavaju odnos između razmatranih parametara za 75,5%. Što je veća vrijednost koeficijenta determinacije, to je odabrani model primjenjiviji za određeni zadatak. Vjeruje se da ispravno opisuje stvarnu situaciju sa vrijednošću R-kvadrata iznad 0,8. Ako je R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.
Analiza omjera
Broj 64.1428 pokazuje kolika će biti vrijednost Y ako su sve varijable xi u modelu koji razmatramo postavljene na nulu. Drugim riječima, može se tvrditi da na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u konkretnom modelu.
Sledeći koeficijent -0,16285, koji se nalazi u ćeliji B18, pokazuje težinu uticaja varijable X na Y. To znači da prosečna mesečna plata zaposlenih u okviru modela koji se razmatra utiče na broj onih koji odustaju sa ponderom od -0,16285, tj. stepen njenog uticaja uopšte mali. Znak "-" označava da koeficijent ima negativnu vrijednost. To je očigledno, jer svi znaju da što je veća plata u preduzeću, to manje ljudi izražava želju za raskidom ugovora o radu ili davanjem otkaza.
Višestruka regresija
Ovaj termin se odnosi na jednadžbu veze sa nekoliko nezavisnih varijabli oblika:
y \u003d f (x 1 + x 2 + ... x m) + ε, gdje je y efektivna karakteristika (zavisna varijabla), a x 1 , x 2 , ... x m su faktori faktori (nezavisne varijable).
Procjena parametara
Za višestruku regresiju (MR) provodi se metodom najmanjih kvadrata (OLS). Za linearne jednadžbe oblika Y = a + b 1 x 1 +…+b m x m + ε, konstruiramo sistem normalnih jednačina (vidi dolje)
Da biste razumjeli princip metode, razmotrite dvofaktorski slučaj. Tada imamo situaciju opisanu formulom
Odavde dobijamo:
gdje je σ varijansa odgovarajuće karakteristike prikazane u indeksu.
LSM je primjenjiv na MP jednačinu na standardiziranoj skali. U ovom slučaju dobijamo jednačinu:
gdje su t y , t x 1, … t xm standardizirane varijable za koje su srednje vrijednosti 0; β i su standardizirani koeficijenti regresije, a standardna devijacija je 1.
Napominjemo da su svi β i u ovom slučaju postavljeni kao normalizirani i centralizirani, pa se njihovo međusobno poređenje smatra ispravnim i dopuštenim. Osim toga, uobičajeno je filtrirati faktore, odbacujući one s najmanjim vrijednostima βi.
Problem korištenjem jednadžbe linearne regresije
Pretpostavimo da postoji tabela dinamike cijena određenog proizvoda N tokom posljednjih 8 mjeseci. Potrebno je donijeti odluku o preporučljivosti kupovine njegove serije po cijeni od 1850 rubalja/t.
broj mjeseca | naziv mjeseca | cijena artikla N |
|
1750 rubalja po toni |
|||
1755 rubalja po toni |
|||
1767 rubalja po toni |
|||
1760 rubalja po toni |
|||
1770 rubalja po toni |
|||
1790 rubalja po toni |
|||
1810 rubalja po toni |
|||
1840 rubalja po toni |
|||
Da biste riješili ovaj problem u Excel tabeli, trebate koristiti alat za analizu podataka koji je već poznat iz gornjeg primjera. Zatim odaberite odjeljak "Regresija" i postavite parametre. Mora se imati na umu da se u polje "Input interval Y" mora unijeti raspon vrijednosti za zavisnu varijablu (u ovom slučaju cijena proizvoda u određenim mjesecima u godini), a u "Input interval X" - za nezavisnu varijablu (broj mjeseca). Potvrdite akciju klikom na "U redu". Na novom listu (ako je tako naznačeno) dobijamo podatke za regresiju.
Na osnovu njih gradimo linearnu jednačinu oblika y=ax+b, gde su parametri a i b koeficijenti reda sa nazivom broja meseca i koeficijentima i reda „Y-presek“ iz list sa rezultatima regresione analize. Dakle, jednadžba linearne regresije (LE) za problem 3 se piše kao:
Cijena proizvoda N = 11.714* broj mjeseca + 1727.54.
ili u algebarskoj notaciji
y = 11,714 x + 1727,54
Analiza rezultata
Da bi se odlučilo da li je rezultirajuća jednačina linearne regresije adekvatna, koriste se višestruki koeficijenti korelacije (MCC) i koeficijenti determinacije, kao i Fisherov test i Studentov test. U Excel tabeli sa rezultatima regresije, oni se pojavljuju pod nazivima višestrukih R, R-kvadrata, F-statistike i t-statistike, respektivno.
KMC R omogućava procjenu čvrstoće vjerovatnoće odnosa između nezavisnih i zavisnih varijabli. Njegova visoka vrijednost ukazuje na prilično jaku vezu između varijabli "Broj mjeseca" i "Cijena robe N u rubljama po 1 toni". Međutim, priroda ovog odnosa ostaje nepoznata.
Kvadrat koeficijenta determinacije R 2 (RI) je numerička karakteristika udjela u ukupnom raspršenju i prikazuje čiji dio eksperimentalnih podataka, tj. vrijednosti zavisne varijable odgovaraju jednadžbi linearne regresije. U problemu koji se razmatra ova vrijednost je jednaka 84,8%, odnosno statistički podaci su opisani sa visokim stepenom tačnosti dobijenim SD.
F-statistika, koja se naziva i Fišerov test, koristi se za procjenu značaja linearne veze, pobijajući ili potvrđujući hipotezu o njenom postojanju.
(Studentov kriterijum) pomaže da se proceni značaj koeficijenta sa nepoznatim ili slobodnim članom linearne veze. Ako je vrijednost t-kriterijuma > t cr, onda se hipoteza o beznačajnosti slobodnog člana linearne jednačine odbacuje.
U zadatku koji se razmatra za slobodni član, korišćenjem Excel alata, dobijeno je da je t = 169,20903, i p = 2,89E-12, odnosno da imamo nultu verovatnoću da će tačna hipoteza o beznačajnosti slobodnog člana biti odbijen. Za koeficijent na nepoznatom t=5,79405, i p=0,001158. Drugim riječima, vjerovatnoća da će tačna hipoteza o beznačajnosti koeficijenta za nepoznato biti odbačena je 0,12%.
Stoga se može tvrditi da je rezultirajuća jednačina linearne regresije adekvatna.
Problem svrsishodnosti kupovine paketa akcija
Višestruka regresija u Excelu se izvodi pomoću istog alata za analizu podataka. Razmotrite konkretan primijenjen problem.
Uprava NNN-a mora donijeti odluku o preporučljivosti kupovine 20% udjela u MMM SA. Cijena paketa (JV) je 70 miliona američkih dolara. Stručnjaci NNN-a prikupili su podatke o sličnim transakcijama. Odlučeno je da se vrijednost paketa dionica procijeni prema takvim parametrima, izraženim u milionima američkih dolara, kao što su:
- obaveze prema dobavljačima (VK);
- godišnji promet (VO);
- potraživanja (VD);
- trošak osnovnih sredstava (SOF).
Pored toga, koristi se parametar zaostale obaveze preduzeća (V3 P) u hiljadama američkih dolara.
Rješenje pomoću Excel tabele
Prije svega, potrebno je kreirati tabelu početnih podataka. izgleda ovako:
- pozovite prozor "Analiza podataka";
- odaberite odjeljak "Regresija";
- u polje "Input interval Y" unesite raspon vrijednosti zavisnih varijabli iz stupca G;
- kliknite na ikonu sa crvenom strelicom desno od prozora "Input interval X" i odaberite raspon svih vrijednosti iz kolona B, C, D, F na listu.
Odaberite "Novi radni list" i kliknite "U redu".
Nabavite regresionu analizu za dati problem.
Ispitivanje rezultata i zaključaka
"Prikupljamo" iz zaokruženih podataka predstavljenih gore na Excel tablici, regresijska jednačina:
SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.
U poznatijem matematičkom obliku, može se napisati kao:
y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844
Podaci za AD "MMM" prikazani su u tabeli:
Zamjenjujući ih u jednadžbu regresije, dobijaju cifru od 64,72 miliona američkih dolara. To znači da akcije AD MMM ne treba kupovati, jer je njihova vrijednost od 70 miliona američkih dolara prilično precijenjena.
Kao što vidite, upotreba Excel tabele i regresione jednadžbe omogućila je donošenje informirane odluke u vezi izvodljivosti vrlo specifične transakcije.
Sada znate šta je regresija. Gore navedeni primjeri u Excelu pomoći će vam u rješavanju praktičnih problema iz područja ekonometrije.
Višestruki koeficijent korelacije koristi se kao mjera stepena bliskosti statističke veze između rezultirajućeg indikatora (zavisne varijable) y i skup eksplanatornih (nezavisnih) varijabli ili, drugim riječima, procjenjuje bliskost zajedničkog uticaja faktora na rezultat.
Koeficijent višestruke korelacije može se izračunati iz niza formula 5 , uključujući:
koristeći matricu parnih koeficijenata korelacije
,
(3.18)
gdje je r- determinanta matrice parnih koeficijenata korelacije y,,
r 11 - determinanta interfaktorske korelacione matrice ;
![](https://i1.wp.com/studfiles.net/html/2706/206/html_fonDWBqKmL.I1iV/img-Pd7LCI.png)
.
(3.19)
Za model u kojem postoje dvije nezavisne varijable, formula (3.18) je pojednostavljena
.
(3.20)
Kvadrat koeficijenta višestruke korelacije je koeficijent determinacije R 2. Kao iu slučaju parne regresije, R 2 ukazuje na kvalitetu regresijskog modela i odražava udio ukupne varijacije rezultirajuće osobine y objašnjava promjenom funkcije regresije f(x) (vidi 2.4). Osim toga, koeficijent determinacije se može naći po formuli
.
(3.21)
Međutim, upotreba R 2 u slučaju višestruke regresije nije sasvim tačna, jer se koeficijent determinacije povećava kada se regresori dodaju u model. To je zato što se rezidualna varijansa smanjuje kako se uvode dodatne varijable. A ako se broj faktora približi broju zapažanja, tada će rezidualna varijansa biti nula, a koeficijent višestruke korelacije, a time i koeficijent determinacije, približit će se jedinici, iako je u stvarnosti odnos između faktora i rezultata i rezultata moć objašnjenja regresione jednačine može biti mnogo manja.
Da biste dobili adekvatnu procjenu koliko je varijacija rezultirajuće osobine objašnjena varijacijom nekoliko faktorskih osobina, primijenite prilagođeni koeficijent determinacije
(3.22)
Prilagođeni koeficijent determinacije je uvijek manji R 2. Štaviše, za razliku od R 2 što je uvijek pozitivno, može imati i negativnu vrijednost.
Primjer (nastavak primjera 1). Izračunajmo koeficijent višestruke korelacije, prema formuli (3.20):
Vrijednost koeficijenta višestruke korelacije, jednaka 0,8601, ukazuje na jaku vezu između cijene transporta i težine tereta i udaljenosti na kojoj se transportuje.
Koeficijent determinacije je jednak: R 2 =0,7399.
Prilagođeni koeficijent determinacije izračunava se po formuli (3.22):
=0,7092.
Imajte na umu da se vrijednost prilagođenog koeficijenta determinacije razlikuje od vrijednosti koeficijenta determinacije.
Tako se 70,9% varijacije zavisne varijable (troškovi transporta) objašnjava varijacijom nezavisnih varijabli (težina tereta i udaljenost transporta). Preostalih 29,1% varijacije zavisne varijable se objašnjava faktorima koji nisu uzeti u obzir u modelu.
Vrijednost prilagođenog koeficijenta determinacije je prilično velika, pa smo u modelu mogli uzeti u obzir najznačajnije faktore koji određuju troškove transporta.
REZULTATI
Statistika regresije | |
Višestruki R | 0,998364 |
R-kvadrat | 0,99673 |
Normalizovani R-kvadrat | 0,996321 |
standardna greška | 0,42405 |
Zapažanja | 10 |
Pogledajmo prvo gornji dio proračuna predstavljenih u Tabeli 8.3a, statistiku regresije.
Vrijednost R-kvadrat, također nazvana mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.
U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremima, tj. između nule i jedan.
Ako je vrijednost R-kvadrata blizu jedan, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Nasuprot tome, vrijednost R-kvadrata blizu nule znači loš kvalitet konstruiranog modela.
U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.
Višestruki R- koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).
Višestruki R je jednak kvadratnom korijenu koeficijenta determinacije, ova vrijednost ima vrijednosti u rasponu od nula do jedan.
U jednostavnoj linearnoj regresionoj analizi, višestruki R je jednak Pearsonovom koeficijentu korelacije. Zaista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).
Odds | standardna greška | t-statistika | |
Y-raskrsnica | 2,694545455 | 0,33176878 | 8,121757129 |
Varijabla X 1 | 2,305454545 | 0,04668634 | 49,38177965 |
* Navedena je skraćena verzija proračuna |
Sada razmotrite srednji dio proračuna prikazanih u tabeli 8.3b. Ovdje je dat koeficijent regresije b (2,305454545) i pomak duž y-ose, tj. konstanta a (2,694545455).
Na osnovu proračuna, možemo napisati regresionu jednačinu na sljedeći način:
Y= x*2,305454545+2,694545455
Smjer odnosa između varijabli određuje se na osnovu znakova (negativnih ili pozitivnih) koeficijenti regresije(koeficijent b).
Ako je znak na koeficijent regresije- pozitivan, odnos zavisne varijable sa nezavisnom će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.
Ako je znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).
U tabeli 8.3c. prikazani su rezultati izlaza reziduala. Da bi se ovi rezultati pojavili u izvještaju, potrebno je aktivirati checkbox "Residuals" prilikom pokretanja alata "Regresija".
PREOSTALO POVLAČENJE
Opservacija | Predviđeno Y | Ostaje | Standardni bilansi |
---|---|---|---|
1 | 9,610909091 | -0,610909091 | -1,528044662 |
2 | 7,305454545 | -0,305454545 | -0,764022331 |
3 | 11,91636364 | 0,083636364 | 0,209196591 |
4 | 14,22181818 | 0,778181818 | 1,946437843 |
5 | 16,52727273 | 0,472727273 | 1,182415512 |
6 | 18,83272727 | 0,167272727 | 0,418393181 |
7 | 21,13818182 | -0,138181818 | -0,34562915 |
8 | 23,44363636 | -0,043636364 | -0,109146047 |
9 | 25,74909091 | -0,149090909 | -0,372915662 |
10 | 28,05454545 | -0,254545455 | -0,636685276 |
Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruirane linije regresije. Najveća apsolutna vrijednost
Izgradnja linearne regresije, procjena njenih parametara i njihovog značaja može se obaviti mnogo brže kada se koristi Excel paket za analizu (Regression). Razmotrimo interpretaciju dobijenih rezultata u opštem slučaju ( k eksplanatorne varijable) prema primjeru 3.6.
Table regresijska statistika date su vrijednosti:
Višestruko R – koeficijent višestruke korelacije;
R- kvadrat- koeficijent odlučnosti R 2 ;
Normalizovano R - kvadrat- prilagođeno R 2 prilagođen broju stupnjeva slobode;
standardna greška je standardna greška regresije S;
Zapažanja - broj zapažanja n.
Table Analiza varijanse dato:
1. Kolona df - broj stepeni slobode, jednak
za niz Regresija df = k;
za niz Ostatakdf = n – k – 1;
za niz Ukupnodf = n– 1.
2. Kolona SS- zbir kvadrata odstupanja, jednak
za niz Regresija ;
za niz Ostatak ;
za niz Ukupno .
3. Kolona GOSPOĐA varijanse određene formulom GOSPOĐA = SS/df:
za niz Regresija– faktorska varijansa;
za niz Ostatak je rezidualna varijansa.
4. Kolona F - izračunata vrijednost F-kriterijumi izračunati po formuli
F = GOSPOĐA(regresija)/ GOSPOĐA(ostatak).
5. Kolona Značaj F je vrijednost nivoa značajnosti koja odgovara izračunatoj F-statistika .
Značaj F= FRIST( F- statistika, df(regresija), df(ostatak)).
Ako značaj F < стандартного уровня значимости, то R 2 je statistički značajno.
Koeficijenti | standardna greška | t-statistika | p-vrijednost | donjih 95% | Top 95% | |
Y | 65,92 | 11,74 | 5,61 | 0,00080 | 38,16 | 93,68 |
X | 0,107 | 0,014 | 7,32 | 0,00016 | 0,0728 | 0,142 |
Ova tabela prikazuje:
1. Odds– vrijednosti koeficijenata a, b.
2. Standardna greška su standardne greške koeficijenata regresije S a, Sb.
3. t- statistika– izračunate vrijednosti t -kriterijumi izračunati po formuli:
t-statistic = Koeficijenti / Standardna greška.
4.R-vrijednost (značaj t) je vrijednost nivoa značajnosti koji odgovara izračunatom t- statistika.
R-vrijednost= STUDRASP(t-statistika, df(ostatak)).
Ako a R-značenje< стандартного уровня значимости, то соответствующий коэффициент статистически значим.
5. Donjih 95% i gornjih 95% su donja i gornja granica 95% intervala povjerenja za koeficijente teorijske jednačine linearne regresije.
PREOSTALO POVLAČENJE | ||
Opservacija | Predviđeno y | Ostaje e |
72,70 | -29,70 | |
82,91 | -20,91 | |
94,53 | -4,53 | |
105,72 | 5,27 | |
117,56 | 12,44 | |
129,70 | 19,29 | |
144,22 | 20,77 | |
166,49 | 24,50 | |
268,13 | -27,13 |
Table PREOSTALO POVLAČENJE naznačeno:
u koloni Opservacija– broj posmatranja;
u koloni predviđeno y su izračunate vrijednosti zavisne varijable;
u koloni Ostaje e je razlika između posmatrane i izračunate vrednosti zavisne varijable.
Primjer 3.6. Dostupni podaci (arb. jedinice) o izdacima za hranu y i dohodak po glavi stanovnika x za devet grupa porodica:
x | |||||||||
y |
Koristeći rezultate Excel paketa analize (Regresija), analiziramo zavisnost troškova hrane od vrijednosti dohotka po glavi stanovnika.
Rezultati regresione analize se obično pišu kao:
gdje su u zagradama standardne greške koeficijenata regresije.
Regresijski koeficijenti a = 65,92 i b= 0,107. Smjer komunikacije između y i x određuje predznak koeficijenta regresije b= 0,107, tj. odnos je direktan i pozitivan. Koeficijent b= 0,107 pokazuje da sa povećanjem dohotka po glavi stanovnika za 1 arb. jedinice troškovi hrane rastu za 0,107 konv. jedinice
Procijenimo značaj koeficijenata dobijenog modela. Značaj koeficijenata ( a, b) se provjerava t- test:
p-vrijednost ( a) = 0,00080 < 0,01 < 0,05
p-vrijednost ( b) = 0,00016 < 0,01 < 0,05,
dakle koeficijenti ( a, b) su značajni na nivou od 1%, a još više na nivou značajnosti od 5%. Dakle, koeficijenti regresije su značajni i model je adekvatan originalnim podacima.
Rezultati procjene regresije su kompatibilni ne samo sa dobivenim vrijednostima koeficijenata regresije, već i sa nekim od njihovog skupa (interval pouzdanosti). Sa vjerovatnoćom od 95%, intervali povjerenja za koeficijente su (38,16 - 93,68) za a i (0,0728 - 0,142) za b.
Kvaliteta modela se ocjenjuje koeficijentom determinacije R 2 .
Vrijednost R 2 = 0,884 znači da faktor dohotka po glavi stanovnika može objasniti 88,4% varijacije (raspršenosti) u potrošnji na hranu.
Značaj R 2 provjerio F- test: značaj F = 0,00016 < 0,01 < 0,05, следовательно, R 2 je značajan na nivou od 1%, a još više na nivou značajnosti od 5%.
U slučaju parne linearne regresije, koeficijent korelacije se može definirati kao . Dobijena vrijednost koeficijenta korelacije ukazuje da je veza između izdataka za hranu i dohotka po glavi stanovnika veoma bliska.