Microsoft softverski paket kao efikasno sredstvo ekonometrijske analize. Proračun linearne regresije

Procijenite kvalitetu izrađenog modela. Da li se kvalitet modela poboljšao u odnosu na jednofaktorski model? Dajte procjenu uticaja značajnih faktora na rezultat koristeći koeficijente elastičnosti, - i -koeficijenata.

Za procjenu kvaliteta odabranog višestrukog modela (6) , slično kao u tački 1.4 ovog problema, koristimo koeficijent determinacije R- na kvadrat, srednja relativna greška aproksimacije, i F- Fišerov kriterijum.

Koeficijent determinacije R- kvadrat uzimamo iz rezultata "Regresije" (tabela "Statistika regresije" za model (6)).

Dakle, varijacija (promjena) u cijeni stana Y 76,77% je objašnjeno ovom jednačinom varijacijom grada u regionu X 1 , broj soba u stanu X 2 i životni prostor X 4 .

Koristimo originalne podatke Y i i ostatke pronađene alatom Regresija (tabela "Zaključak ostatka" za model (6)). Izračunajte relativne greške i pronađite prosječnu vrijednost
.

PREOSTALO POVLAČENJE

Opservacija	Predviđeno Y	Ostaje	Rel. greška
1	45,95089273	-7,95089273	20,92340192
2	86,10296493	-23,90296493	38,42920407
3	94,84442678	30,15557322	24,12445858
4	84,17648426	-23,07648426	37,76838667
5	40,2537216	26,7462784	39,91981851
6	68,70572376	24,29427624	26,12287768
7	143,7464899	-25,7464899	21,81905923
8	106,0907598	25,90924022	19,62821228
9	135,357993	-42,85799303	46,33296544
10	114,4792566	-9,47925665	9,027863476
11	41,48765602	0,512343975	1,219866607
12	103,2329236	21,76707636	17,41366109
13	130,3567798	39,64322022	23,3195413
14	35,41901876	2,580981242	6,7920559
15	155,4129693	-24,91296925	19,0903979
16	84,32108188	0,678918123	0,798727204
17	98,0552279	-0,055227902	0,056355002
18	144,2104618	-16,21046182	12,66442329
19	122,8677535	-37,86775351	44,55029825
20	100,0221225	59,97787748	37,48617343
21	53,27196558	6,728034423	11,21339071
22	35,06605378	5,933946225	14,47303957
23	114,4792566	-24,47925665	27,19917406
24	113,1343153	-30,13431529	36,30640396
25	40,43190991	4,568090093	10,15131132
26	39,34427892	-0,344278918	0,882766457
27	144,4794501	-57,57945009	66,25943623
28	56,4827667	-16,4827667	41,20691675
29	95,38240332	-15,38240332	19,22800415
30	228,6988826	-1,698882564	0,748406416
31	222,8067278	12,19327221	5,188626473
32	38,81483144	1,185168555	2,962921389
33	48,36325811	18,63674189	27,81603267
34	126,6080021	-3,608002113	2,933335051
35	84,85052935	15,14947065	15,14947065
36	116,7991162	-11,79911625	11,23725357
37	84,17648426	-13,87648426	19,73895342
38	113,9412801	-31,94128011	38,95278062
39	215,494184	64,50581599	23,03779142
40	141,7795953	58,22040472	29,11020236
Prosjek	101,2375		22,51770962

Po koloni relativnih grešaka nalazimo prosječnu vrijednost =22.51% (koristeći funkciju AVERAGE).

Poređenje pokazuje da je 22,51%>7%. Stoga je tačnost modela nezadovoljavajuća.

Korišćenjem F – Fišerov kriterijum Provjerimo značaj modela u cjelini. Da bismo to učinili, ispisat ćemo iz rezultata korištenja alata "Regresija" (tablica "analiza varijanse" za model (6)) F= 39,6702.

Koristeći FDISP funkciju, nalazimo vrijednost F kr =3.252 za nivo značaja α = 5%, i brojevi stupnjeva slobode k 1 = 2 , k 2 = 37 .

F> F kr, dakle, jednačina modela (6) je značajna, njena upotreba je svrsishodna, zavisna varijabla Y je prilično dobro opisan faktorskim varijablama uključenim u model (6) X 1 , X 2. i X 4 .

Dodatno koristeći t –Učenički kriterijum Provjerimo značaj pojedinih koeficijenata modela.

t– statistika za koeficijente jednačine regresije data je u rezultatima alata "Regresija". Za odabrani model (6) dobijaju se sljedeće vrijednosti:

	Odds	standardna greška	t-statistika	P-vrijednost	donjih 95%	Top 95%	Donji 95,0%	Top 95,0%
Y-raskrsnica	-5,643572321	12,07285417	-0,46745966	0,642988	-30,1285	18,84131	-30,1285	18,84131
X4	2,591405557	0,461440597	5,61590284	2.27E-06	1,655561	3,52725	1,655561	3,52725
X1	6,85963077	9,185748512	0,74676884	0,460053	-11,7699	25,48919	-11,7699	25,48919
X2	-1,985156991	7,795346067	-0,25465925	0,800435	-17,7949	13,82454	-17,7949	13,82454

kritična vrijednost t kr pronađeno za nivo značajnosti α=5% i broj stepena slobode k=40–2–1=37 . t kr =2.026 (funkcija STEUDRESPO).

Za slobodni koeficijent α =–5.643 definisane statistike
, t kr, dakle, slobodni koeficijent nije značajan, može se isključiti iz modela.

Za koeficijent regresije β 1 =6.859 definisane statistike
, β 1 nije značajan, on i faktor područja grada mogu se ukloniti iz modela.

Za koeficijent regresije β 2 =-1,985 definisane statistike
, t kr, dakle koeficijent regresije β 2 nije značajan, on i faktor broja soba u stanu se mogu isključiti iz modela.

Za koeficijent regresije β 4 =2.591 definisane statistike
, >t cr, dakle, koeficijent regresije β 4 je značajan, on i faktor stambene površine stana mogu se pohraniti u model.

Zaključci o značajnosti koeficijenata modela donose se na nivou značajnosti α=5%. Uzimajući u obzir kolonu "P-vrijednost", imajte na umu da je slobodni koeficijent α može se smatrati značajnim na nivou od 0,64 = 64%; koeficijent regresije β 1 – na nivou od 0,46 = 46%; koeficijent regresije β 2 – na nivou od 0,8 = 80%; i koeficijent regresije β 4 – na nivou 2,27E-06= 2,26691790951854E-06 = 0,0000002%.

Prilikom dodavanja novih faktorskih varijabli u jednačinu, koeficijent determinacije se automatski povećava R 2 a prosječna greška aproksimacije se smanjuje, iako to ne poboljšava uvijek kvalitet modela. Stoga, za usporedbu kvaliteta modela (3) i odabranog višestrukog modela (6), koristimo normalizirane koeficijente determinacije.

Dakle, pri dodavanju faktora "grad regije" u regresionu jednačinu X 1 i faktor "broj soba u stanu" X 2, kvalitet modela je pogoršan, što govori u prilog uklanjanju faktora X 1 i X 2 iz modela.

Izvršimo dalje proračune.

Prosječni koeficijenti elastičnosti u slučaju linearnog modela određuju se formulama
.

Koristeći funkciju AVERAGE, nalazimo: S Y, uz povećanje samo faktora X 4 za jednu od svojih standardnih devijacija - povećava se za 0,914 S Y

Delta koeficijenti definisani su formulama
.

Pronađimo koeficijente korelacije parova pomoću alata "Korelacija" paketa "Analiza podataka" u Excel-u.

	Y	X1	X2	X4
Y	1
X1	-0,01126	1
X2	0,751061	-0,0341	1
X4	0,874012	-0,0798	0,868524	1

Koeficijent determinacije određen je ranije i iznosi 0,7677.

Izračunajmo delta koeficijente:

;

Pošto je Δ 1 1 i X 2 loše odabrane i potrebno ih je ukloniti iz modela. Dakle, prema jednačini dobijenog linearnog trofaktorskog modela, promjena rezultirajućeg faktora Y(cijena stana) je 104% zbog uticaja faktora X 4 (stambene površine stana), za 4% uticajem faktora X 2 (broj soba), za 0,0859% uticajem faktora X 1 (grad regije).

Regresiona analiza je statistička metoda istraživanja koja vam omogućava da pokažete ovisnost parametra o jednoj ili više nezavisnih varijabli. U predkompjuterskoj eri, njegova upotreba je bila prilično teška, posebno kada se radilo o velikim količinama podataka. Danas, nakon što ste naučili kako napraviti regresiju u Excelu, možete riješiti složene statističke probleme za samo nekoliko minuta. U nastavku su dati konkretni primjeri iz oblasti ekonomije.

Vrste regresije

Sam koncept je uveden u matematiku 1886. Regresija se dešava:

linearno;
parabolični;
snaga;
eksponencijalni;
hiperbolično;
demonstrativna;
logaritamski.

Primjer 1

Razmotrimo problem utvrđivanja zavisnosti broja penzionisanih članova tima od prosječne plate u 6 industrijskih preduzeća.

Zadatak. U šest preduzeća analizirali smo prosečnu mesečnu zaradu i broj zaposlenih koji su otišli samovoljno. U tabelarnom obliku imamo:


		Broj ljudi koji su otišli	Plata
			30000 rubalja
			35000 rubalja
			40000 rubalja
			45000 rubalja
			50000 rubalja
			55000 rubalja
			60000 rubalja

Za problem određivanja zavisnosti broja penzionisanih radnika od prosečne plate u 6 preduzeća, regresioni model ima oblik jednačine Y = a 0 + a 1 x 1 +…+a k x k , gde su x i uticajne varijable , a i su koeficijenti regresije, a k je broj faktora.

Za ovaj zadatak Y je indikator zaposlenih koji su otišli, a faktor koji utiče je plata koju označavamo sa X.

Korištenje mogućnosti proračunske tablice "Excel"

Regresionoj analizi u Excelu mora prethoditi primjena ugrađenih funkcija na dostupne tabelarne podatke. Međutim, u ove svrhe je bolje koristiti vrlo koristan dodatak "Analysis Toolkit". Da biste ga aktivirali potrebno vam je:

sa kartice "Datoteka" idite na odjeljak "Opcije";
u prozoru koji se otvori odaberite redak "Dodaci";
kliknite na dugme "Idi" koje se nalazi pri dnu, desno od linije "Upravljanje";
označite polje pored naziva "Paket analize" i potvrdite svoje radnje klikom na "OK".

Ako je sve urađeno kako treba, željeno dugme će se pojaviti na desnoj strani kartice Podaci, koja se nalazi iznad Excel radnog lista.

u Excelu

Sada kada imamo pri ruci sve potrebne virtuelne alate za izvođenje ekonometrijskih proračuna, možemo početi rješavati naš problem. Za ovo:

kliknite na dugme "Analiza podataka";
u prozoru koji se otvori kliknite na dugme "Regresija";
u kartici koja se pojavi unesite raspon vrijednosti za Y (broj zaposlenih koji su dali otkaz) i za X (njihove plate);
Svoje radnje potvrđujemo pritiskom na dugme "OK".

Kao rezultat, program će automatski popuniti novi list tabele sa podacima regresione analize. Bilješka! Excel ima mogućnost ručnog postavljanja željene lokacije u tu svrhu. Na primjer, to može biti isti list na kojem su vrijednosti Y i X, ili čak nova radna knjiga posebno dizajnirana za pohranjivanje takvih podataka.

Analiza rezultata regresije za R-kvadrat

U Excelu podaci dobijeni tokom obrade podataka razmatranog primjera izgledaju ovako:

Prije svega, treba obratiti pažnju na vrijednost R-kvadrata. To je koeficijent determinacije. U ovom primjeru R-kvadrat = 0,755 (75,5%), odnosno izračunati parametri modela objašnjavaju odnos između razmatranih parametara za 75,5%. Što je veća vrijednost koeficijenta determinacije, to je odabrani model primjenjiviji za određeni zadatak. Vjeruje se da ispravno opisuje stvarnu situaciju sa vrijednošću R-kvadrata iznad 0,8. Ako je R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza omjera

Broj 64.1428 pokazuje kolika će biti vrijednost Y ako su sve varijable xi u modelu koji razmatramo postavljene na nulu. Drugim riječima, može se tvrditi da na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u konkretnom modelu.

Sledeći koeficijent -0,16285, koji se nalazi u ćeliji B18, pokazuje težinu uticaja varijable X na Y. To znači da prosečna mesečna plata zaposlenih u okviru modela koji se razmatra utiče na broj onih koji odustaju sa ponderom od -0,16285, tj. stepen njenog uticaja uopšte mali. Znak "-" označava da koeficijent ima negativnu vrijednost. To je očigledno, jer svi znaju da što je veća plata u preduzeću, to manje ljudi izražava želju za raskidom ugovora o radu ili davanjem otkaza.

Višestruka regresija

Ovaj termin se odnosi na jednadžbu veze sa nekoliko nezavisnih varijabli oblika:

y \u003d f (x 1 + x 2 + ... x m) + ε, gdje je y efektivna karakteristika (zavisna varijabla), a x 1 , x 2 , ... x m su faktori faktori (nezavisne varijable).

Procjena parametara

Za višestruku regresiju (MR) provodi se metodom najmanjih kvadrata (OLS). Za linearne jednadžbe oblika Y = a + b 1 x 1 +…+b m x m + ε, konstruiramo sistem normalnih jednačina (vidi dolje)

Da biste razumjeli princip metode, razmotrite dvofaktorski slučaj. Tada imamo situaciju opisanu formulom

Odavde dobijamo:

gdje je σ varijansa odgovarajuće karakteristike prikazane u indeksu.

LSM je primjenjiv na MP jednačinu na standardiziranoj skali. U ovom slučaju dobijamo jednačinu:

gdje su t y , t x 1, … t xm standardizirane varijable za koje su srednje vrijednosti 0; β i su standardizirani koeficijenti regresije, a standardna devijacija je 1.

Napominjemo da su svi β i u ovom slučaju postavljeni kao normalizirani i centralizirani, pa se njihovo međusobno poređenje smatra ispravnim i dopuštenim. Osim toga, uobičajeno je filtrirati faktore, odbacujući one s najmanjim vrijednostima βi.

Problem korištenjem jednadžbe linearne regresije

Pretpostavimo da postoji tabela dinamike cijena određenog proizvoda N tokom posljednjih 8 mjeseci. Potrebno je donijeti odluku o preporučljivosti kupovine njegove serije po cijeni od 1850 rubalja/t.


broj mjeseca	naziv mjeseca	cijena artikla N
		1750 rubalja po toni
		1755 rubalja po toni
		1767 rubalja po toni
		1760 rubalja po toni
		1770 rubalja po toni
		1790 rubalja po toni
		1810 rubalja po toni
		1840 rubalja po toni

Da biste riješili ovaj problem u Excel tabeli, trebate koristiti alat za analizu podataka koji je već poznat iz gornjeg primjera. Zatim odaberite odjeljak "Regresija" i postavite parametre. Mora se imati na umu da se u polje "Input interval Y" mora unijeti raspon vrijednosti za zavisnu varijablu (u ovom slučaju cijena proizvoda u određenim mjesecima u godini), a u "Input interval X" - za nezavisnu varijablu (broj mjeseca). Potvrdite akciju klikom na "U redu". Na novom listu (ako je tako naznačeno) dobijamo podatke za regresiju.

Na osnovu njih gradimo linearnu jednačinu oblika y=ax+b, gde su parametri a i b koeficijenti reda sa nazivom broja meseca i koeficijentima i reda „Y-presek“ iz list sa rezultatima regresione analize. Dakle, jednadžba linearne regresije (LE) za problem 3 se piše kao:

Cijena proizvoda N = 11.714* broj mjeseca + 1727.54.

ili u algebarskoj notaciji

y = 11,714 x + 1727,54

Analiza rezultata

Da bi se odlučilo da li je rezultirajuća jednačina linearne regresije adekvatna, koriste se višestruki koeficijenti korelacije (MCC) i koeficijenti determinacije, kao i Fisherov test i Studentov test. U Excel tabeli sa rezultatima regresije, oni se pojavljuju pod nazivima višestrukih R, R-kvadrata, F-statistike i t-statistike, respektivno.

KMC R omogućava procjenu čvrstoće vjerovatnoće odnosa između nezavisnih i zavisnih varijabli. Njegova visoka vrijednost ukazuje na prilično jaku vezu između varijabli "Broj mjeseca" i "Cijena robe N u rubljama po 1 toni". Međutim, priroda ovog odnosa ostaje nepoznata.

Kvadrat koeficijenta determinacije R 2 (RI) je numerička karakteristika udjela u ukupnom raspršenju i prikazuje čiji dio eksperimentalnih podataka, tj. vrijednosti zavisne varijable odgovaraju jednadžbi linearne regresije. U problemu koji se razmatra ova vrijednost je jednaka 84,8%, odnosno statistički podaci su opisani sa visokim stepenom tačnosti dobijenim SD.

F-statistika, koja se naziva i Fišerov test, koristi se za procjenu značaja linearne veze, pobijajući ili potvrđujući hipotezu o njenom postojanju.

(Studentov kriterijum) pomaže da se proceni značaj koeficijenta sa nepoznatim ili slobodnim članom linearne veze. Ako je vrijednost t-kriterijuma > t cr, onda se hipoteza o beznačajnosti slobodnog člana linearne jednačine odbacuje.

U zadatku koji se razmatra za slobodni član, korišćenjem Excel alata, dobijeno je da je t = 169,20903, i p = 2,89E-12, odnosno da imamo nultu verovatnoću da će tačna hipoteza o beznačajnosti slobodnog člana biti odbijen. Za koeficijent na nepoznatom t=5,79405, i p=0,001158. Drugim riječima, vjerovatnoća da će tačna hipoteza o beznačajnosti koeficijenta za nepoznato biti odbačena je 0,12%.

Stoga se može tvrditi da je rezultirajuća jednačina linearne regresije adekvatna.

Problem svrsishodnosti kupovine paketa akcija

Višestruka regresija u Excelu se izvodi pomoću istog alata za analizu podataka. Razmotrite konkretan primijenjen problem.

Uprava NNN-a mora donijeti odluku o preporučljivosti kupovine 20% udjela u MMM SA. Cijena paketa (JV) je 70 miliona američkih dolara. Stručnjaci NNN-a prikupili su podatke o sličnim transakcijama. Odlučeno je da se vrijednost paketa dionica procijeni prema takvim parametrima, izraženim u milionima američkih dolara, kao što su:

obaveze prema dobavljačima (VK);
godišnji promet (VO);
potraživanja (VD);
trošak osnovnih sredstava (SOF).

Pored toga, koristi se parametar zaostale obaveze preduzeća (V3 P) u hiljadama američkih dolara.

Rješenje pomoću Excel tabele

Prije svega, potrebno je kreirati tabelu početnih podataka. izgleda ovako:

pozovite prozor "Analiza podataka";
odaberite odjeljak "Regresija";
u polje "Input interval Y" unesite raspon vrijednosti zavisnih varijabli iz stupca G;
kliknite na ikonu sa crvenom strelicom desno od prozora "Input interval X" i odaberite raspon svih vrijednosti iz kolona B, C, D, F na listu.

Odaberite "Novi radni list" i kliknite "U redu".

Nabavite regresionu analizu za dati problem.

Ispitivanje rezultata i zaključaka

"Prikupljamo" iz zaokruženih podataka predstavljenih gore na Excel tablici, regresijska jednačina:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

U poznatijem matematičkom obliku, može se napisati kao:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Podaci za AD "MMM" prikazani su u tabeli:

Zamjenjujući ih u jednadžbu regresije, dobijaju cifru od 64,72 miliona američkih dolara. To znači da akcije AD MMM ne treba kupovati, jer je njihova vrijednost od 70 miliona američkih dolara prilično precijenjena.

Kao što vidite, upotreba Excel tabele i regresione jednadžbe omogućila je donošenje informirane odluke u vezi izvodljivosti vrlo specifične transakcije.

Sada znate šta je regresija. Gore navedeni primjeri u Excelu pomoći će vam u rješavanju praktičnih problema iz područja ekonometrije.

Višestruki koeficijent korelacije koristi se kao mjera stepena bliskosti statističke veze između rezultirajućeg indikatora (zavisne varijable) y i skup eksplanatornih (nezavisnih) varijabli ili, drugim riječima, procjenjuje bliskost zajedničkog uticaja faktora na rezultat.

Koeficijent višestruke korelacije može se izračunati iz niza formula 5 , uključujući:

koristeći matricu parnih koeficijenata korelacije

, (3.18)

gdje je  r- determinanta matrice parnih koeficijenata korelacije y,
,

r 11 - determinanta interfaktorske korelacione matrice
;

. (3.19)

Za model u kojem postoje dvije nezavisne varijable, formula (3.18) je pojednostavljena

. (3.20)

Kvadrat koeficijenta višestruke korelacije je koeficijent determinacije R 2. Kao iu slučaju parne regresije, R 2 ukazuje na kvalitetu regresijskog modela i odražava udio ukupne varijacije rezultirajuće osobine y objašnjava promjenom funkcije regresije f(x) (vidi 2.4). Osim toga, koeficijent determinacije se može naći po formuli

. (3.21)

Međutim, upotreba R 2 u slučaju višestruke regresije nije sasvim tačna, jer se koeficijent determinacije povećava kada se regresori dodaju u model. To je zato što se rezidualna varijansa smanjuje kako se uvode dodatne varijable. A ako se broj faktora približi broju zapažanja, tada će rezidualna varijansa biti nula, a koeficijent višestruke korelacije, a time i koeficijent determinacije, približit će se jedinici, iako je u stvarnosti odnos između faktora i rezultata i rezultata moć objašnjenja regresione jednačine može biti mnogo manja.

Da biste dobili adekvatnu procjenu koliko je varijacija rezultirajuće osobine objašnjena varijacijom nekoliko faktorskih osobina, primijenite prilagođeni koeficijent determinacije

(3.22)

Prilagođeni koeficijent determinacije je uvijek manji R 2. Štaviše, za razliku od R 2 što je uvijek pozitivno,
može imati i negativnu vrijednost.

Primjer (nastavak primjera 1). Izračunajmo koeficijent višestruke korelacije, prema formuli (3.20):

Vrijednost koeficijenta višestruke korelacije, jednaka 0,8601, ukazuje na jaku vezu između cijene transporta i težine tereta i udaljenosti na kojoj se transportuje.

Koeficijent determinacije je jednak: R 2 =0,7399.

Prilagođeni koeficijent determinacije izračunava se po formuli (3.22):

=0,7092.

Imajte na umu da se vrijednost prilagođenog koeficijenta determinacije razlikuje od vrijednosti koeficijenta determinacije.

Tako se 70,9% varijacije zavisne varijable (troškovi transporta) objašnjava varijacijom nezavisnih varijabli (težina tereta i udaljenost transporta). Preostalih 29,1% varijacije zavisne varijable se objašnjava faktorima koji nisu uzeti u obzir u modelu.

Vrijednost prilagođenog koeficijenta determinacije je prilično velika, pa smo u modelu mogli uzeti u obzir najznačajnije faktore koji određuju troškove transporta. 

REZULTATI

Tabela 8.3a. Statistika regresije

Statistika regresije
Višestruki R	0,998364
R-kvadrat	0,99673
Normalizovani R-kvadrat	0,996321
standardna greška	0,42405
Zapažanja	10

Pogledajmo prvo gornji dio proračuna predstavljenih u Tabeli 8.3a, statistiku regresije.

Vrijednost R-kvadrat, također nazvana mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremima, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedan, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Nasuprot tome, vrijednost R-kvadrata blizu nule znači loš kvalitet konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R je jednak kvadratnom korijenu koeficijenta determinacije, ova vrijednost ima vrijednosti u rasponu od nula do jedan.

U jednostavnoj linearnoj regresionoj analizi, višestruki R je jednak Pearsonovom koeficijentu korelacije. Zaista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti

	Odds	standardna greška	t-statistika
Y-raskrsnica	2,694545455	0,33176878	8,121757129
Varijabla X 1	2,305454545	0,04668634	49,38177965
* Navedena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna prikazanih u tabeli 8.3b. Ovdje je dat koeficijent regresije b (2,305454545) i pomak duž y-ose, tj. konstanta a (2,694545455).

Na osnovu proračuna, možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu znakova (negativnih ili pozitivnih) koeficijenti regresije(koeficijent b).

Ako je znak na koeficijent regresije- pozitivan, odnos zavisne varijable sa nezavisnom će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tabeli 8.3c. prikazani su rezultati izlaza reziduala. Da bi se ovi rezultati pojavili u izvještaju, potrebno je aktivirati checkbox "Residuals" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tabela 8.3c. Ostaje

Opservacija	Predviđeno Y	Ostaje	Standardni bilansi
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruirane linije regresije. Najveća apsolutna vrijednost

Izgradnja linearne regresije, procjena njenih parametara i njihovog značaja može se obaviti mnogo brže kada se koristi Excel paket za analizu (Regression). Razmotrimo interpretaciju dobijenih rezultata u opštem slučaju ( k eksplanatorne varijable) prema primjeru 3.6.

Table regresijska statistika date su vrijednosti:

Višestruko R – koeficijent višestruke korelacije;

R- kvadrat- koeficijent odlučnosti R 2 ;

Normalizovano R - kvadrat- prilagođeno R 2 prilagođen broju stupnjeva slobode;

standardna greška je standardna greška regresije S;

Zapažanja - broj zapažanja n.

Table Analiza varijanse dato:

1. Kolona df - broj stepeni slobode, jednak

za niz Regresija df = k;

za niz Ostatakdf = n – k – 1;

za niz Ukupnodf = n– 1.

2. Kolona SS- zbir kvadrata odstupanja, jednak

za niz Regresija ;

za niz Ostatak ;

za niz Ukupno .

3. Kolona GOSPOĐA varijanse određene formulom GOSPOĐA = SS/df:

za niz Regresija– faktorska varijansa;

za niz Ostatak je rezidualna varijansa.

4. Kolona F - izračunata vrijednost F-kriterijumi izračunati po formuli

F = GOSPOĐA(regresija)/ GOSPOĐA(ostatak).

5. Kolona Značaj F je vrijednost nivoa značajnosti koja odgovara izračunatoj F-statistika .

Značaj F= FRIST( F- statistika, df(regresija), df(ostatak)).

Ako značaj F < стандартного уровня значимости, то R 2 je statistički značajno.

	Koeficijenti	standardna greška	t-statistika	p-vrijednost	donjih 95%	Top 95%
Y	65,92	11,74	5,61	0,00080	38,16	93,68
X	0,107	0,014	7,32	0,00016	0,0728	0,142

Ova tabela prikazuje:

1. Odds– vrijednosti koeficijenata a, b.

2. Standardna greška su standardne greške koeficijenata regresije S a, Sb.

3. t- statistika– izračunate vrijednosti t -kriterijumi izračunati po formuli:

t-statistic = Koeficijenti / Standardna greška.

4.R-vrijednost (značaj t) je vrijednost nivoa značajnosti koji odgovara izračunatom t- statistika.

R-vrijednost= STUDRASP(t-statistika, df(ostatak)).

Ako a R-značenje< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Donjih 95% i gornjih 95% su donja i gornja granica 95% intervala povjerenja za koeficijente teorijske jednačine linearne regresije.

PREOSTALO POVLAČENJE
Opservacija	Predviđeno y	Ostaje e
	72,70	-29,70
	82,91	-20,91
	94,53	-4,53
	105,72	5,27
	117,56	12,44
	129,70	19,29
	144,22	20,77
	166,49	24,50
	268,13	-27,13

Table PREOSTALO POVLAČENJE naznačeno:

u koloni Opservacija– broj posmatranja;

u koloni predviđeno y su izračunate vrijednosti zavisne varijable;

u koloni Ostaje e je razlika između posmatrane i izračunate vrednosti zavisne varijable.

Primjer 3.6. Dostupni podaci (arb. jedinice) o izdacima za hranu y i dohodak po glavi stanovnika x za devet grupa porodica:

x
y

Koristeći rezultate Excel paketa analize (Regresija), analiziramo zavisnost troškova hrane od vrijednosti dohotka po glavi stanovnika.

Rezultati regresione analize se obično pišu kao:

gdje su u zagradama standardne greške koeficijenata regresije.

Regresijski koeficijenti a = 65,92 i b= 0,107. Smjer komunikacije između y i x određuje predznak koeficijenta regresije b= 0,107, tj. odnos je direktan i pozitivan. Koeficijent b= 0,107 pokazuje da sa povećanjem dohotka po glavi stanovnika za 1 arb. jedinice troškovi hrane rastu za 0,107 konv. jedinice

Procijenimo značaj koeficijenata dobijenog modela. Značaj koeficijenata ( a, b) se provjerava t- test:

p-vrijednost ( a) = 0,00080 < 0,01 < 0,05

p-vrijednost ( b) = 0,00016 < 0,01 < 0,05,

dakle koeficijenti ( a, b) su značajni na nivou od 1%, a još više na nivou značajnosti od 5%. Dakle, koeficijenti regresije su značajni i model je adekvatan originalnim podacima.

Rezultati procjene regresije su kompatibilni ne samo sa dobivenim vrijednostima koeficijenata regresije, već i sa nekim od njihovog skupa (interval pouzdanosti). Sa vjerovatnoćom od 95%, intervali povjerenja za koeficijente su (38,16 - 93,68) za a i (0,0728 - 0,142) za b.

Kvaliteta modela se ocjenjuje koeficijentom determinacije R 2 .

Vrijednost R 2 = 0,884 znači da faktor dohotka po glavi stanovnika može objasniti 88,4% varijacije (raspršenosti) u potrošnji na hranu.

Značaj R 2 provjerio F- test: značaj F = 0,00016 < 0,01 < 0,05, следовательно, R 2 je značajan na nivou od 1%, a još više na nivou značajnosti od 5%.

U slučaju parne linearne regresije, koeficijent korelacije se može definirati kao . Dobijena vrijednost koeficijenta korelacije ukazuje da je veza između izdataka za hranu i dohotka po glavi stanovnika veoma bliska.