Za koje se skale koristi regresiona analiza? Jednačina regresije

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Nakon upotrebe korelacione analize identifikovano je prisustvo statističkih odnosa između varijabli i procenjen stepen njihove bliskosti, obično se prelazi na matematički opis određene vrste zavisnosti koristeći regresiona analiza. U tu svrhu odabrana je klasa funkcija koja povezuje rezultantni indikator y i argumente x 1, x 2, ..., x k, odabiru se najinformativniji argumenti, procjene nepoznatih vrijednosti parametara izračunavaju se komunikacijska jednačina i analiziraju svojstva rezultirajuće jednačine.

Funkcija f(x 1, x 2,..., x k) koja opisuje ovisnost prosječne vrijednosti rezultantne karakteristike y o datim vrijednostima argumenata naziva se regresijska funkcija (jednačina). Termin “regresija” (lat. -regression - povlačenje, povratak na nešto) uveo je engleski psiholog i antropolog F. Galton i vezuje se isključivo za specifičnosti jednog od prvih konkretni primjeri, u kojem je korišten ovaj koncept. Dakle, obrađujući statističke podatke u vezi sa analizom naslijeđa visine, F. Galton je otkrio da ako očevi odstupaju od prosječne visine svih očeva za x inča, onda njihovi sinovi odstupaju od prosječne visine svih sinova za manje od x inches. Identificirani trend nazvan je "regresija na srednju vrijednost". Od tada se termin „regresija“ široko koristi u statističkoj literaturi, iako u mnogim slučajevima ne karakteriše tačno koncept statističke zavisnosti.

Za tačan opis jednačine regresije potrebno je poznavati zakon raspodjele efektivnog indikatora y. U statističkoj praksi se obično mora ograničiti na traženje odgovarajućih aproksimacija za nepoznatu pravu regresijsku funkciju, budući da istraživač nema precizno znanje o zakonu uslovne distribucije vjerovatnoće analiziranog rezultantnog indikatora y pri date vrijednosti argument x.

Razmotrimo odnos između prave f(x) = M(y1x), regresije modela? i procjena regresije y. Neka je efektivni indikator y povezan sa argumentom x relacijom:

gdje je slučajna varijabla koja ima normalan zakon raspodjele, a Me = 0 i D e = y 2. Prava regresijska funkcija u ovom slučaju ima oblik: f (x) = M(y/x) = 2x 1.5.

Pretpostavimo da ne znamo tačan oblik prave regresione jednadžbe, ali imamo devet zapažanja dvodimenzionalne slučajne varijable povezane relacijom yi = 2x1,5 + e, i predstavljenih na Sl. 1

Slika 1 – Relativni položaj istine f (x) i teorijske? regresijski modeli

Položaj tačaka na sl. 1 vam omogućava da se ograničite na klasu linearne zavisnosti vrsta? = u 0 + u 1 x. Koristeći metodu najmanjih kvadrata Nađimo procjenu regresione jednačine y = b 0 + b 1 x. Za poređenje, na sl. 1 prikazuje grafike prave regresijske funkcije y = 2x 1.5, teoretske aproksimativne regresijske funkcije? = u 0 + u 1 x .

Budući da smo pogriješili u odabiru klase regresijske funkcije, a to je prilično uobičajeno u praksi statističkih istraživanja, naši statistički zaključci i procjene će se pokazati pogrešnim. I bez obzira koliko povećamo obim opažanja, naša procjena uzorka y neće biti blizu pravoj regresijskoj funkciji f(x). Ako smo ispravno odabrali klasu regresijskih funkcija, onda je nepreciznost u opisu f(x) korištenjem? može se objasniti samo ograničenjima uzorka.

Da bi se na najbolji način vratila, iz originalnih statističkih podataka, uslovna vrijednost efektivnog indikatora y(x) i nepoznata regresijska funkcija f(x) = M(y/x), najviše se koriste sljedeći kriteriji adekvatnosti (funkcije gubitka). često korišteni.

Metoda najmanjeg kvadrata. Prema tome, kvadrat odstupanja posmatranih vrednosti efektivnog indikatora y, (i = 1,2,..., n) od vrednosti modela,? = f(x i), gdje je x i vrijednost vektora argumenta u i-to zapažanje: ?(y i - f(x i) 2 > min. Rezultirajuća regresija se naziva srednji kvadrat.

Metoda najmanjih modula. Prema njemu, zbir apsolutnih odstupanja posmatranih vrijednosti efektivnog indikatora od modularnih vrijednosti je minimiziran. I dobijamo,? = f(x i), srednja apsolutna medijana regresije? |y i - f(x i)| >min.

Regresiona analiza je metoda Statistička analiza zavisnost slučajne varijable y od varijabli x j = (j=1,2,..., k), koja se u regresionoj analizi smatra ne slučajne varijable, bez obzira na pravi zakon raspodjele x j.

Obično se pretpostavlja da slučajna varijabla y ima normalan zakon distribucije sa uslovnim očekivanjem y, koje je funkcija argumenata x/ (/ = 1, 2,..., k) i konstantnom varijansom y 2 nezavisno od argumente.

Općenito, model analize linearne regresije ima oblik:

Y = Y k j=0 V j ts j(x 1 , x 2 . . .. ,x k)+E

gdje je q j neka funkcija njegovih varijabli - x 1, x 2. . .. ,x k, E je slučajna varijabla sa nultim matematičkim očekivanjem i varijansom y 2.

U regresijskoj analizi, tip regresione jednačine se bira na osnovu fizičke prirode fenomena koji se proučava i rezultata posmatranja.

Procjene nepoznatih parametara regresione jednadžbe obično se pronalaze korištenjem metode najmanjih kvadrata. U nastavku ćemo se detaljnije zadržati na ovom problemu.

Dvodimenzionalno linearna jednačina regresija. Pretpostavimo, na osnovu analize fenomena koji se proučava, da na „prosječnom“ y ima linearna funkcija od x, tj. postoji jednačina regresije

y=M(y/x)=u 0 + u 1 x)

gdje je M(y1x) uslovno matematičko očekivanje slučajne varijable y za dati x; kod 0 i kod 1 - nepoznati parametri opće populacije, koji se moraju procijeniti na osnovu rezultata opservacija uzorka.

Pretpostavimo da je za procjenu parametara na 0 i na 1, uzorak veličine n uzet iz dvodimenzionalne populacije (x, y), gdje je (x, y,) rezultat i-te opservacije (i = 1 , 2,..., n) . U ovom slučaju, model regresione analize ima oblik:

y j = in 0 + in 1 x+e j .

gdje su e j nezavisne normalno raspoređene slučajne varijable sa nultim matematičkim očekivanjem i varijansom y 2, tj. M e j. = 0;

D e j .= y 2 za sve i = 1, 2,..., n.

Prema metodi najmanjih kvadrata, kao procjene nepoznatih parametara na 0 i na 1, treba uzeti takve vrijednosti karakteristika uzorka b 0 i b 1 koje minimiziraju zbir kvadrata odstupanja vrijednosti rezultirajućih karakteristika kod i iz kondicionala matematičko očekivanje? i

Razmotrićemo metodologiju za utvrđivanje uticaja marketinških karakteristika na dobit preduzeća na primeru sedamnaest tipičnih preduzeća prosečne veličine i pokazatelja ekonomske aktivnosti.

Prilikom rješavanja problema uzete su u obzir sljedeće karakteristike, koje su kao najznačajnije (bitnije) identificirane kao rezultat anketnog istraživanja:

* inovativna aktivnost preduzeća;

* planiranje asortimana proizvedenih proizvoda;

* formiranje politike cijena;

* javni odnosi;

* sistem prodaje;

* sistem stimulacije zaposlenih.

Na osnovu sistema poređenja po faktorima konstruisane su kvadratne matrice susednosti u kojima su izračunate vrednosti relativnih prioriteta za svaki faktor: inovativna aktivnost preduzeća, planiranje asortimana proizvoda, formiranje politike cena, oglašavanje , odnosi s javnošću, sistem prodaje, sistem stimulacije zaposlenih.

Procjene prioriteta za faktor „odnos sa javnošću“ dobijene su kao rezultat anketiranja stručnjaka preduzeća. Prihvaćene su sljedeće oznake: > (bolje), > (bolje ili isto), = (isto),< (хуже или одинаково), <

Zatim je riješen problem sveobuhvatne procjene nivoa marketinga preduzeća. Prilikom izračunavanja indikatora utvrđena je značajnost (težina) razmatranih parcijalnih karakteristika i riješen problem linearne konvolucije parcijalnih indikatora. Obrada podataka obavljena je pomoću posebno razvijenih programa.

Zatim se izračunava sveobuhvatna procena nivoa marketinga preduzeća – marketinški koeficijent, koji se unosi u tabelu 1. Pored toga, tabela sadrži indikatore koji karakterišu preduzeće u celini. Podaci u tabeli će se koristiti za izvođenje regresijske analize. Rezultirajući atribut je profit. Uz marketinški koeficijent, kao faktorske karakteristike korišteni su sljedeći pokazatelji: obim bruto proizvodnje, cijena osnovnih sredstava, broj zaposlenih, koeficijent specijalizacije.

Tabela 1 - Početni podaci za regresionu analizu


Prema podacima iz tabele i na osnovu faktora sa najznačajnijim vrednostima koeficijenata korelacije, konstruisane su regresione funkcije zavisnosti profita od faktora.

Jednačina regresije u našem slučaju će imati oblik:

Koeficijenti regresione jednačine pokazuju kvantitativni uticaj faktora o kojima je gore bilo reči na iznos dobiti. Oni pokazuju za koliko hiljada rubalja se mijenja njegova vrijednost kada se karakteristika faktora promijeni za jednu jedinicu. Kao što slijedi iz jednačine, povećanje koeficijenta marketing miksa za jednu jedinicu daje povećanje dobiti za 1547,7 hiljada rubalja. Ovo sugeriše da unapređenje marketinških aktivnosti ima ogroman potencijal za poboljšanje ekonomskog učinka preduzeća.

Prilikom proučavanja marketinške efikasnosti, najzanimljiviji i najvažniji faktor je faktor X5 – marketinški koeficijent. U skladu sa teorijom statistike, prednost postojeće jednačine višestruke regresije je mogućnost procene izolovanog uticaja svakog faktora, uključujući i faktor marketinga.

Rezultati regresione analize imaju širu primjenu nego za izračunavanje parametara jednačine. Kriterijum za razvrstavanje (Kef) preduzeća u relativno bolja ili relativno lošija zasniva se na relativnom pokazatelju rezultata:

gde je Y facti stvarna vrednost i-tog preduzeća, hiljada rubalja;

Y izračunati - iznos dobiti i-tog preduzeća, dobijen obračunom pomoću regresione jednačine

U smislu problema koji se rješava, vrijednost se naziva “koeficijent efikasnosti”. Djelatnost preduzeća može se smatrati efektivnom u slučajevima kada je vrijednost koeficijenta veća od jedan. To znači da je stvarna dobit veća od prosječne dobiti u uzorku.

Stvarne i procijenjene vrijednosti dobiti prikazane su u tabeli. 2.

Tabela 2 – Analiza rezultirajuće karakteristike u regresijskom modelu

Analiza tabele pokazuje da se u našem slučaju aktivnosti preduzeća 3, 5, 7, 9, 12, 14, 15, 17 za posmatrani period mogu smatrati uspješnim.

Regresiona analiza ispituje zavisnost određene veličine od druge veličine ili nekoliko drugih veličina. Regresiona analiza se uglavnom koristi u srednjoročnim prognozama, kao iu dugoročnim prognozama. Srednjoročni i dugoročni periodi omogućavaju identifikaciju promjena u poslovnom okruženju i uzimanje u obzir uticaja tih promjena na indikator koji se proučava.

Za izvođenje regresijske analize potrebno je:

    dostupnost godišnjih podataka o proučavanim indikatorima,

    prisustvo jednokratnih prognoza, tj. takve prognoze koje se ne ispravljaju dolaskom novih podataka.

Regresiona analiza se obično provodi za objekte koji imaju složenu, multifaktorsku prirodu, kao što su obim ulaganja, profit, obim prodaje itd.

At normativni metod predviđanja određuju se načini i rokovi za postizanje mogućih stanja pojave, uzetih za cilj. Radi se o predviđanju postizanja željenih stanja neke pojave na osnovu unaprijed određenih normi, ideala, poticaja i ciljeva. Ova prognoza odgovara na pitanje: na koje načine možete postići ono što želite? Normativna metoda se češće koristi za programske ili ciljne prognoze. Koriste se i kvantitativni izraz standarda i određena skala mogućnosti funkcije evaluacije

U slučaju korištenja kvantitativnog izraza, na primjer, fizioloških i racionalnih normi potrošnje pojedinačnih prehrambenih i neprehrambenih proizvoda, koje su razvili stručnjaci za različite grupe stanovništva, moguće je odrediti nivo potrošnje ovih proizvoda za godine koje prethode postizanju navedene norme. Takvi proračuni se nazivaju interpolacija. Interpolacija je metoda izračunavanja indikatora koji nedostaju u dinamičkom nizu pojave na osnovu utvrđenog odnosa. Uzimajući stvarnu vrijednost indikatora i vrijednost njegovih standarda kao ekstremnih članova dinamičke serije, moguće je odrediti vrijednosti ​​vrijednosti unutar ove serije. Stoga se interpolacija smatra normativnom metodom. Prethodno data formula (4), korištena u ekstrapolaciji, može se koristiti u interpolaciji, pri čemu y više neće karakterizirati stvarne podatke, već standardni indikator.

U slučaju korištenja skale (polja, spektra) u normativnoj metodi, mogućnosti funkcije evaluacije, odnosno funkcije raspodjele preferencija, pokazuju približno sljedeću gradaciju: nepoželjno - manje poželjno - poželjnije - najpoželjnije - optimalno ( standard).

Metoda normativnog predviđanja pomaže da se razviju preporuke za povećanje nivoa objektivnosti, a samim tim i efikasnosti odluka.

Modeliranje, možda najkompleksniji metod predviđanja. Matematičko modeliranje znači opisivanje ekonomske pojave kroz matematičke formule, jednačine i nejednačine. Matematički aparat mora precizno odražavati pozadinu prognoze, iako je prilično teško u potpunosti odraziti cjelokupnu dubinu i složenost predviđenog objekta. Izraz "model" je izveden od latinske riječi modelus, što znači "mjera". Stoga bi bilo ispravnije smatrati modeliranje ne metodom predviđanja, već metodom proučavanja sličnog fenomena pomoću modela.

U širem smislu, modeli su supstituti za predmet proučavanja koji su mu slični na način koji omogućava sticanje novih znanja o objektu. Model treba posmatrati kao matematički opis objekta. U ovom slučaju, model se definira kao pojava (objekat, postavka) koja je u nekoj korespondenciji sa predmetom koji se proučava i može ga zamijeniti u procesu istraživanja, prezentujući informaciju o objektu.

Uz uže razumijevanje modela, on se smatra objektom predviđanja; njegovo proučavanje omogućava da se dobiju informacije o mogućim stanjima objekta u budućnosti i načinima za postizanje tih stanja. U ovom slučaju, cilj prediktivnog modela je da dobije informacije ne o objektu uopšte, već samo o njegovim budućim stanjima. Tada, prilikom izgradnje modela, može biti nemoguće direktno provjeriti njegovu usklađenost s objektom, jer model predstavlja samo njegovo buduće stanje, a sam objekt trenutno može biti odsutan ili postoji drugačije.

Modeli mogu biti materijalni ili idealni.

Ekonomija koristi idealne modele. Najnapredniji idealni model za kvantitativni opis socio-ekonomskog (ekonomskog) fenomena je matematički model koji koristi brojeve, formule, jednačine, algoritme ili grafički prikaz. Koristeći ekonomske modele, oni određuju:

    zavisnost između različitih ekonomskih pokazatelja;

    razne vrste ograničenja nametnutih indikatorima;

    kriterijume za optimizaciju procesa.

Smisaoni opis objekta može se predstaviti u obliku njegovog formaliziranog dijagrama, koji pokazuje koje parametre i početne informacije treba prikupiti da bi se izračunale potrebne količine. Matematički model, za razliku od formalizirane sheme, sadrži specifične numeričke podatke koji karakteriziraju objekt, a razvoj matematičkog modela u velikoj mjeri ovisi o prognostičarskom razumijevanju suštine procesa koji se modelira. Na osnovu svojih ideja postavlja radnu hipotezu uz pomoć koje se kreira analitički zapis modela u obliku formula, jednadžbi i nejednačina. Kao rezultat rješavanja sistema jednačina dobijaju se specifični parametri funkcije koji opisuju promjenu željenih varijabli tokom vremena.

Redoslijed i redoslijed rada kao elementa organizacije prognoze određuje se u zavisnosti od primijenjenog metoda prognoziranja. Obično se ovaj posao izvodi u nekoliko faza.

Faza 1 - prediktivna retrospekcija, tj. utvrđivanje objekta prognoze i pozadine prognoze. Rad u prvoj fazi se izvodi u sljedećem redoslijedu:

    formiranje opisa objekta u prošlosti, koji uključuje pretprognoznu analizu objekta, procjenu njegovih parametara, njihovog značaja i međusobnih odnosa,

    identifikaciju i procjenu izvora informacija, postupak i organizaciju rada sa njima, prikupljanje i plasiranje retrospektivnih informacija;

    postavljanje ciljeva istraživanja.

Obavljajući zadatke retrospekcije prognoze, prognostičari ispituju istoriju razvoja objekta i pozadinu prognoze kako bi dobili njihov sistematski opis.

Faza 2 - prediktivna dijagnoza, tokom koje se ispituje sistematski opis objekta prognoze i pozadine prognoze kako bi se identifikovali trendovi u njihovom razvoju i odabrali modeli i metode predviđanja. Rad se izvodi u sljedećem redoslijedu:

    razvoj modela predviđenog objekta, uključujući formalizirani opis objekta, provjeru stepena adekvatnosti modela prema objektu;

    izbor metoda prognoze (glavnih i pomoćnih), izrada algoritma i programa rada.

Faza 3 - zaštita, odnosno proces ekstenzivne izrade prognoze, uključujući: 1) proračun predviđenih parametara za dati vodeći period; 2) sinteza pojedinih komponenti prognoze.

Faza 4 - procjena prognoze, uključujući njenu verifikaciju, odnosno utvrđivanje stepena pouzdanosti, tačnosti i validnosti.

U toku prospekcije i procjene, na osnovu prethodnih faza, rješavaju se problemi prognoze i njene procjene.

Navedene faze su približne i zavise od glavne metode predviđanja.

Rezultati prognoze se sastavljaju u obliku potvrde, izvještaja ili drugog materijala i prezentiraju kupcu.

U prognozi se može naznačiti iznos odstupanja prognoze od stvarnog stanja objekta, što se naziva greška prognoze, koja se izračunava po formuli:

;
;
. (9.3)

Izvori grešaka u predviđanju

Glavni izvori mogu biti:

1. Jednostavan prijenos (ekstrapolacija) podataka iz prošlosti u budućnost (na primjer, kompanija nema druge opcije prognoze osim 10% rasta prodaje).

2. Nemogućnost preciznog određivanja vjerovatnoće događaja i njegovog uticaja na predmet koji se proučava.

3. Nepredviđene poteškoće (remetilački događaji) koje utiču na implementaciju plana, na primjer, iznenadno otpuštanje šefa odjela prodaje.

Općenito, točnost predviđanja raste kako se iskustvo predviđanja akumulira i njegove metode usavršavaju.

U svojim radovima koji datiraju iz 1908. Opisao je to na primjeru rada agenta koji prodaje nekretnine. U svojoj evidenciji, stručnjak za prodaju kuća je pratio širok spektar ulaznih podataka za svaku konkretnu zgradu. Na osnovu rezultata aukcije utvrđeno je koji faktor je imao najveći uticaj na cijenu transakcije.

Analiza velikog broja transakcija dala je zanimljive rezultate. Na konačnu cijenu utjecalo je mnogo faktora, što je ponekad dovodilo do paradoksalnih zaključaka, pa čak i do očiglednih „izbacivanja“ kada bi se kuća s visokim početnim potencijalom prodavala po sniženoj cijeni.

Drugi primjer primjene ovakve analize je posao kojem je povjereno utvrđivanje naknada zaposlenima. Složenost zadatka bila je u činjenici da nije zahtijevao raspodjelu fiksnog iznosa svima, već njegovu striktnu korespondenciju sa konkretnim obavljenim poslom. Pojava mnogih problema sa praktički sličnim rješenjima zahtijevala je njihovo detaljnije proučavanje na matematičkom nivou.

Značajno mjesto posvećeno je dijelu „regresiona analiza“, koji je kombinovao praktične metode koje se koriste za proučavanje zavisnosti koje potpadaju pod koncept regresije. Ovi odnosi se posmatraju između podataka dobijenih iz statističkih studija.

Među mnogim zadacima koje treba riješiti, glavna cilja su tri: određivanje opće jednačine regresije; konstruiranje procjena parametara koji su nepoznati koji su dio jednadžbe regresije; testiranje hipoteza statističke regresije. U toku proučavanja odnosa koji nastaje između para veličina dobijenih kao rezultat eksperimentalnih posmatranja i koje čine niz (skup) tipa (x1, y1), ..., (xn, yn), oslanjaju se na odredbe teorije regresije i pretpostaviti da za jednu veličinu Y postoji određena raspodjela vjerovatnoće, dok druga X ostaje fiksna.

Rezultat Y zavisi od vrijednosti varijable X, ova zavisnost se može odrediti različitim obrascima, dok na točnost dobijenih rezultata utiču priroda posmatranja i svrha analize. Eksperimentalni model se zasniva na određenim pretpostavkama koje su pojednostavljene, ali uvjerljive. Glavni uslov je da parametar X bude kontrolisana veličina. Njegove vrijednosti se postavljaju prije početka eksperimenta.

Ako se tokom eksperimenta koristi par nekontrolisanih varijabli XY, onda se na isti način radi regresiona analiza, ali se za interpretaciju rezultata koriste metode, pri čemu se proučava odnos slučajnih varijabli koje se proučava. Metode matematičke statistike nisu apstraktna tema. Primjenu u životu nalaze u različitim sferama ljudske djelatnosti.

U naučnoj literaturi, termin linearna regresiona analiza se široko koristi za definiranje gornje metode. Za promenljivu X koristi se termin regresor ili prediktor, a zavisne Y varijable se takođe nazivaju kriterijumske varijable. Ova terminologija odražava samo matematičku zavisnost varijabli, ali ne i uzročno-posledični odnos.

Regresiona analiza je najčešća metoda koja se koristi u obradi rezultata širokog spektra opservacija. Ovom metodom se proučavaju fizičke i biološke zavisnosti, koja se primenjuje i u ekonomiji i u tehnologiji. Mnoga druga polja koriste modele regresijske analize. Analiza varijanse i multivarijantna statistička analiza blisko surađuju sa ovom metodom proučavanja.

Šta je regresija?

Razmotrimo dvije kontinuirane varijable x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Postavimo tačke na dvodimenzionalni dijagram raspršenja i kažemo da imamo linearna relacija, ako su podaci aproksimirani ravnom linijom.

Ako vjerujemo u to y zavisi od x, i promjene u y uzrokovane su upravo promjenama u x, možemo odrediti liniju regresije (regresiju y on x), što najbolje opisuje linearni odnos između ove dvije varijable.

Statistička upotreba riječi regresija dolazi od fenomena poznatog kao regresija na srednju vrijednost, koji se pripisuje Sir Francisu Galtonu (1889).

Pokazao je da iako visoki očevi obično imaju visoke sinove, prosječna visina sinova je niža od visine njihovih visokih očeva. Prosječna visina sinova je „nazad” i „nazad” prema prosječnoj visini svih očeva u populaciji. Tako, u prosjeku, visoki očevi imaju niže (ali još uvijek prilično visoke) sinove, a niski očevi imaju više (ali još uvijek prilično niske) sinove.

Regresijska linija

Matematička jednadžba koja procjenjuje jednostavnu (u paru) liniju linearne regresije:

x naziva nezavisna varijabla ili prediktor.

Y- zavisna varijabla ili varijabla odgovora. Ovo je vrijednost koju očekujemo y(u prosjeku) ako znamo vrijednost x, tj. je "predviđena vrijednost" y»

  • a- slobodni član (raskrsnica) linije evaluacije; ovo je značenje Y, Kada x=0(Sl.1).
  • b- nagib ili nagib procijenjene linije; predstavlja iznos kojim Y povećava se u prosjeku ako povećamo x za jednu jedinicu.
  • a I b nazivaju se koeficijenti regresije procijenjene linije, iako se ovaj izraz često koristi samo za b.

Parna linearna regresija se može proširiti da uključi više od jedne nezavisne varijable; u ovom slučaju je poznat kao višestruka regresija.

Fig.1. Linija linearne regresije koja pokazuje presek a i nagib b (iznos Y raste kako se x povećava za jednu jedinicu)

Metoda najmanjeg kvadrata

Vršimo regresijsku analizu koristeći uzorak opservacija gdje a I b- procjene uzorka pravih (općih) parametara, α i β, koji određuju liniju linearne regresije u populaciji (opšta populacija).

Najjednostavniji metod za određivanje koeficijenata a I b je metoda najmanjeg kvadrata(MNC).

Poklapanje se procjenjuje gledanjem ostataka (vertikalna udaljenost svake tačke od linije, npr. ostatak = posmatrano y- predviđeno y, Rice. 2).

Linija koja najbolje odgovara odabrana je tako da je zbir kvadrata reziduala minimalan.

Rice. 2. Linija linearne regresije sa prikazanim ostacima (vertikalne isprekidane linije) za svaku tačku.

Pretpostavke linearne regresije

Dakle, za svaku posmatranu vrijednost ostatak je jednak razlici i odgovarajućoj predviđenoj vrijednosti.Svaki ostatak može biti pozitivan ili negativan.

Možete koristiti ostatke da testirate sljedeće pretpostavke iza linearne regresije:

  • Ostaci se normalno raspoređuju sa srednjom vrednošću nula;

Ako su pretpostavke linearnosti, normalnosti i/ili konstantne varijanse upitne, možemo transformirati ili izračunati novu regresijsku liniju za koju su te pretpostavke zadovoljene (na primjer, koristiti logaritamsku transformaciju, itd.).

Anomalne vrijednosti (outliers) i tačke utjecaja

"Utjecajno" zapažanje, ako se izostavi, mijenja jednu ili više procjena parametara modela (tj. nagib ili presek).

Izuzetno (zapažanje koje nije u skladu s većinom vrijednosti u skupu podataka) može biti "utjecajno" zapažanje i može se lako otkriti vizualno pregledom bivarijatnog dijagrama raspršenja ili rezidualnog dijagrama.

I za autliere i za „uticajna“ zapažanja (tačke), koriste se modeli, sa i bez njihovog uključivanja, a pažnja se poklanja promjenama u procjenama (koeficijenti regresije).

Kada provodite analizu, ne biste trebali automatski odbaciti vanjske vrijednosti ili točke utjecaja, jer jednostavno ignoriranje može utjecati na dobivene rezultate. Uvijek proučite razloge za ove odlike i analizirajte ih.

Hipoteza linearne regresije

Prilikom konstruiranja linearne regresije testira se nulta hipoteza da je opći nagib linije regresije β jednak nuli.

Ako je nagib linije nula, ne postoji linearni odnos između i: promjena ne utiče

Da biste testirali nultu hipotezu da je pravi nagib nula, možete koristiti sljedeći algoritam:

Izračunajte statistiku testa jednaku omjeru , koji podliježe distribuciji sa stupnjevima slobode, gdje je standardna greška koeficijenta


,

- procjena disperzije ostataka.

Obično, ako je dostignut nivo značajnosti, nulta hipoteza se odbacuje.


gdje je procentualni poen distribucije sa stupnjevima slobode, što daje vjerovatnoću dvostranog testa

Ovo je interval koji sadrži opći nagib sa vjerovatnoćom od 95%.

Za velike uzorke, recimo, možemo aproksimirati sa vrijednošću od 1,96 (to jest, statistika testa će imati tendenciju da bude normalno raspoređena)

Procjena kvaliteta linearne regresije: koeficijent determinacije R 2

Zbog linearnog odnosa i očekujemo da se to mijenja kao , i nazvati je varijacijom koja je posljedica ili objašnjena regresijom. Preostala varijacija treba da bude što manja.

Ako je to tačno, tada će većina varijacija biti objašnjena regresijom, a tačke će ležati blizu linije regresije, tj. linija se dobro uklapa u podatke.

Proporcija ukupne varijanse koja se objašnjava regresijom naziva se koeficijent odlučnosti, obično izraženo u postocima i označeno R 2(u parnoj linearnoj regresiji ovo je količina r 2, kvadrat koeficijenta korelacije), omogućava subjektivno procjenu kvaliteta jednačine regresije.

Razlika predstavlja postotak varijanse koja se ne može objasniti regresijom.

Ne postoji formalni test za procjenu; moramo se osloniti na subjektivno prosuđivanje da bismo odredili dobro uklapanje linije regresije.

Primjena linije regresije na prognozu

Možete koristiti liniju regresije da predvidite vrijednost iz vrijednosti na krajnjem kraju posmatranog raspona (nikada nemojte ekstrapolirati izvan ovih granica).

Predviđamo srednju vrijednost opservablea koji imaju određenu vrijednost tako što tu vrijednost ubacimo u jednadžbu regresijske linije.

Dakle, ako predvidimo kao Koristite ovu predviđenu vrijednost i njenu standardnu ​​grešku za procjenu intervala povjerenja za pravu srednju vrijednost populacije.

Ponavljanje ove procedure za različite vrijednosti omogućava vam da izgradite granice pouzdanosti za ovu liniju. Ovo je pojas ili područje koje sadrži pravu liniju, na primjer na 95% nivoa pouzdanosti.

Jednostavni regresijski planovi

Jednostavni regresijski dizajni sadrže jedan kontinuirani prediktor. Ako postoje 3 opservacije sa prediktorskim vrijednostima P, kao što su 7, 4 i 9, a dizajn uključuje efekat prvog reda P, tada će matrica dizajna X biti

a jednadžba regresije koja koristi P za X1 je

Y = b0 + b1 P

Ako jednostavan regresijski dizajn sadrži učinak višeg reda na P, kao što je kvadratni efekat, tada će vrijednosti u stupcu X1 u matrici dizajna biti podignute na drugi stepen:

i jednačina će poprimiti oblik

Y = b0 + b1 P2

Metode kodiranja ograničene na sigmu i prekomjerno parametrizirane se ne primjenjuju na jednostavne regresijske dizajne i druge dizajne koji sadrže samo kontinuirane prediktore (jer jednostavno ne postoje kategorički prediktori). Bez obzira na odabranu metodu kodiranja, vrijednosti kontinuiranih varijabli se u skladu s tim povećavaju i koriste kao vrijednosti za X varijable. U ovom slučaju se ne vrši nikakvo rekodiranje. Osim toga, kada opisujete planove regresije, možete izostaviti razmatranje matrice dizajna X i raditi samo s jednadžbom regresije.

Primjer: Jednostavna regresijska analiza

Ovaj primjer koristi podatke prikazane u tabeli:

Rice. 3. Tabela početnih podataka.

Podaci prikupljeni iz poređenja popisa stanovništva iz 1960. i 1970. godine u nasumično odabranih 30 županija. Nazivi županija su predstavljeni kao nazivi opažanja. Informacije o svakoj varijabli su predstavljene u nastavku:

Rice. 4. Tabela varijabilnih specifikacija.

Problem istraživanja

Za ovaj primjer, analizirat će se korelacija između stope siromaštva i stepena koji predviđa procenat porodica koje su ispod linije siromaštva. Stoga ćemo varijablu 3 (Pt_Poor) tretirati kao zavisnu varijablu.

Možemo postaviti hipotezu: promjene u veličini stanovništva i postotku porodica koje su ispod granice siromaštva su povezane. Čini se razumnim očekivati ​​da siromaštvo vodi migraciji, tako da bi postojala negativna korelacija između procenta ljudi ispod granice siromaštva i promjene stanovništva. Stoga ćemo varijablu 1 (Pop_Chng) tretirati kao prediktorsku varijablu.

Pogledaj rezultate

Regresijski koeficijenti

Rice. 5. Koeficijenti regresije Pt_Poor na Pop_Chng.

Na raskrsnici reda Pop_Chng i kolone Param. nestandardizovani koeficijent za regresiju Pt_Poor na Pop_Chng je -0,40374. To znači da za svaku jedinicu smanjenja stanovništva dolazi do povećanja stope siromaštva od .40374. Gornja i donja (podrazumevana) granica pouzdanosti od 95% za ovaj nestandardizovani koeficijent ne uključuje nulu, tako da je koeficijent regresije značajan na nivou p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Varijabilna distribucija

Koeficijenti korelacije mogu postati značajno precijenjeni ili potcijenjeni ako su u podacima prisutni veliki odstupnici. Proučimo distribuciju zavisne varijable Pt_Poor po okrugu. Da bismo to učinili, napravimo histogram varijable Pt_Poor.

Rice. 6. Histogram varijable Pt_Poor.

Kao što vidite, distribucija ove varijable značajno se razlikuje od normalne distribucije. Međutim, iako čak dva okruga (dva desna kolona) imaju veći postotak porodica koje su ispod granice siromaštva nego što se očekivalo u normalnoj distribuciji, čini se da su „unutar raspona“.

Rice. 7. Histogram varijable Pt_Poor.

Ovaj sud je donekle subjektivan. Opće pravilo je da se odstupanja trebaju uzeti u obzir ako opažanje (ili zapažanja) ne spadaju u interval (srednja vrijednost ± 3 puta standardna devijacija). U ovom slučaju, vrijedno je ponoviti analizu sa i bez outliera kako bi se osiguralo da oni nemaju veći utjecaj na korelaciju između članova populacije.

Scatterplot

Ako je jedna od hipoteza a priori o odnosu između datih varijabli, onda je korisno testirati je na grafu odgovarajućeg dijagrama raspršenja.

Rice. 8. Scatter dijagram.

Dijagram raspršenja pokazuje jasnu negativnu korelaciju (-.65) između dvije varijable. Takođe pokazuje interval pouzdanosti od 95% za regresijsku liniju, tj. postoji 95% vjerovatnoća da linija regresije leži između dvije isprekidane krive.

Kriterijumi značajnosti

Rice. 9. Tabela koja sadrži kriterijume značajnosti.

Test za koeficijent regresije Pop_Chng potvrđuje da je Pop_Chng snažno povezan sa Pt_Poor , p<.001 .

Zaključak

Ovaj primjer je pokazao kako analizirati jednostavan dizajn regresije. Također su predstavljene interpretacije nestandardiziranih i standardiziranih regresijskih koeficijenata. Raspravlja se o važnosti proučavanja distribucije odgovora zavisne varijable i demonstrira se tehnika za određivanje smjera i jačine veze između prediktora i zavisne varijable.

Metoda regresijske analize koristi se za određivanje tehničkih i ekonomskih parametara proizvoda koji pripadaju određenoj parametarskoj seriji kako bi se izgradili i uskladili vrijednosni odnosi. Ova metoda se koristi za analizu i opravdavanje odnosa nivoa i cijena proizvoda koje karakterizira prisustvo jednog ili više tehničkih i ekonomskih parametara koji odražavaju glavna potrošačka svojstva. Regresiona analiza nam omogućava da pronađemo empirijsku formulu koja opisuje ovisnost cijene o tehničkim i ekonomskim parametrima proizvoda:

P=f(X1X2,...,Xn),

gdje je P vrijednost jedinične cijene proizvoda, rub.; (X1, X2, ... Xn) - tehnički i ekonomski parametri proizvoda.

Metoda regresione analize - najnaprednija od korišćenih normativno-parametarskih metoda - efikasna je kada se vrše proračuni zasnovani na upotrebi savremenih informacionih tehnologija i sistema. Njegova primjena uključuje sljedeće glavne korake:

  • određivanje klasifikacijskih parametarskih grupa proizvoda;
  • izbor parametara koji najviše utiču na cenu proizvoda;
  • izbor i opravdanje oblika povezanosti promjena cijena pri promjeni parametara;
  • konstrukcija sistema normalnih jednačina i proračun regresionih koeficijenata.

Glavna kvalifikaciona grupa proizvoda čija je cijena podložna izjednačavanju je parametarska serija, u okviru koje se proizvodi mogu grupirati u različite izvedbe u zavisnosti od njihove primjene, uslova rada i zahtjeva itd. Prilikom formiranja parametarskih serija koriste se metode automatske klasifikacije. mogu se koristiti, što omogućava razlikovanje homogenih grupa od ukupne mase proizvoda. Odabir tehničkih i ekonomskih parametara vrši se na osnovu sljedećih osnovnih zahtjeva:

  • odabrani parametri uključuju parametre evidentirane u standardima i tehničkim specifikacijama; pored tehničkih parametara (snaga, nosivost, brzina itd.), koriste se indikatori serijalizacije proizvoda, koeficijenti složenosti, unifikacije itd.;
  • skup odabranih parametara trebao bi dovoljno u potpunosti karakterizirati dizajn, tehnološka i operativna svojstva proizvoda uključenih u seriju i imati prilično blisku korelaciju s cijenom;
  • parametri ne bi trebali biti međusobno zavisni.

Za odabir tehničkih i ekonomskih parametara koji značajno utječu na cijenu izračunava se matrica koeficijenata korelacije parova. Na osnovu veličine koeficijenata korelacije između parametara može se suditi o bliskosti njihove povezanosti. Istovremeno, korelacija blizu nule pokazuje neznatan uticaj parametra na cenu. Konačan odabir tehničko-ekonomskih parametara vrši se u procesu regresione analize korak po korak uz korištenje računarske tehnologije i odgovarajućih standardnih programa.

U praksi određivanja cijena koristi se sljedeći skup funkcija:

linearno

P = ao + alXl + ... + antXn,

linearne snage

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

inverzni logaritam

P = a0 + a1: U X1 + ... + an: U Xn,

moć

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indikativno

P = e^(a1+a1X1+...+anXn)

hiperbolično

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

gdje je P izjednačavanje cijena; X1 X2,..., Xn - vrijednost tehničkih i ekonomskih parametara proizvoda serije; a0, a1 ..., an - izračunati koeficijenti regresione jednačine.

U praktičnom radu na određivanju cijena, ovisno o obliku odnosa cijena i tehničko-ekonomskih parametara, mogu se koristiti i druge regresijske jednačine. Tip funkcije veze između cijene i skupa tehničko-ekonomskih parametara može se unaprijed postaviti ili odabrati automatski tokom kompjuterske obrade. Bliskost korelacije između cijene i skupa parametara ocjenjuje se vrijednošću koeficijenta višestruke korelacije. Njegova blizina jednom ukazuje na blisku vezu. Pomoću jednadžbe regresije dobijaju se izjednačene (izračunate) vrijednosti cijena za proizvode date parametarske serije. Za procjenu rezultata izjednačavanja izračunavaju se relativne vrijednosti odstupanja izračunatih vrijednosti cijena od stvarnih:

Tsr = Rf - Rr: R x 100

gdje je Rf, Rr - stvarne i obračunate cijene.

Vrijednost CR ne bi trebala prelaziti 8-10%. U slučaju značajnih odstupanja izračunatih vrijednosti od stvarnih, potrebno je istražiti:

  • ispravnost formiranja parametarskog niza, jer može sadržavati proizvode koji se po svojim parametrima oštro razlikuju od ostalih proizvoda u seriji. Moraju biti isključeni;
  • ispravan odabir tehničkih i ekonomskih parametara. Moguć je skup parametara koji je u slaboj korelaciji sa cijenom. U tom slučaju potrebno je nastaviti pretraživanje i odabir parametara.

Postupak i metodologija za sprovođenje regresione analize, pronalaženje nepoznatih parametara jednačine i ekonomska procjena dobijenih rezultata sprovode se u skladu sa zahtjevima matematičke statistike.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”