Grafički prikaz jednačine linearne regresije. Jednačina regresije

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Uparena linearna regresija

PRAKTIKUM

Uparena linearna regresija: Radionica. –

Studij ekonometrije podrazumeva sticanje iskustva studenata u konstruisanju ekonometrijskih modela, donošenju odluka o specifikaciji i identifikaciji modela, odabiru metode za procenu parametara modela, proceni njegovog kvaliteta, interpretaciji rezultata, dobijanju prognostičkih procena itd. Radionica će pomoći studentima steknu praktične vještine u ovim pitanjima.

Odobreno od strane uredničkog i izdavačkog vijeća

Sastavio: M.B. Perova, doktor ekonomskih nauka, prof

Opće odredbe

Ekonometrijsko istraživanje počinje teorijom koja uspostavlja odnose između pojava. Od čitavog niza faktora koji utiču na efektivni atribut, istaknuti su najznačajniji faktori. Nakon što se utvrdi postojanje veze između proučavanih karakteristika, pomoću regresione analize se utvrđuje tačan tip ovog odnosa.

Regresiona analiza sastoji se u definisanju analitičkog izraza (u definisanju funkcije), u kojem je promena jedne vrednosti (rezultativna karakteristika) posledica uticaja nezavisne vrednosti (faktorske karakteristike). Ovaj odnos se može kvantificirati konstruiranjem jednadžbe regresije ili funkcije regresije.

Osnovni regresijski model je upareni (jednofaktorski) regresijski model. Paired Regression– jednačina veze između dvije varijable at I X:

Gdje – zavisna varijabla (rezultativni atribut);

– nezavisna, eksplanatorna varijabla (faktorska karakteristika).

U zavisnosti od prirode promene at sa promjenom X razlikovati linearnu i nelinearnu regresiju.

Linearna regresija

Ova funkcija regresije naziva se polinom prvog stepena i koristi se za opisivanje procesa koji se ravnomerno razvijaju tokom vremena.

Imati slučajnog člana (greške regresije) povezuje se sa uticajem na zavisnu varijablu drugih faktora koji nisu uzeti u obzir u jednačini, sa mogućom nelinearnošću modela, greškama merenja, a samim tim i pojavom jednačina slučajne greške regresija može biti posljedica sljedećeg cilja razlozi:

1) nereprezentativnost uzorka. Model uparene regresije uključuje faktor koji ne može u potpunosti objasniti varijaciju u osobini ishoda, na koju mogu u mnogo većoj mjeri utjecati mnogi drugi faktori (izostavljene varijable). Na primjer, plate mogu zavisiti, pored kvalifikacija, od nivoa obrazovanja, radnog iskustva, pola, itd.;

2) postoji mogućnost da se varijable uključene u model mogu mjeriti sa greškom. Na primjer, podaci o izdacima domaćinstava za hranu se prikupljaju iz evidencije učesnika ankete, za koje se pretpostavlja da pažljivo bilježe svoje dnevne izdatke. Naravno, moguće su greške.

Na osnovu posmatranja uzorka, procjenjuje se jednadžba regresije uzorka ( regresijska linija):

,

Gdje
– procjene parametara regresione jednadžbe (
).

Analitički oblik zavisnosti između proučavanog para karakteristika (regresijska funkcija) određuje se pomoću sljedećeg metode:

    Na osnovu teorijske i logičke analize priroda fenomena koji se proučavaju, njihova društveno-ekonomska suština. Na primjer, ako se proučava odnos između prihoda stanovništva i veličine depozita stanovništva u bankama, onda je očigledno da je veza direktna.

    Grafička metoda, kada se priroda veze procjenjuje vizualno.

Ova zavisnost se može jasno vidjeti ako napravite graf, iscrtavajući vrijednosti atributa na x-osi X, a na ordinati - vrijednosti karakteristike at. Ucrtavanjem tačaka koje odgovaraju vrijednostima X I at, dobijamo korelaciono polje:

a) ako su tačke nasumično raspoređene po polju, to ukazuje na odsustvo zavisnosti između ovih karakteristika;

b) ako su tačke koncentrisane oko ose koja ide od donjeg levog ugla ka gornjem desnom uglu, onda postoji direktna veza između karakteristika;

c) ako su tačke koncentrisane oko ose koja ide od gornjeg lijevog ugla do donjeg desnog – tada postoji inverzna veza između karakteristika.

Ako povežemo tačke na korelacionom polju sa pravim segmentima, dobijamo slomljena linija sa nekim uzlaznim trendom. Ovo će biti empirijska linija komunikacije ili empirijska regresijska linija. Po njegovom izgledu može se suditi ne samo o prisutnosti, već io obliku zavisnosti između proučavanih karakteristika.

Konstruiranje uparene regresione jednadžbe

Izrada regresione jednadžbe se svodi na procjenu njenih parametara. Ove procjene parametara mogu se pronaći na različite načine. Jedna od njih je metoda najmanjih kvadrata(MNC). Suština metode je sljedeća. Svaka vrijednost odgovara empirijskoj (opaženoj) vrijednosti . Konstruiranjem jednadžbe regresije, na primjer pravolinijske jednačine, za svaku vrijednost će odgovarati teorijskoj (izračunatoj) vrijednosti . Uočene vrijednosti ne leže tačno na liniji regresije, tj. ne podudaraju . Razlika između stvarne i izračunate vrijednosti zavisne varijable se naziva podsjetnik:

Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara pri kojima je zbroj kvadrata odstupanja stvarnih vrijednosti rezultirajuće karakteristike at od teorijskih , tj. zbroj kvadrata ostataka je minimalan:

Za linearne jednadžbe i nelinearne jednačine koje se svode na linearne, rješava se sljedeći sistem s obzirom na A I b:

Gdje n- veličina uzorka.

Nakon što smo riješili sistem jednačina, dobili smo vrijednosti A I b, što nam omogućava da pišemo jednadžba regresije (jednadžba regresije):

Gdje – eksplanatorna (nezavisna) varijabla;

–objašnjena (zavisna) varijabla;

Regresijska linija prolazi kroz tačku ( ,) i jednakosti su zadovoljene:

Možete koristiti gotove formule koje slijede iz ovog sistema jednadžbi:

Gdje – prosječna vrijednost zavisne karakteristike;

–prosječna vrijednost nezavisne karakteristike;

– srednja aritmetička vrijednost proizvoda zavisnih i nezavisnih karakteristika;

– varijansa nezavisne karakteristike;

– kovarijansa između zavisnih i nezavisnih karakteristika.

Kovarijansa uzorka dvije varijable X, at je prosječna vrijednost proizvoda odstupanja ovih varijabli od njihovih prosjeka

Parametar b at X ima odličan praktični značaj i naziva se koeficijent regresije. Koeficijent regresije pokazuje za koliko se jedinica u prosjeku mijenja vrijednost at X po 1 jedinici mjerenja.

Znak parametra b u jednadžbi parne regresije pokazuje smjer odnosa:

Ako
, tada je odnos između proučavanih indikatora direktan, tj. sa predznakom rastućeg faktora X efektivni znak se takođe povećava at, i obrnuto;

Ako
, tada je odnos između proučavanih indikatora inverzan, tj. sa predznakom rastućeg faktora X rezultantni znak at smanjuje, i obrnuto.

Vrijednost parametra A u parnoj regresijskoj jednadžbi u nekim slučajevima može se tumačiti kao početna vrijednost rezultirajuće karakteristike at. Ova interpretacija parametra A moguće samo ako je vrijednost
ima značenje.

Nakon konstruisanja regresione jednačine, uočene vrednosti y može se predstaviti kao:

Ostaci , poput grešaka , are slučajne varijable, međutim, za razliku od grešaka , vidljivo. Ostatak je dio zavisne varijable y, što se ne može objasniti pomoću regresijske jednačine.

Na osnovu jednadžbe regresije može se izračunati teorijske vrijednosti X za bilo koje vrednosti X.

U ekonomskoj analizi često se koristi koncept elastičnosti funkcije. Funkcija elastičnosti
izračunato kao relativna promjena y na relativnu promjenu x. Elastičnost pokazuje u kom postotku se funkcija mijenja
kada se nezavisna varijabla promijeni za 1%.

Budući da je elastičnost linearne funkcije
nije konstantna vrijednost, već zavisi od X, tada se koeficijent elastičnosti obično izračunava kao prosječni pokazatelj elastičnosti.

Koeficijent elastičnosti pokazuje za koji procenat u prosjeku će se u prosjeku promijeniti vrijednost rezultirajuće karakteristike at kada se promeni karakteristika faktora X za 1% njegove prosječne vrijednosti:

Gdje
– prosječne vrijednosti varijabli X I at u uzorku.

Procjena kvaliteta izgrađenog regresijskog modela

Kvalitet regresijskog modela– adekvatnost izgrađenog modela originalnim (posmatranim) podacima.

Za mjerenje nepropusnosti veze, tj. da biste izmjerili koliko je blizu funkcionalnoj, morate odrediti varijansu koja mjeri odstupanja at od at X i karakteriziranje rezidualne varijacije zbog drugih faktora. Oni čine osnovu indikatora koji karakterišu kvalitet regresionog modela.

Kvalitet parne regresije se određuje korišćenjem koeficijenata koji karakterišu

1) bliskost veze - indeks korelacije, upareni linearni koeficijent korelacije;

2) greška aproksimacije;

3) kvalitet jednačine regresije i njenih pojedinačnih parametara - srednje kvadratne greške regresione jednačine kao celine i njenih pojedinačnih parametara.

Za regresijske jednadžbe bilo kojeg tipa, određuje se indeks korelacije, koji karakteriše samo tesnost korelacione zavisnosti, tj. stepen njegove aproksimacije funkcionalnoj vezi:

,

Gdje – faktorska (teorijska) disperzija;

– ukupna varijansa.

Indeks korelacije uzima vrijednosti
, pri čemu,

Ako

Ako
- vezu između znakova X I at je funkcionalan, što bliže do 1, uzima se u obzir bliža veza između proučavanih karakteristika. Ako
, onda se veza može smatrati bliskom

Izračunavaju se varijanse potrebne za izračunavanje indikatora nepropusnosti spojnice:

Ukupna varijansa, mjerenje ukupne varijacije zbog djelovanja svih faktora:

Faktorska (teorijska) varijansa, mjerenje varijacije rezultirajuće osobine at zbog djelovanja znaka faktora X:

Preostala varijansa, karakterizira varijaciju osobine at zbog svih faktora osim X(tj. sa isključenim X):

Zatim, prema pravilu sabiranja varijansi:

Kvaliteta parne sobe linearno regresija se također može definirati pomoću koeficijent linearne korelacije para:

,

Gdje
– kovarijansa varijabli X I at;

– standardna devijacija nezavisne karakteristike;

– standardna devijacija zavisne karakteristike.

Koeficijent linearne korelacije karakterizira bliskost i smjer odnosa između karakteristika koje se proučavaju. Mjeri se unutar [-1; +1]:

Ako
– tada je veza između karakteristika direktna;

Ako
– tada je odnos između znakova inverzan;

Ako
– tada nema veze između karakteristika;

Ako
ili
– tada je veza između karakteristika funkcionalna, tj. karakterizira potpuna korespondencija između X I at. Što bliže do 1, uzima se u obzir bliža veza između proučavanih karakteristika.

Ako se indeks korelacije (upareni linearni koeficijent korelacije) kvadrira, dobijamo koeficijent determinacije.

Koeficijent determinacije– predstavlja udio faktorske varijance u ukupnom iznosu i pokazuje za koji postotak je varijacija rezultirajuće karakteristike at objašnjeno varijacijom faktorske karakteristike X:

To ne karakterizira cijelu varijaciju at od faktorskog znaka X, već samo onaj njegov dio koji odgovara jednadžbi linearne regresije, tj. prikazuje proporciju varijacije u rezultantnoj karakteristici koja je linearno povezana sa varijacijom faktorske karakteristike.

Magnituda
– udio varijacije rezultirajuće karakteristike koju regresijski model nije mogao uzeti u obzir.

Disperzija tačaka u korelacionom polju može biti veoma velika, a izračunata jednačina regresije može dati veliku grešku u proceni analiziranog indikatora.

Prosječna greška aproksimacije prikazuje prosječno odstupanje izračunatih vrijednosti od stvarnih:

Maksimalna dozvoljena vrijednost je 12–15%.

Standardna greška je mjera širenja zavisne varijable oko linije regresije.Za cijeli skup promatranih vrijednosti izračunava se standard (rms) greška regresijske jednačine, što je standardna devijacija stvarnih vrijednosti at u odnosu na teorijske vrijednosti izračunate pomoću jednadžbe regresije at X .

,

Gdje
– broj stepeni slobode;

m– broj parametara jednačine regresije (za pravolinijske jednačine m=2).

Možete procijeniti vrijednost srednje kvadratne greške upoređujući je

a) sa prosječnom vrijednošću rezultirajuće karakteristike at;

b) sa standardnom devijacijom karakteristike at:

Ako
, onda je upotreba ove regresione jednadžbe prikladna.

Zasebno se ocjenjuje standard (srednje kvadratne) greške parametara jednačine i indeksa korelacije:

;
;
.

X- standardna devijacija X.

Provjera značaja regresione jednačine i pokazatelja nepropusnosti veze

Da bi se izgrađeni model koristio za dalje ekonomske proračune, nije dovoljna provjera kvaliteta izrađenog modela. Također je potrebno provjeriti značajnost (značajnost) procjena regresione jednačine dobijene metodom najmanjih kvadrata i indikatora jačine odnosa, tj. potrebno je provjeriti njihovu usklađenost sa pravim parametrima odnosa.

To je zbog činjenice da pokazatelji izračunati iz ograničene populacije zadržavaju element slučajnosti svojstven pojedinačnim vrijednostima atributa. Stoga su to samo procjene određenog statističkog obrasca. Potrebno je procijeniti stepen tačnosti i značajnosti (pouzdanosti, značajnosti) regresijskih parametara. Ispod značaj razumjeti vjerovatnoću da vrijednost parametra koji se testira nije nula i da ne uključuje vrijednosti suprotnih predznaka.

Provjera značaja– provjera pretpostavke da su parametri različiti od nule.

Procjena značaja uparene regresione jednačine svodi se na testiranje hipoteza o značaju regresione jednadžbe u cjelini i njenih pojedinačnih parametara ( a, b), koeficijent determinacije para ili indeks korelacije.

U ovom slučaju može se iznijeti sljedeće: glavne hipotezeH 0 :

1)
– koeficijenti regresije su beznačajni i jednačina regresije je takođe beznačajna;

2)
– upareni koeficijent determinacije je beznačajan i regresiona jednačina je takođe beznačajna.

Sljedeće hipoteze su alternativne (ili obrnute):

1)
– koeficijenti regresije se značajno razlikuju od nule, a konstruisana jednačina regresije je značajna;

2)
– upareni koeficijent determinacije se značajno razlikuje od nule i konstruisana regresiona jednačina je značajna.

Testiranje hipoteze o značaju uparene regresijske jednadžbe

Za testiranje hipoteze o statističkoj beznačajnosti regresione jednadžbe u cjelini i koeficijenta determinacije koristimo F-kriterijum(Fisher test):

ili

Gdje k 1 = m–1 ; k 2 = nm – broj stepeni slobode;

n– broj populacijskih jedinica;

m– broj parametara regresijske jednačine;

–faktorska disperzija;

– rezidualna varijansa.

Hipoteza se provjerava na sljedeći način:

1) ako je stvarna (uočena) vrijednost F-kriterijum je veći od kritične (tabelarne) vrijednosti ovog kriterija
, zatim sa vjerovatnoćom
glavna hipoteza o beznačajnosti regresione jednačine ili uparenog koeficijenta determinacije se odbacuje, a regresiona jednačina se smatra značajnom;

2) ako je stvarna (uočena) vrijednost F-testa manja kritična vrijednost ovaj kriterijum
, zatim sa vjerovatnoćom (
) prihvata se glavna hipoteza o beznačajnosti regresione jednačine ili uparenog koeficijenta determinacije, a konstruisana regresiona jednačina se smatra beznačajnom.

Kritična vrijednost F-kriterijumi se nalaze u odgovarajućim tabelama u zavisnosti od nivoa značaja i broj stepena slobode
.

Broj stepeni slobode– indikator, koji se definiše kao razlika između veličine uzorka ( n) i broj procijenjenih parametara za dati uzorak ( m). Za model parne regresije, broj stupnjeva slobode se izračunava kao
, budući da su dva parametra procijenjena iz uzorka (
).

Nivo značaja – utvrđena vrijednost
,

Gdje – vjerovatnoća povjerenja u koju procijenjeni parametar spada interval povjerenja. Obično se prihvata 0,95. Dakle je vjerovatnoća da procijenjeni parametar neće pasti u interval pouzdanosti, jednak 0,05 (5%).

Zatim, u slučaju procene značajnosti uparene regresione jednačine, kritična vrednost F-testa se izračunava kao
:

.

Testiranje hipoteze o značaju parametara uparene regresione jednadžbe i indeksa korelacije

Prilikom provjere značajnosti parametara jednačine (pretpostavka da se parametri razlikuju od nule) postavlja se glavna hipoteza o beznačajnosti dobijenih procjena (
. Kao alternativna (inverzna) hipoteza se postavlja o značaju parametara jednačine (
).

Koristi se za testiranje postavljenih hipoteza t -kriterijum (t-statistika) Studentski test. Uočena vrijednost t-kriterijum se poredi sa vrednošću t-kriterijum određen iz Studentove tabele raspodjele (kritična vrijednost). Kritična vrijednost t-kriterijumi
zavisi od dva parametra: nivoa značajnosti i broj stepena slobode
.

Iznesene hipoteze se provjeravaju na sljedeći način:

1) ako je apsolutna vrijednost posmatrane vrijednosti t-kriterijumi veći od kritične vrijednosti t-kriterijumi, tj.
, zatim sa vjerovatnoćom
odbacuje se glavna hipoteza o beznačajnosti parametara regresije, tj. parametri regresije nisu jednaki 0;

2) ako je apsolutna vrednost posmatrane vrednosti t-kriterijum je manji ili jednak kritičnoj vrijednosti t-kriterijumi, tj.
, zatim sa vjerovatnoćom
prihvata se glavna hipoteza o beznačajnosti parametara regresije, tj. Parametri regresije se gotovo ne razlikuju od 0 ili jednaki 0.

Procjena značajnosti koeficijenata regresije pomoću Studentovog testa vrši se poređenjem njihovih procjena sa vrijednošću standardne greške:

;

Za procjenu statističke značajnosti indeksa korelacije (linearni koeficijent) se također koristi t- Studentov t-test.

Šta je regresija?

Razmotrimo dvije kontinuirane varijable x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Postavimo tačke na dvodimenzionalni dijagram raspršenja i kažemo da imamo linearna relacija, ako su podaci aproksimirani ravnom linijom.

Ako vjerujemo u to y zavisi od x, i promjene u y uzrokovane su upravo promjenama u x, možemo odrediti liniju regresije (regresiju y on x), što najbolje opisuje linearni odnos između ove dvije varijable.

Statistička upotreba riječi regresija dolazi od fenomena poznatog kao regresija na srednju vrijednost, koji se pripisuje Sir Francisu Galtonu (1889).

Pokazao je da iako visoki očevi obično imaju visoke sinove, prosječna visina sinova je niža od visine njihovih visokih očeva. Prosječna visina sinova je „nazad” i „nazad” prema prosječnoj visini svih očeva u populaciji. Tako, u prosjeku, visoki očevi imaju niže (ali još uvijek prilično visoke) sinove, a niski očevi imaju više (ali još uvijek prilično niske) sinove.

Regresijska linija

Matematička jednačina koja vrednuje jednostavnu (uparenu) liniju linearna regresija:

x naziva se nezavisna varijabla ili prediktor.

Y- zavisna varijabla ili varijabla odgovora. Ovo je vrijednost koju očekujemo y(u prosjeku) ako znamo vrijednost x, tj. je "predviđena vrijednost" y»

  • a- slobodni član (raskrsnica) linije evaluacije; ovo je značenje Y, Kada x=0(Sl.1).
  • b- nagib ili nagib procijenjene linije; predstavlja iznos kojim Y povećava se u prosjeku ako povećamo x za jednu jedinicu.
  • a I b nazivaju se koeficijenti regresije procijenjene linije, iako se ovaj izraz često koristi samo za b.

Parna linearna regresija se može proširiti da uključi više od jedne nezavisne varijable; u ovom slučaju je poznat kao višestruka regresija.

Fig.1. Linija linearne regresije koja pokazuje presek a i nagib b (iznos Y raste kako se x povećava za jednu jedinicu)

Metoda najmanjeg kvadrata

Mi ispunjavamo regresiona analiza, koristeći uzorak zapažanja, gdje a I b- procjene uzorka pravih (općih) parametara, α i β, koji određuju liniju linearne regresije u populaciji (opšta populacija).

Većina jednostavna metoda određivanje koeficijenata a I b je metoda najmanjeg kvadrata(MNC).

Poklapanje se procjenjuje gledanjem ostataka (vertikalna udaljenost svake tačke od linije, npr. ostatak = posmatrano y- predviđeno y, Rice. 2).

Linija koja najbolje odgovara odabrana je tako da je zbir kvadrata reziduala minimalan.

Rice. 2. Linija linearne regresije sa prikazanim ostacima (vertikalne isprekidane linije) za svaku tačku.

Pretpostavke linearne regresije

Dakle, za svaku posmatranu vrijednost ostatak je jednak razlici i odgovarajućoj predviđenoj vrijednosti.Svaki ostatak može biti pozitivan ili negativan.

Možete koristiti ostatke da testirate sljedeće pretpostavke iza linearne regresije:

  • Ostaci se normalno raspoređuju sa srednjom vrednošću nula;

Ako su pretpostavke linearnosti, normalnosti i/ili konstantne varijanse upitne, možemo transformirati ili izračunati novu regresijsku liniju za koju su te pretpostavke zadovoljene (na primjer, koristiti logaritamsku transformaciju, itd.).

Anomalne vrijednosti (outliers) i tačke utjecaja

"Utjecajno" zapažanje, ako se izostavi, mijenja jednu ili više procjena parametara modela (tj. nagib ili presek).

Izuzetno (zapažanje koje nije u skladu s većinom vrijednosti u skupu podataka) može biti "utjecajno" zapažanje i može se lako otkriti vizualno pregledom bivarijatnog dijagrama raspršenja ili rezidualnog dijagrama.

I za autliere i za „uticajna“ zapažanja (tačke), koriste se modeli, sa i bez njihovog uključivanja, a pažnja se poklanja promjenama u procjenama (koeficijenti regresije).

Kada provodite analizu, ne biste trebali automatski odbaciti vanjske vrijednosti ili točke utjecaja, jer jednostavno ignoriranje može utjecati na dobivene rezultate. Uvijek proučite razloge za ove odlike i analizirajte ih.

Hipoteza linearne regresije

Prilikom konstruiranja linearne regresije testira se nulta hipoteza da je opći nagib linije regresije β jednak nuli.

Ako je nagib linije nula, ne postoji linearni odnos između i: promjena ne utiče

Da biste testirali nultu hipotezu da je pravi nagib nula, možete koristiti sljedeći algoritam:

Izračunajte statistiku testa jednaku omjeru , koji podliježe distribuciji sa stupnjevima slobode, gdje je standardna greška koeficijenta


,

- procjena disperzije ostataka.

Obično ako dostignuti nivo značaja, nulta hipoteza se odbacuje.


gdje je procentualni poen distribucije sa stupnjevima slobode, što daje vjerovatnoću dvostranog testa

Ovo je interval koji sadrži opći nagib sa vjerovatnoćom od 95%.

Za velike uzorke, recimo, možemo aproksimirati sa vrijednošću od 1,96 (to jest, statistika testa će imati tendenciju da bude normalno raspoređena)

Procjena kvaliteta linearne regresije: koeficijent determinacije R 2

Zbog linearnog odnosa i očekujemo da se to mijenja kao , i nazvati je varijacijom koja je posljedica ili objašnjena regresijom. Preostala varijacija treba da bude što manja.

Ako je to tačno, tada će većina varijacija biti objašnjena regresijom, a tačke će ležati blizu linije regresije, tj. linija se dobro uklapa u podatke.

Dijeli totalna varijansa, što se objašnjava regresijom zove se koeficijent odlučnosti, obično se izražava u postocima i označava R 2(u parnoj linearnoj regresiji ovo je količina r 2, kvadrat koeficijenta korelacije), omogućava subjektivno procjenu kvaliteta jednačine regresije.

Razlika predstavlja postotak varijanse koja se ne može objasniti regresijom.

Ne postoji formalni test za procjenu; moramo se osloniti na subjektivno prosuđivanje da bismo odredili dobro uklapanje linije regresije.

Primjena linije regresije na prognozu

Možete koristiti liniju regresije da predvidite vrijednost iz vrijednosti na krajnjem kraju posmatranog raspona (nikada nemojte ekstrapolirati izvan ovih granica).

Predviđamo srednju vrijednost opservablea koji imaju određenu vrijednost tako što tu vrijednost ubacimo u jednadžbu regresijske linije.

Dakle, ako predvidimo kako ćemo koristiti ovu predviđenu vrijednost i njenu standardna greška za procjenu intervala povjerenja za istinito prosječne veličine u populaciji.

Ponavljanje ove procedure za različite vrijednosti omogućava vam da izgradite granice pouzdanosti za ovu liniju. Ovo je pojas ili područje koje sadrži pravu liniju, na primjer na 95% nivoa pouzdanosti.

Jednostavni regresijski planovi

Jednostavni regresijski dizajni sadrže jedan kontinuirani prediktor. Ako postoje 3 opservacije sa prediktorskim vrijednostima P, kao što su 7, 4 i 9, a dizajn uključuje efekat prvog reda P, tada će matrica dizajna X biti

a jednadžba regresije koja koristi P za X1 je

Y = b0 + b1 P

Ako jednostavan dizajn regresije sadrži efekt višeg reda za P, na primjer, kvadratni efekat, tada će vrijednosti u stupcu X1 u matrici dizajna biti podignute na drugi stepen:

i jednačina će poprimiti oblik

Y = b0 + b1 P2

Metode kodiranja ograničene na sigmu i prekomjerno parametrizirane se ne primjenjuju na jednostavne regresijske dizajne i druge dizajne koji sadrže samo kontinuirane prediktore (jer jednostavno ne postoje kategorički prediktori). Bez obzira na odabranu metodu kodiranja, vrijednosti kontinuiranih varijabli se u skladu s tim povećavaju i koriste kao vrijednosti za X varijable. U ovom slučaju se ne vrši nikakvo rekodiranje. Osim toga, kada opisujete planove regresije, možete izostaviti razmatranje matrice dizajna X i raditi samo s jednadžbom regresije.

Primjer: Jednostavna regresijska analiza

Ovaj primjer koristi podatke prikazane u tabeli:

Rice. 3. Tabela početnih podataka.

Podaci prikupljeni iz poređenja popisa stanovništva iz 1960. i 1970. godine u nasumično odabranih 30 županija. Nazivi županija su predstavljeni kao nazivi opažanja. Informacije o svakoj varijabli su predstavljene u nastavku:

Rice. 4. Tabela varijabilnih specifikacija.

Problem istraživanja

Za ovaj primjer, analizirat će se korelacija između stope siromaštva i stepena koji predviđa procenat porodica koje su ispod linije siromaštva. Stoga ćemo varijablu 3 (Pt_Poor) tretirati kao zavisnu varijablu.

Možemo postaviti hipotezu: promjene u veličini stanovništva i postotku porodica koje su ispod granice siromaštva su povezane. Čini se razumnim očekivati ​​da siromaštvo vodi migraciji, tako da bi postojala negativna korelacija između procenta ljudi ispod granice siromaštva i promjene stanovništva. Stoga ćemo varijablu 1 (Pop_Chng) tretirati kao prediktorsku varijablu.

Pogledaj rezultate

Regresijski koeficijenti

Rice. 5. Koeficijenti regresije Pt_Poor na Pop_Chng.

Na raskrsnici reda Pop_Chng i kolone Param. nestandardizovani koeficijent za regresiju Pt_Poor na Pop_Chng je -0,40374. To znači da za svaku jedinicu smanjenja stanovništva dolazi do povećanja stope siromaštva od .40374. Gornja i donja (podrazumevana) granica pouzdanosti od 95% za ovaj nestandardizovani koeficijent ne uključuje nulu, tako da je koeficijent regresije značajan na nivou p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Varijabilna distribucija

Koeficijenti korelacije mogu postati značajno precijenjeni ili potcijenjeni ako su u podacima prisutni veliki odstupnici. Proučimo distribuciju zavisne varijable Pt_Poor po okrugu. Da bismo to učinili, napravimo histogram varijable Pt_Poor.

Rice. 6. Histogram varijable Pt_Poor.

Kao što vidite, distribucija ove varijable značajno se razlikuje od normalne distribucije. Međutim, iako čak dva okruga (dva desna kolona) imaju veći postotak porodica koje su ispod granice siromaštva nego što se očekivalo u normalnoj distribuciji, čini se da su „unutar raspona“.

Rice. 7. Histogram varijable Pt_Poor.

Ovaj sud je donekle subjektivan. Opće pravilo je da se odstupanja trebaju uzeti u obzir ako opažanje (ili zapažanja) ne spadaju u interval (srednja vrijednost ± 3 puta standardna devijacija). U ovom slučaju, vrijedno je ponoviti analizu sa i bez outliera kako bi se osiguralo da oni nemaju veći utjecaj na korelaciju između članova populacije.

Scatterplot

Ako je jedna od hipoteza a priori o odnosu između datih varijabli, onda je korisno testirati je na grafu odgovarajućeg dijagrama raspršenja.

Rice. 8. Scatter dijagram.

Dijagram raspršenja pokazuje jasnu negativnu korelaciju (-.65) između dvije varijable. Takođe pokazuje interval pouzdanosti od 95% za regresijsku liniju, tj. postoji 95% vjerovatnoća da linija regresije leži između dvije isprekidane krive.

Kriterijumi značajnosti

Rice. 9. Tabela koja sadrži kriterijume značajnosti.

Test za koeficijent regresije Pop_Chng potvrđuje da je Pop_Chng snažno povezan sa Pt_Poor , p<.001 .

Zaključak

Ovaj primjer je pokazao kako analizirati jednostavan dizajn regresije. Također su predstavljene interpretacije nestandardiziranih i standardiziranih regresijskih koeficijenata. Raspravlja se o važnosti proučavanja distribucije odgovora zavisne varijable i demonstrira se tehnika za određivanje smjera i jačine veze između prediktora i zavisne varijable.

Tokom studija studenti se vrlo često susreću sa raznim jednačinama. Jedna od njih - jednačina regresije - razmatra se u ovom članku. Ova vrsta jednadžbe se koristi posebno za opisivanje karakteristika odnosa između matematičkih parametara. Ova vrsta jednakosti se koristi u statistici i ekonometriji.

Definicija regresije

U matematici, regresija označava određenu veličinu koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Jednačina regresije pokazuje, kao funkciju određene karakteristike, prosječnu vrijednost druge karakteristike. Funkcija regresije ima oblik jednostavne jednadžbe y = x, u kojoj y djeluje kao zavisna varijabla, a x kao nezavisna varijabla (faktor-faktor). U stvari, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli?

Općenito, postoje dvije suprotne vrste odnosa: korelacija i regresija.

Prvi karakteriše jednakost uslovnih varijabli. U ovom slučaju nije pouzdano poznato koja varijabla zavisi od druge.

Ako ne postoji jednakost između varijabli i uvjeti govore koja varijabla je eksplanatorna, a koja zavisna, onda možemo govoriti o prisutnosti veze drugog tipa. Da bi se konstruisala jednačina linearne regresije, biće potrebno saznati kakav se tip odnosa posmatra.

Vrste regresije

Danas postoji 7 različitih tipova regresije: hiperbolička, linearna, višestruka, nelinearna, parna, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednačina linearne regresije se koristi u statistici za jasno objašnjenje parametara jednačine. Izgleda kao y = c+t*x+E. Hiperbolična jednačina ima oblik regularne hiperbole y = c + m / x + E. Logaritamski linearna jednačina izražava odnos pomoću logaritamske funkcije: In y = In c + m * In x + In E.

Višestruki i nelinearni

Dvije složenije vrste regresije su višestruke i nelinearne. Jednačina višestruke regresije izražava se funkcijom y = f(x 1, x 2 ... x c) + E. U ovoj situaciji, y djeluje kao zavisna varijabla, a x djeluje kao varijabla koja objašnjava. E varijabla je stohastička i uključuje utjecaj drugih faktora u jednačini. Jednačina nelinearne regresije je pomalo kontroverzna. S jedne strane, u odnosu na indikatore koji se uzimaju u obzir, nije linearan, ali s druge strane, u ulozi indikatora ocjenjivanja je linearan.

Inverzne i uparene vrste regresija

Inverzna je vrsta funkcije koju treba pretvoriti u linearni oblik. U najtradicionalnijim aplikativnim programima ima oblik funkcije y = 1/c + m*x+E. Jednačina parne regresije pokazuje odnos između podataka kao funkcije y = f (x) + E. Kao iu drugim jednadžbama, y ​​ovisi o x, a E je stohastički parametar.

Koncept korelacije

Ovo je indikator koji pokazuje postojanje veze između dva fenomena ili procesa. Jačina veze se izražava kao koeficijent korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan indikator ukazuje na prisustvo povratne informacije, pozitivan indikator ukazuje na direktnu povratnu informaciju. Ako koeficijent ima vrijednost jednaku 0, onda nema veze. Što je vrijednost bliža 1, to je jača veza između parametara; što je bliža 0, to je slabija.

Metode

Korelacione parametarske metode mogu proceniti snagu veze. Koriste se na osnovu procjene distribucije za proučavanje parametara koji se pridržavaju zakona normalne distribucije.

Parametri jednačine linearne regresije su neophodni za identifikaciju tipa zavisnosti, funkciju jednačine regresije i procenu indikatora izabrane formule odnosa. Korelaciono polje se koristi kao metoda identifikacije veze. Da biste to učinili, svi postojeći podaci moraju biti grafički prikazani. Svi poznati podaci moraju biti ucrtani u pravougaoni dvodimenzionalni koordinatni sistem. Tako se formira korelaciono polje. Vrijednosti opisnog faktora su označene duž apscisne ose, dok su vrijednosti zavisnog faktora označene duž ordinatne ose. Ako postoji funkcionalni odnos između parametara, oni su poređani u obliku linije.

Ako je koeficijent korelacije takvih podataka manji od 30%, možemo govoriti o gotovo potpunom odsustvu povezanosti. Ako je između 30% i 70%, onda to ukazuje na prisustvo srednje bliskih veza. 100% indikator je dokaz funkcionalne veze.

Jednačina nelinearne regresije, baš kao i linearna, mora biti dopunjena indeksom korelacije (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je pokazatelj kvadrata višestruke korelacije. On govori o bliskoj povezanosti prikazanog skupa indikatora sa karakteristikom koja se proučava. Takođe se može govoriti o prirodi uticaja parametara na rezultat. Jednačina višestruke regresije se procjenjuje korištenjem ovog indikatora.

Da bi se izračunao indikator višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način za procjenu faktora regresije. Njegova je suština minimizirati sumu kvadrata odstupanja dobivenih kao rezultat ovisnosti faktora o funkciji.

Jednadžba linearne regresije u paru može se procijeniti pomoću takve metode. Ova vrsta jednadžbi se koristi kada se otkrije upareni linearni odnos između indikatora.

Parametri jednačine

Svaki parametar funkcije linearne regresije ima specifično značenje. Uparena jednačina linearne regresije sadrži dva parametra: c i m. Parametar m pokazuje prosječnu promjenu konačnog indikatora funkcije y, pod uslovom da se varijabla x smanji (poveća) za jednu konvencionalnu jedinicu. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, onda faktor c nema ekonomsko značenje. Jedini uticaj na funkciju je znak ispred faktora c. Ako postoji minus, onda možemo reći da je promjena rezultata spora u odnosu na faktor. Ako postoji plus, onda to ukazuje na ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost jednačine regresije može se izraziti kroz jednačinu. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje uvjeti zadatka u kojima su sve informacije grupirane po atributu x, ali za određenu grupu su naznačene odgovarajuće prosječne vrijednosti zavisnog indikatora. U ovom slučaju, prosječne vrijednosti karakteriziraju kako se indikator mijenja ovisno o x. Dakle, grupisane informacije pomažu u pronalaženju regresijske jednačine. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosječni pokazatelji su često podložni vanjskim fluktuacijama. Ove fluktuacije ne odražavaju obrazac odnosa; one samo maskiraju njegovu „buku“. Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem broja pojedinačne populacije sa odgovarajućim prosjekom, može se dobiti zbir y unutar grupe. Zatim morate zbrojiti sve primljene iznose i pronaći konačni pokazatelj y. Malo je teže izvršiti proračune sa indikatorom zbira xy. Ako su intervali mali, možemo uslovno uzeti indikator x za sve jedinice (unutar grupe) da je isti. Trebali biste ga pomnožiti sa zbirom y da biste saznali zbir proizvoda x i y. Zatim se svi iznosi sabiraju i dobije se ukupan iznos xy.

Jednačina višestruke parne regresije: procjena važnosti veze

Kao što je ranije objašnjeno, višestruka regresija ima funkciju oblika y = f (x 1,x 2,…,x m)+E. Najčešće se ovakva jednadžba koristi za rješavanje problema ponude i potražnje za proizvodom, prihoda od kamata na otkupljene dionice, te za proučavanje uzroka i vrste funkcije troškova proizvodnje. Takođe se aktivno koristi u širokom spektru makroekonomskih studija i proračuna, ali na nivou mikroekonomije ova jednačina se koristi nešto rjeđe.

Osnovni zadatak višestruke regresije je da se izgradi model podataka koji sadrži ogromnu količinu informacija kako bi se dalje utvrdilo kakav uticaj svaki od faktora pojedinačno iu svojoj ukupnosti ima na indikator koji treba modelirati i njegove koeficijente. Jednačina regresije može poprimiti širok raspon vrijednosti. U ovom slučaju, za procjenu odnosa, obično se koriste dvije vrste funkcija: linearne i nelinearne.

Linearna funkcija je prikazana u obliku sljedećeg odnosa: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. U ovom slučaju, a2, a m se smatraju “čistim” koeficijentom regresije. Oni su neophodni za karakterizaciju prosječne promjene parametra y sa promjenom (smanjenjem ili povećanjem) svakog odgovarajućeg parametra x za jednu jedinicu, uz uvjet stabilnih vrijednosti ostalih indikatora.

Nelinearne jednadžbe imaju, na primjer, oblik funkcije stepena y=ax 1 b1 x 2 b2 ...x m bm. U ovom slučaju, indikatori b 1, b 2 ..... b m nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg indikatora x za 1% i sa stabilnim pokazateljem drugih faktora.

Koje faktore treba uzeti u obzir pri konstruisanju višestruke regresije

Da bi se pravilno izgradila višestruka regresija, potrebno je saznati na koje faktore treba obratiti posebnu pažnju.

Neophodno je imati određeno razumijevanje prirode odnosa između ekonomskih faktora i onoga što se modelira. Faktori koji će se morati uključiti moraju ispunjavati sljedeće kriterije:

  • Mora biti predmet kvantitativnog mjerenja. Da bi se koristio faktor koji opisuje kvalitetu nekog objekta, u svakom slučaju mu treba dati kvantitativni oblik.
  • Ne bi trebalo postojati međusobna povezanost faktora ili funkcionalni odnos. Takve radnje najčešće dovode do nepovratnih posljedica - sistem običnih jednačina postaje bezuvjetan, a to podrazumijeva njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog korelacionog indikatora, ne postoji način da se sazna izolovani uticaj faktora na krajnji rezultat indikatora, stoga koeficijenti postaju neinterpretljivi.

Metode izgradnje

Postoji ogroman broj metoda i metoda koje objašnjavaju kako možete odabrati faktore za jednadžbu. Međutim, sve ove metode se zasnivaju na odabiru koeficijenata pomoću indikatora korelacije. Među njima su:

  • Metoda eliminacije.
  • Metoda prebacivanja.
  • Postepena regresiona analiza.

Prva metoda uključuje filtriranje svih koeficijenata iz ukupnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su prethodno korišteni za jednačinu. Svaka od ovih metoda ima pravo na postojanje. Oni imaju svoje prednosti i nedostatke, ali svi mogu na svoj način riješiti pitanje eliminacije nepotrebnih indikatora. U pravilu, rezultati dobiveni svakom pojedinačnom metodom su prilično bliski.

Metode multivarijantne analize

Takve metode za određivanje faktora zasnivaju se na razmatranju pojedinačnih kombinacija međusobno povezanih karakteristika. To uključuje diskriminantnu analizu, prepoznavanje oblika, analizu glavnih komponenti i analizu klastera. Osim toga, postoji i faktorska analiza, ali se pojavila zbog razvoja komponentne metode. Sve se primjenjuju u određenim okolnostima, pod određenim uvjetima i faktorima.

Predmet:Elementi teorije korelacije

Objekti većeg broja općih populacija imaju nekoliko karakteristika X, Y, ... koje se mogu proučavati, a koje se mogu tumačiti kao sistem međusobno povezanih veličina. Primjeri uključuju: težinu životinje i količinu hemoglobina u krvi, visinu čovjeka i zapreminu grudnog koša, povećanje broja radnih mjesta u prostoriji i učestalost virusnih infekcija, količinu primijenjenog lijeka i njegova koncentracija u krvi itd.

Očigledno je da postoji veza između ovih veličina, ali to ne može biti stroga funkcionalna zavisnost, jer na promjenu jedne od veličina utiče ne samo promjena druge veličine, već i drugi faktori. U takvim slučajevima se kaže da su te dvije veličine povezane stohastički(tj. slučajna) zavisnost. Proučavaćemo poseban slučaj stohastičke zavisnosti - korelacione zavisnosti.

DEFINICIJA:stohastički, ako na promjenu jednog od njih utječe ne samo promjena druge veličine, već i drugi faktori.

DEFINICIJA: Zavisnost slučajnih varijabli se naziva statistički, ako promjene u jednom od njih dovode do promjene zakona raspodjele drugog.

DEFINICIJA: Ako promjena jedne od slučajnih varijabli povlači promjenu prosjeka druge slučajne varijable, tada se statistička ovisnost naziva korelacija.

Primjeri korelacione zavisnosti su veze između:

Tjelesna težina i visina;

    doza jonizujućeg zračenja i broj mutacija;

    pigment ljudske kose i boja očiju;

    indikatori životnog standarda stanovništva i stope mortaliteta;

    broj propuštenih predavanja i ocjena ispita itd.

Upravo se korelacijske ovisnosti najčešće nalaze u prirodi zbog međusobnog utjecaja i bliskog preplitanja velikog broja vrlo različitih faktora koji određuju vrijednosti indikatora koji se proučavaju.

Rezultati opservacija izvršenih na određenom biološkom objektu na osnovu korelacionih karakteristika Y i X mogu se prikazati kao tačke na ravni konstruisanjem sistema pravougaonih koordinata. Rezultat je neka vrsta dijagrama raspršenosti koji omogućava prosuđivanje oblika i bliskosti odnosa između različitih karakteristika.

Ako se ovaj odnos može aproksimirati nekom krivom, tada će biti moguće predvidjeti promjenu jednog od parametara sa ciljanom promjenom drugog parametra.

Korelaciona zavisnost od
može se opisati pomoću jednačine oblika

(1)

G
de
uslovni prosek količine , što odgovara vrijednosti količine
, A
neka funkcija. Jednačina (1) se zove on
.

Fig.1. Linearna regresija je značajna. Model
.

Funkcija
pozvao regresija uzorka on
, a njegov graf je linija regresije uzorka on
.

Prilično slično jednadžba regresije uzorka
on je jednačina
.

U zavisnosti od vrste regresione jednadžbe i oblika odgovarajuće regresione linije, određuje se oblik korelacije između veličina koje se razmatraju - linearni, kvadratni, eksponencijalni, eksponencijalni.

Najvažnije pitanje je izbor vrste regresijske funkcije
[or
], na primjer linearni ili nelinearni (eksponencijalni, logaritamski, itd.)

U praksi se tip funkcije regresije može odrediti konstruiranjem skupa tačaka na koordinatnoj ravni koje odgovaraju svim dostupnim parovima opservacija (
).

Rice. 2. Linearna regresija nije značajna. Model
.

R
je. 3. Nelinearni model
.

Na primjer, na slici 1. vidljiv je trend rasta vrijednosti sa rastom
, dok su prosječne vrijednosti vizuelno smešten na pravoj liniji. Ima smisla koristiti linearni model (vrsta zavisnosti od
obično se naziva modelom zavisnosti od
.

Na sl.2. prosječne vrijednosti ne zavisi od , stoga je linearna regresija beznačajna (funkcija regresije je konstantna i jednaka ).

Na sl. 3. Postoji tendencija da model bude nelinearan.

Primjeri linearne ovisnosti:

    povećanje količine konzumiranog joda i smanjenje učestalosti gušavosti,

    povećanje radnog staža i povećanje produktivnosti.

Primjeri krivolinijske zavisnosti:

    sa povećanjem padavina, prinos se povećava, ali to se dešava do određene granice padavina. Nakon kritične tačke, padavine su već prekomjerne, zemljište se zamočvari i prinos se smanjuje,

    odnos između doze hlora koji se koristi za dezinfekciju vode i broja bakterija u 1 ml. vode. Kako se doza hlora povećava, broj bakterija u vodi se smanjuje, ali kada dostigne kritičnu tačku, broj bakterija će ostati konstantan (ili potpuno odsutan), koliko god povećali dozu hlora.

Linearna regresija

Odabravši tip regresijske funkcije, tj. tip modela zavisnosti koji se razmatra od X (ili X od Y), na primjer, linearni model
, potrebno je odrediti specifične vrijednosti koeficijenata modela.

Na različitim vrijednostima A I
možete izgraditi beskonačan broj zavisnosti forme
odnosno postoji beskonačan broj pravih linija na koordinatnoj ravni, ali nam je potrebna zavisnost koja najbolje odgovara posmatranim vrednostima. Dakle, zadatak se svodi na odabir najboljih koeficijenata.

Metoda najmanjih kvadrata (LS)

Linearna funkcija
Pretražujemo samo na osnovu određenog broja dostupnih zapažanja. Da bismo pronašli funkciju koja najbolje odgovara promatranim vrijednostima, koristimo se metoda najmanjeg kvadrata.

Fig.4. Objašnjenje za procjenu koeficijenata metodom najmanjih kvadrata

Označimo: - vrijednost izračunata iz jednačine

- izmjerena vrijednost,

- razlika između izmjerenih i izračunatih vrijednosti pomoću jednačine,

.

IN metoda najmanjih kvadrata to je potrebno , razlika između izmjerenih i vrijednosti izračunate pomoću jednačine , bio je minimalan. Stoga možemo pronaći koeficijente A I tako da je zbir kvadrata odstupanja posmatranih vrednosti od vrednosti na pravoj regresijskoj liniji najmanji:

Ovaj uslov se postiže ako su parametri A I izračunat će se pomoću formula:

pozvao koeficijent regresije; pozvao besplatni član regresijske jednačine.

Rezultirajuća ravna linija je procjena teorijske linije regresije. Imamo

dakle,
je jednadžba linearne regresije.

Regresija može biti direktna
i obrnuto
.

DEFINICIJA: Regresija unazad znači da kako se jedan parametar povećava, vrijednosti drugog parametra se smanjuju.

Uparena linearna regresija je odnos između jedne varijable i prosjeka druge varijable. Najčešće se model piše kao $y=ax+b+e$, gdje je $x$ faktorska varijabla, $y$ je rezultanta (zavisna), $e$ je slučajna komponenta (rezidual, devijacija).

U obrazovnim problemima u matematičkoj statistici obično se koristi sljedeće: algoritam da se pronađe jednačina regresije.

  1. Odabir modela (jednačina). Često je model unaprijed određen (pronađi linearna regresija) ili koristite grafičku metodu za odabir: konstruirajte dijagram raspršenja i analizirajte njegov oblik.
  2. Izračunavanje koeficijenata (parametara) regresione jednadžbe. Često se za to koristi metoda najmanjih kvadrata.
  3. Provjera značajnosti koeficijenta korelacije i parametara modela (možete konstruirati i intervale povjerenja za njih), procjenu kvaliteta modela korištenjem Fisherovog kriterija.
  4. Analiza rezidua, proračun standardne greške regresije, prognoza modela (opciono).

U nastavku ćete naći rješenja za uparene regresije (koristeći niz podataka ili korelacijske tablice, sa raznim dodatnim zadacima) i nekoliko problema za određivanje i proučavanje koeficijenta korelacije.


Sviđa mi se? Dodaj u oznake

Primjeri rješenja na mreži: linearna regresija

Jednostavno uzorkovanje

Primjer 1. Postoje podaci o prosječnoj proizvodnji po radniku Y (hiljadu rubalja) i prometu X (hiljadu rubalja) u 20 trgovina po kvartalu. Na osnovu navedenih podataka potrebno je sljedeće:
1) utvrditi zavisnost (koeficijent korelacije) prosječne proizvodnje po radniku od trgovinskog prometa,
2) kreirati jednačinu direktne regresije za ovu zavisnost.

Primjer 2. U cilju analize međusobnog uticaja zarada i fluktuacije rada u pet sličnih preduzeća sa istim brojem zaposlenih, merena su visina mesečne zarade X i broj radnika Y koji su dali otkaz u toku godine:
X 100 150 200 250 300
Y 60 35 20 20 15
Pronađite linearnu regresiju Y na X, koeficijent korelacije uzorka.

Primjer 3. Pronađite uzorak numeričkih karakteristika i jednadžbu linearne regresije $y_x=ax+b$. Konstruirajte liniju regresije i opišite tačke $(x,y)$ iz tabele na ravni. Izračunajte preostalu varijansu. Provjerite adekvatnost modela linearne regresije koristeći koeficijent determinacije.

Primjer 4. Izračunajte koeficijente regresijske jednačine. Odredite koeficijent korelacije uzorka između gustine mandžurskog jasenovog drveta i njegove čvrstoće.
Prilikom rješavanja zadatka potrebno je konstruirati korelacijsko polje, odrediti vrstu zavisnosti na osnovu tipa polja, napisati opći oblik regresione jednačine Y na X, odrediti koeficijente regresione jednačine i izračunati koeficijente korelacije. između dve zadate vrednosti.

Primjer 5. Kompanija za iznajmljivanje automobila zainteresovana je za odnos između kilometraže automobila X i mjesečnih troškova održavanja Y. Da bi se utvrdila priroda ovog odnosa, odabrano je 15 automobila. Izgradite graf početnih podataka i odredite prirodu zavisnosti od njega. Izračunajte uzorak Pearsonovog koeficijenta linearne korelacije i testirajte njegovu značajnost na 0,05. Konstruirajte regresionu jednačinu i interpretirajte dobijene rezultate.

Korelaciona tabela

Primjer 6. Pronađite uzorak jednačine direktne regresije Y na X koristeći datu korelaciju

Primjer 7. Tabela 2 pokazuje zavisnost potrošnje Y (konvencionalne jedinice) od prihoda X (konvencionalne jedinice) za neka domaćinstva.
1. Uz pretpostavku linearnog odnosa između X i Y, pronađite tačkaste procjene koeficijenata linearne regresije.
2. Pronađite standardnu ​​devijaciju $s$ i koeficijent determinacije $R^2$.
3. Uz pretpostavku normalnosti slučajne komponente regresijskog modela, testirajte hipotezu da ne postoji linearna veza između Y i X.
4. Kolika je očekivana potrošnja domaćinstva sa prihodom $x_n=7$ konvencionalnim. jedinice? Pronađite interval pouzdanosti za prognozu.
Dajte tumačenje dobijenih rezultata. Nivo značajnosti u svim slučajevima se smatra jednakim 0,05.

Primjer 8. Distribucija 100 novih vrsta tarifa za celularnu komunikaciju svih poznatih mobilnih sistema X (den. jedinica) i prihod od njih Y (den. jedinice) data je u tabeli:
potrebno:
1) Izračunati grupne sredine i konstruisati empirijske regresijske linije;
2) Pod pretpostavkom da postoji linearna korelacija između varijabli X i Y:
A) pronaći jednačine regresijskih linija, nacrtati njihove grafike na istom crtežu sa empirijskim regresijskim linijama i dati ekonomsku interpretaciju rezultirajućih jednačina;
B) izračunati koeficijent korelacije, proceniti njegovu značajnost na nivou značajnosti od 0,05 i izvesti zaključak o bliskosti i smeru veze između varijabli X i Y;
C) koristeći odgovarajuću regresionu jednačinu, procijeniti prosječan prihod od mobilnih sistema sa 20 novih vrsta tarifa.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”