Statistika regresije. Regresiona analiza u Microsoft Excel-u

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Ako postoji korelacija između faktora i karakteristika performansi, doktori često moraju da utvrde za koliko se vrednost jedne karakteristike može promeniti kada se druga promeni u opšteprihvaćenu jedinicu mere ili onu koju je ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčica ili dječaka) ako im se visina poveća za 1 cm?U te svrhe koristi se metoda regresione analize.

Metoda regresijske analize najčešće se koristi za izradu normativnih skala i standarda fizički razvoj.

  1. Definicija regresije. Regresija je funkcija koja omogućava da se iz prosječne vrijednosti jedne karakteristike odredi prosječna vrijednost druge karakteristike koja je u korelaciji s prvom.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati broj prehlade u prosjeku pri određenim vrijednostima srednje mjesečne temperature zraka u jesensko-zimskom periodu.

  2. Određivanje koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se, u prosjeku, vrijednost jedne karakteristike mijenja kada se druga povezana karakteristika promijeni za određenu mjernu jedinicu.
  3. Formula regresijskog koeficijenta. R y/x = r xy x (σ y / σ x)
    gdje je R u/h - koeficijent regresije;
    r xy - koeficijent korelacije između karakteristika x i y;
    (σ y i σ x) - standardne devijacije karakteristika x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature vazduha u jesensko-zimskom periodu;
    σ y = 8,65 (standardna devijacija broja zaraznih i prehladnih bolesti).
    Dakle, R y/x je koeficijent regresije.
    R u/h = -0,96 x (4,6 / 8,65) = 1,8, tj. kada se srednja mjesečna temperatura zraka (x) smanji za 1 stepen, prosječan broj zaraznih i prehladnih bolesti (y) u jesensko-zimskom periodu će se promijeniti za 1,8 slučajeva.

  4. Jednačina regresije. y = M y + R y/x (x - M x)
    gdje je y prosječna vrijednost karakteristike, koju treba odrediti prilikom promjene prosječne veličine druga karakteristika (x);
    x je poznata prosječna vrijednost druge karakteristike;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti karakteristika x i y.

    Na primjer, prosječan broj zaraznih i prehladnih bolesti (y) može se odrediti bez posebnih mjerenja na bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako je x = - 9°, R y/x = 1,8 bolesti, M x = -7°, M y = 20 bolesti, onda je y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova jednadžba vrijedi u slučaju pravolinijska veza između dvije karakteristike (x i y).

  5. Svrha regresione jednadžbe. Jednačina regresije se koristi za konstruisanje regresijske linije. Ovo poslednje omogućava da se bez posebnih merenja odredi bilo koja prosečna vrednost (y) jedne karakteristike ako se vrednost (x) druge karakteristike promeni. Na osnovu ovih podataka konstruiše se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti prosječne mjesečne temperature unutar raspona između izračunatih vrijednosti broja prehlada.
  6. Sigma regresije (formula).
    gdje je σ Ru/h - sigma (standardna devijacija) regresije;
    σ y - standardna devijacija karakteristike y;
    r xy - koeficijent korelacije između karakteristika x i y.

    Dakle, ako je σ y - standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom periodu (x) je jednak -0,96, tada

  7. Regresijska sigma dodjela. Daje opis mjere raznolikosti rezultirajuće karakteristike (y).

    Na primjer, karakteriše raznolikost broja prehlada na određenoj vrijednosti srednje mjesečne temperature zraka u jesensko-zimskom periodu. Dakle, prosječan broj prehlada pri temperaturi zraka x 1 = -6° može se kretati od 15,78 bolesti do 20,62 bolesti.
    Kod x 2 = -9°, prosječan broj prehlada može biti u rasponu od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma se koristi za konstruiranje regresijske skale, koja odražava odstupanje vrijednosti rezultirajuće karakteristike od njene prosječne vrijednosti ucrtane na regresijskoj liniji.

  8. Podaci potrebni za obračun i grafička slika regresijske skale
    • koeficijent regresije - R u/h;
    • jednadžba regresije - y = M y + R y/x (x-M x);
    • sigma regresije - σ Rx/y
  9. Redoslijed proračuna i grafički prikaz skale regresije.
    • odrediti koeficijent regresije koristeći formulu (vidi paragraf 3). Na primjer, potrebno je odrediti koliko će se u prosjeku promijeniti tjelesna težina (u određenoj dobi ovisno o spolu) ako se prosječna visina promijeni za 1 cm.
    • koristeći formulu jednadžbe regresije (vidi tačku 4), odredite kolika će, na primjer, tjelesna težina biti u prosjeku (y, y 2, y 3 ...) * za određenu vrijednost visine (x, x 2, x 3 . ..) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrednosti"X".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamjenjujući njihove vrijednosti u formulu (vidi paragraf 6).
    • na osnovu poznatih vrednosti x 1, x 2, x 3 i odgovarajućih prosečnih vrednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru/h) i najveće (y + σ ru /h) vrijednosti (y) konstruiraju skalu regresije.

      Za grafički prikaz skale regresije, vrijednosti x, x2, x3 (odina ordinate) se prvo označavaju na grafikonu, tj. konstruiše se regresijska linija, na primjer, ovisnost tjelesne težine (y) o visini (x).

      Tada su u odgovarajućim tačkama označene y 1, y 2, y 3 numeričke vrijednosti sigma regresije, tj. pronađite najmanji na grafu i najveća vrijednost y 1, y 2, y 3.

  10. Praktična upotreba regresijske skale. Razvijaju se normativne skale i standardi, posebno za fizički razvoj. Koristeći standardnu ​​skalu, možete dati individualnu procjenu razvoja djece. U ovom slučaju, fizički razvoj se ocjenjuje kao harmoničan ako je, na primjer, na određenoj visini, djetetova tjelesna težina unutar jedne sigme regresije na prosječnu izračunatu jedinicu tjelesne težine - (y) za datu visinu (x) ( y ± 1 σ Ry/x).

    Fizički razvoj se smatra disharmoničnim u smislu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge sigme regresije: (y ± 2 σ Ry/x)

    Tjelesni razvoj će biti oštro disharmoničan zbog viška i nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističkog istraživanja fizičkog razvoja petogodišnjih dječaka, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije su prikazane u tabeli.

Obavezno:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednačine odrediti kolika će biti očekivana tjelesna težina dječaka od 5 godina sa visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati sigmu regresije, konstruisati skalu regresije i grafički prikazati rezultate njenog rješenja;
  • izvući odgovarajuće zaključke.

Uvjeti problema i rezultati njegovog rješavanja prikazani su u zbirnoj tabeli.

Tabela 1

Uslovi problema Rezultati rješavanja problema
jednadžba regresije sigma regresije regresijska skala (očekivana tjelesna težina (u kg))
M σ r xy R y/x X U σ R x/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
visina (x) 109 cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
tjelesna masa (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Rješenje.

Zaključak. Dakle, skala regresije u granicama izračunatih vrijednosti tjelesne težine omogućava da se ona odredi na bilo kojoj drugoj vrijednosti visine ili da se procijeni individualni razvoj djeteta. Da biste to učinili, vratite okomicu na liniju regresije.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Javno zdravstvo i zdravstvena zaštita. Udžbenik za univerzitete. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medic V.A., Yuryev V.K. Tok predavanja o javnom zdravlju i zdravstvu: Dio 1. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Priručnik u 2 toma). - Sankt Peterburg, 1998. -528 str.
  5. Kučerenko V.Z., Agarkov N.M. i dr. Organizacija socijalne higijene i zdravstvene zaštite ( Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glanz. Medicinska i biološka statistika. Prevod sa engleskog - M., Praktika, 1998. - 459 str.

U statističkom modeliranju, regresiona analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu više varijabli gdje je fokus na odnosu između zavisne varijable i jedne ili više nezavisnih. Preciznije, regresiona analiza pomaže nam da shvatimo kako se tipična vrijednost zavisne varijable mijenja ako se jedna od nezavisnih varijabli promijeni dok druge nezavisne varijable ostaju fiksne.

U svim slučajevima, ciljna procjena je funkcija nezavisnih varijabli i naziva se regresijska funkcija. U regresijskoj analizi, također je od interesa karakterizirati promjenu zavisne varijable kao funkciju regresije, koja se može opisati korištenjem distribucije vjerovatnoće.

Problemi regresijske analize

Ova metoda statističkog istraživanja ima široku primenu za predviđanje, pri čemu njena upotreba ima značajnu prednost, ali ponekad može dovesti do iluzije ili lažnih odnosa, pa se preporučuje da se pažljivo koristi u navedenoj stvari, jer npr. korelacija ne znači uzročnost.

Razvijen veliki broj metode za izvođenje regresione analize, kao što su linearna i obična regresijska metoda najmanjih kvadrata, koji su parametarski. Njihova suština je da je funkcija regresije definirana u terminima konačnog broja nepoznatih parametara koji se procjenjuju iz podataka. Neparametrijska regresija omogućava da njena funkcija leži unutar određenog skupa funkcija, koje mogu biti beskonačno dimenzionalne.

Kao statistička metoda istraživanja, regresiona analiza u praksi zavisi od oblika procesa generisanja podataka i od toga kako se on odnosi na regresijski pristup. Budući da je pravi oblik generisanja procesa podataka obično nepoznat broj, regresiona analiza podataka često zavisi u određenoj mjeri od pretpostavki o procesu. Ove pretpostavke se ponekad mogu provjeriti ako ima dovoljno podataka. Regresijski modeli su često korisni čak i kada su pretpostavke umjereno narušene, iako možda neće raditi na vrhunskoj efikasnosti.

U užem smislu, regresija se može odnositi posebno na procjenu varijabli kontinuiranog odgovora, za razliku od diskretnih varijabli odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable se također naziva metrička regresija kako bi se razlikovao od povezanih problema.

Priča

Najviše rani oblik Regresija je dobro poznata metoda najmanjih kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss su primijenili metodu na problem određivanja orbita tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih sporednih planeta) iz astronomskih posmatranja. Gauss objavio dalji razvoj teorija najmanjih kvadrata 1821., uključujući verziju Gauss-Markovljeve teoreme.

Termin "regresija" skovao je Francis Galton u 19. vijeku da opiše biološki fenomen. Ideja je bila da visina potomaka u odnosu na visinu njihovih predaka ima tendenciju regresije prema dolje prema normalnoj sredini. Za Galtona je regresija imala samo ovo biološko značenje, ali su kasnije njegov rad nastavili Udney Yoley i Karl Pearson i doveli ga u opštiji statistički kontekst. U radu Yulea i Pearsona, zajednička distribucija odgovora i eksplanatornih varijabli pretpostavlja se da je Gausova. Ovu pretpostavku je Fischer odbacio u radovima iz 1922. i 1925. godine. Fisher je sugerirao da je uvjetna distribucija varijable odgovora Gaussova, ali zajednička distribucija ne mora biti. U tom pogledu, Fišerov predlog je bliži Gaussovoj formulaciji iz 1821. Prije 1970. ponekad je trebalo i do 24 sata da se dobije rezultat regresione analize.

Metode regresijske analize i dalje su područje aktivnog istraživanja. Poslednjih decenija razvijene su nove metode za robusnu regresiju; regresije koje uključuju korelirane odgovore; regresijske metode koje se prilagođavaju Razne vrste podaci koji nedostaju; neparametrijska regresija; Bayesove metode regresije; regresije u kojima se prediktorske varijable mjere sa greškom; regresija s više prediktora nego zapažanja i uzročno-posljedično zaključivanje s regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, koji mogu biti skalar ili vektor.
  • Nezavisne varijable, X.
  • Zavisne varijable, Y.

Različite oblasti nauke u kojima se koristi regresiona analiza koriste različite termine umesto zavisnih i nezavisnih varijabli, ali u svim slučajevima regresioni model povezuje Y sa funkcijom X i β.

Aproksimacija se obično piše kao E(Y | X) = F(X, β). Da bi se izvršila regresijska analiza, mora se odrediti tip funkcije f. Manje uobičajeno, zasniva se na znanju o odnosu između Y i X, koje se ne oslanja na podatke. Ako takvo znanje nije dostupno, tada se bira fleksibilan ili pogodan oblik F.

Zavisna varijabla Y

Pretpostavimo sada da vektor nepoznatih parametara β ima dužinu k. Da bi izvršio regresijsku analizu, korisnik mora dati informacije o zavisnoj varijabli Y:

  • Ako se posmatra N tačaka podataka oblika (Y, X), gdje je N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ako se posmatra tačno N = K i funkcija F je linearna, onda se jednačina Y = F(X, β) može rešiti tačno, a ne približno. Ovo se svodi na rješavanje skupa N-jednačina sa N-nepoznatima (elementi β), koji ima jedina odluka sve dok je X linearno nezavisan. Ako je F nelinearan, možda neće biti rješenja ili može postojati mnogo rješenja.
  • Najčešća situacija je kada se posmatra N > tačaka podataka. U ovom slučaju, u podacima ima dovoljno informacija da se procijeni jedinstvena vrijednost za β, koja najbolji način odgovara podacima, a regresijski model kada se primeni na podatke može se posmatrati kao preodređeni sistem u β.

U potonjem slučaju, regresiona analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koje će, na primjer, minimizirati udaljenost između izmjerene i predviđene vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresiona analiza koristi višak informacija za pružanje statističkih informacija o nepoznatim parametrima β i predviđenim vrijednostima zavisne varijable Y.

Potreban broj nezavisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β 0 , β 1 i β 2 . Pretpostavimo da eksperimentator izvrši 10 merenja na istoj vrednosti vektora nezavisne varijable X. U ovom slučaju, regresiona analiza ne proizvodi jedinstven skup vrednosti. Najbolje što možete učiniti je procijeniti prosjek i standardna devijacija zavisna varijabla Y. Slično, mjerenjem dvije različite vrijednosti X, možete dobiti dovoljno podataka za regresiju sa dvije nepoznate, ali ne i za tri ili više nepoznatih.

Ako su mjerenja eksperimentatora izvršena na tri različite vrijednosti vektora nezavisne varijable X, tada će regresiona analiza pružiti jedinstveni skup procjena za tri nepoznata parametra u β.

U slučaju generalnog linearna regresija Gornja izjava je ekvivalentna zahtjevu da je matrica X T X inverzibilna.

Statističke pretpostavke

Kada je broj mjerenja N veći od broja nepoznatih parametara k i mjernih grešaka ε i , tada se, po pravilu, višak informacija sadržanih u mjerenjima tada širi i koristi za statistička predviđanja u vezi sa nepoznatim parametrima. Ovaj višak informacija naziva se stepen slobode regresije.

Fundamentalne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorkovanje je reprezentativno za predviđanje inferencije.
  • Termin greške je slučajna varijabla sa srednjom vrijednosti nula, koja je uslovljena varijablama koje objašnjavaju.
  • Nezavisne varijable se mjere bez grešaka.
  • Kao nezavisne varijable (prediktori), one su linearno nezavisne, odnosno nije moguće izraziti nijedan prediktor kao linearnu kombinaciju ostalih.
  • Greške su nekorelirane, odnosno matrica kovarijanse greške dijagonala i svaki element koji nije nula je varijansa greške.
  • Varijanca greške je konstantna kroz posmatranja (homoskedastičnost). Ako ne, onda se mogu koristiti ponderisani najmanji kvadrati ili druge metode.

Ove dovoljne uslove jer procjena najmanjih kvadrata ima tražena svojstva, posebno ove pretpostavke znače da će procjene parametara biti objektivne, dosljedne i efikasne, posebno kada se uzmu u obzir u učionici linearne procjene. Važno je napomenuti da dokazi rijetko ispunjavaju uslove. Odnosno, metoda se koristi čak i ako pretpostavke nisu tačne. Varijacije od pretpostavki se ponekad mogu koristiti kao mjera koliko je model koristan. Mnoge od ovih pretpostavki mogu se ublažiti naprednijim metodama. Izvještaji o statističkoj analizi obično uključuju analizu testova na uzorku podataka i metodologiju za korisnost modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti izmjerene na lokacijama. Mogu postojati prostorni trendovi i prostorne autokorelacije u varijablama koje krše statističke pretpostavke. Geografska ponderisana regresija je jedina metoda koja se bavi takvim podacima.

Karakteristika linearne regresije je da je zavisna varijabla, koja je Yi, linearna kombinacija parametara. Na primjer, jednostavna linearna regresija koristi jednu nezavisnu varijablu, x i , i dva parametra, β 0 i β 1 , za modeliranje n tačaka.

U višestrukoj linearnoj regresiji postoji više nezavisnih varijabli ili njihovih funkcija.

Kada se iz populacije uzme slučajni uzorak, njegovi parametri omogućavaju da se dobije model linearne regresije uzorka.

U ovom aspektu, najpopularnija je metoda najmanjih kvadrata. Koristi se za dobivanje procjena parametara koje minimiziraju sumu kvadrata reziduala. Ova vrsta minimizacije (koja je tipična za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednačina i skupa linearnih jednačina sa parametrima, koji se rješavaju da bi se dobile procjene parametara.

Pod daljom pretpostavkom da se greška populacije generalno širi, istraživač može koristiti ove standardne procjene greške da kreira intervale povjerenja i provodi testove hipoteza o njenim parametrima.

Nelinearna regresijska analiza

Primjer u kojem funkcija nije linearna u odnosu na parametre ukazuje na to da zbir kvadrata treba minimizirati korištenjem iterativne procedure. Ovo uvodi mnoge komplikacije koje definiraju razlike između linearnih i nelinearnih metoda najmanjih kvadrata. Posljedično, rezultati regresione analize pri korištenju nelinearna metoda ponekad nepredvidivo.

Proračun snage i veličine uzorka

Generalno, ne postoje konzistentne metode u odnosu na broj posmatranja u odnosu na broj nezavisnih varijabli u modelu. Prvo pravilo su predložili Dobra i Hardin i izgleda kao N = t^n, gdje je N veličina uzorka, n broj nezavisnih varijabli, a t broj opservacija potrebnih za postizanje željene tačnosti ako bi model imao samo jedna nezavisna varijabla. Na primjer, istraživač gradi model linearne regresije koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet opservacija za precizno definiranje linije (m), tada je maksimalni broj nezavisnih varijabli koje model može podržati je 4.

Druge metode

Iako se parametri regresijskog modela obično procjenjuju korištenjem metode najmanjih kvadrata, postoje i druge metode koje se koriste mnogo rjeđe. Na primjer, ovo su sljedeće metode:

  • Bayesove metode (na primjer, Bayesova linearna regresija).
  • Procentualna regresija, koja se koristi za situacije u kojima se smanjenje procentualnih grešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja su robusnija u prisustvu odstupanja koja dovode do kvantilne regresije.
  • Potrebna je neparametrijska regresija velika količina zapažanja i proračuna.
  • Metrika učenja na daljinu koja se uči da pronađe smislenu metriku udaljenosti u datom ulaznom prostoru.

Softver

Svi glavni statistički softverski paketi vrše analizu regresije najmanjih kvadrata. Jednostavna linearna regresija i analiza višestruke regresije mogu se koristiti u nekim aplikacijama za proračunske tablice, kao iu nekim kalkulatorima. Iako mnogi statistički softverski paketi mogu izvesti različite vrste neparametarske i robusne regresije, ove metode su manje standardizirane; implementiraju razni softverski paketi razne metode. Specijalizovana regresija softver je razvijen za upotrebu u oblastima kao što su analiza pregleda i neuroimaging.

U svojim radovima koji datiraju iz 1908. Opisao je to na primjeru rada agenta koji prodaje nekretnine. U svojoj evidenciji, stručnjak za prodaju kuća je pratio širok spektar ulaznih podataka za svaku konkretnu zgradu. Na osnovu rezultata aukcije utvrđeno je koji faktor je imao najveći uticaj na cijenu transakcije.

Analiza velikog broja transakcija dala je zanimljive rezultate. Na konačnu cijenu utjecalo je mnogo faktora, što je ponekad dovodilo do paradoksalnih zaključaka, pa čak i do očiglednih „izbacivanja“ kada bi se kuća s visokim početnim potencijalom prodavala po sniženoj cijeni.

Drugi primjer primjene ovakve analize je posao kojem je povjereno utvrđivanje naknada zaposlenima. Složenost zadatka bila je u činjenici da nije zahtijevao raspodjelu fiksnog iznosa svima, već njegovu striktnu korespondenciju sa konkretnim obavljenim poslom. Pojava mnogih problema sa praktički sličnim rješenjima zahtijevala je njihovo detaljnije proučavanje na matematičkom nivou.

Značajno mjesto posvećeno je dijelu „regresiona analiza“, koji je kombinovao praktične metode koje se koriste za proučavanje zavisnosti koje potpadaju pod koncept regresije. Ovi odnosi se posmatraju između podataka dobijenih iz statističkih studija.

Među mnogim problemima koje treba riješiti, on postavlja tri glavna cilja: određivanje regresijske jednačine opšti pogled; konstruiranje procjena parametara koji su nepoznati koji su dio jednadžbe regresije; testiranje hipoteza statističke regresije. U toku proučavanja odnosa koji nastaje između para veličina dobijenih kao rezultat eksperimentalnih posmatranja i koje čine niz (skup) tipa (x1, y1), ..., (xn, yn), oslanjaju se na odredbe teorije regresije i pretpostaviti da za jednu veličinu Y postoji određena raspodjela vjerovatnoće, dok druga X ostaje fiksna.

Rezultat Y ovisi o vrijednosti varijable X, ova zavisnost se može odrediti različite šare, dok na tačnost dobijenih rezultata utiču priroda zapažanja i svrha analize. Eksperimentalni model se zasniva na određenim pretpostavkama koje su pojednostavljene, ali uvjerljive. Glavni uslov je da parametar X bude kontrolisana veličina. Njegove vrijednosti se postavljaju prije početka eksperimenta.

Ako eksperiment koristi par nekontroliranih XY varijabli, tada se regresiona analiza provodi na isti način, ali da bi se interpretirali rezultati, tokom koje se proučava odnos između proučavanih varijabli slučajne varijable, primjenjuju se metode Metode matematičke statistike nisu apstraktna tema. Najviše nalaze primenu u životu raznim poljima ljudska aktivnost.

IN naučna literatura da odredim gornju metodu koju sam pronašao široku upotrebu terminska linearna regresiona analiza. Za promenljivu X koristi se termin regresor ili prediktor, a zavisne Y varijable se takođe nazivaju kriterijumske varijable. Ova terminologija odražava samo matematičku zavisnost varijabli, ali ne i uzročno-posledični odnos.

Regresiona analiza služi kao najčešća metoda koja se koristi u obradi rezultata širokog spektra opservacija. Ovom metodom se proučavaju fizičke i biološke zavisnosti, koja se primenjuje i u ekonomiji i u tehnologiji. Mnoga druga polja koriste modele regresijske analize. analiza varijanse, Statistička analiza višedimenzionalni rad usko sa ovom metodom proučavanja.

Glavna svrha regresione analize sastoji se u određivanju analitičkog oblika komunikacije u kojem je promjena efektivne karakteristike posljedica utjecaja jedne ili više faktorskih karakteristika, a skup svih ostalih faktora koji također utiču na efektivnu karakteristiku uzimaju se kao konstantne i prosječne vrijednosti.
Problemi regresijske analize:
a) Utvrđivanje oblika zavisnosti. U pogledu prirode i oblika odnosa među pojavama, pravi se razlika između pozitivne linearne i nelinearne i negativne linearne i nelinearne regresije.
b) Određivanje funkcije regresije u obliku matematičke jednačine ove ili one vrste i utvrđivanje uticaja eksplanatornih varijabli na zavisnu varijablu.
c) Procjena nepoznatih vrijednosti zavisne varijable. Pomoću funkcije regresije možete reproducirati vrijednosti zavisne varijable unutar intervala postavljene vrijednosti objašnjavajuće varijable (tj. riješiti problem interpolacije) ili procijeniti tok procesa izvan datog intervala (tj. riješiti problem ekstrapolacije). Rezultat je procjena vrijednosti zavisne varijable.

Uparena regresija je jednadžba za odnos između dvije varijable y i x: , gdje je y zavisna varijabla (rezultativni atribut); x je nezavisna eksplanatorna varijabla (faktor karakteristika).

Postoje linearne i nelinearne regresije.
Linearna regresija: y = a + bx + ε
Nelinearne regresije se dijele u dvije klase: regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, i regresije koje su nelinearne u odnosu na procijenjene parametre.
Regresije koje su nelinearne u eksplanatornim varijablama:

Regresije koje su nelinearne u odnosu na procijenjene parametre: Konstrukcija jednačine regresije svodi se na procjenu njenih parametara. Za procjenu parametara regresije linearnih po parametrima, koristi se metoda najmanjih kvadrata (OLS). Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara kod kojih je zbir kvadrata odstupanja stvarnih vrijednosti rezultujuće karakteristike y od teoretskih minimalan, tj.
.
Za linearne i nelinearne jednadžbe koje se svode na linearne, za a i b je riješen sljedeći sistem:

Možete koristiti gotove formule koje slijede iz ovog sistema:

Procjenjuje se bliskost povezanosti fenomena koji se proučavaju linearni koeficijent parna korelacija za linearnu regresiju:

i indeks korelacije - za nelinearnu regresiju:

Kvalitet izgrađenog modela će se ocjenjivati ​​koeficijentom (indeksom) determiniranosti, kao i prosječnom greškom aproksimacije.
Prosječna greška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:
.
Dozvoljena granica vrijednosti nije veća od 8-10%.
Prosječni koeficijent elastičnosti pokazuje za koji će se postotak u prosjeku rezultat y promijeniti od svoje prosječne vrijednosti kada se faktor x promijeni za 1% od svoje prosječne vrijednosti:
.

Svrha analize varijanse je analiza varijanse zavisne varijable:
,
gdje je ukupan zbir kvadrata odstupanja;
- zbir kvadrata odstupanja zbog regresije („objašnjeno“ ili „faktorsko“);
- rezidualni zbir kvadrata odstupanja.
Udio varijanse objašnjen regresijom u totalna varijansa efektivnu karakteristiku y karakteriše koeficijent (indeks) determinacije R 2:

Koeficijent determinacije je kvadrat koeficijenta ili indeksa korelacije.

F-test - procjena kvaliteta jednačine regresije - sastoji se od testiranja hipoteze br o statističkoj beznačajnosti regresione jednačine i indikatora bliskosti veze. Da bi se to postiglo, pravi se poređenje između stvarne F činjenice i kritične (tabelarne) vrijednosti F tablice Fišerova F-kriterija. F činjenica se određuje iz omjera vrijednosti faktora i rezidualne varijanse, dizajniran za jedan stepen slobode:
,
gdje je n broj jedinica stanovništva; m je broj parametara za varijable x.
F tabela je maksimalna moguća vrijednost kriterijuma pod uticajem slučajnih faktora na datim stepenima slobode i nivou značajnosti a. Nivo značajnosti a je vjerovatnoća odbacivanja tačne hipoteze, s obzirom da je tačna. Obično se a uzima jednako 0,05 ili 0,01.
Ako je F tabela< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Činjenica je da se hipoteza H o ne odbacuje i priznaje se statistička beznačajnost i nepouzdanost jednačine regresije.
Za stopu statistički značaj Izračunavaju se koeficijenti regresije i korelacije, Studentov t-test i intervali povjerenja za svaki indikator. Postavlja se hipoteza o slučajnoj prirodi indikatora, tj. o njihovoj neznatnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa vrši se poređenjem njihovih vrijednosti sa veličinom slučajne greške:
; ; .
Slučajne greške parametara linearne regresije i koeficijenta korelacije određuju se formulama:



Upoređujući stvarne i kritične (tabelarne) vrijednosti t-statistike - t tablice i t činjenice - prihvatamo ili odbacujemo hipotezu H o.
Odnos između Fišerovog F-testa i Studentove t-statistike izražava se jednakošću

Ako t tabela< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t je činjenica da se hipoteza H o ne odbacuje i da se prepoznaje slučajna priroda formiranja a, b ili.
Za obračun interval povjerenja Određujemo maksimalnu grešku D za svaki indikator:
, .
Formule za izračunavanje intervala povjerenja imaju sljedeći pogled:
; ;
; ;
Ako nula spada u interval pouzdanosti, tj. Ako je donja granica negativna, a gornja pozitivna, tada se procijenjeni parametar uzima kao nula, jer ne može istovremeno uzimati i pozitivne i negativne vrijednosti.
Predviđena vrijednost se određuje zamjenom odgovarajuće (prognozirane) vrijednosti u regresionu jednačinu. Prosjek se izračunava standardna greška prognoza:
,
Gdje
i konstruiše se interval pouzdanosti za prognozu:
; ;
Gdje .

Primjer rješenja

Zadatak br. 1. Za sedam teritorija Uralskog regiona 199X godine poznate su vrijednosti dvije karakteristike.
Tabela 1.
Obavezno: 1. Da biste okarakterizirali ovisnost y od x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) snaga (najprije morate izvršiti proceduru linearizacije varijabli uzimajući logaritam oba dijela);
c) demonstrativna;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Procijenite svaki model koristeći prosječnu grešku aproksimacije i Fišerov F test.

Rješenje (opcija br. 1)

Za izračunavanje parametara a i b linearne regresije (izračun se može izvršiti pomoću kalkulatora).
riješiti sistem normalnih jednačina za A I b:
Na osnovu početnih podataka izračunavamo :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Ukupno 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
sri značenje (Ukupno/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Jednačina regresije: y = 76,88 - 0,35X. Uz povećanje prosječne dnevne plate za 1 rub. udio rashoda za nabavku prehrambenih proizvoda smanjuje se u prosjeku za 0,35 procentnih poena.
Izračunajmo linearni koeficijent korelacije para:

Veza je umjerena, inverzna.
Odredimo koeficijent determinacije:

Varijacija rezultata od 12,7% objašnjava se varijacijom faktora x. Zamjena stvarnih vrijednosti u jednadžbu regresije X, odredimo teorijske (izračunate) vrijednosti . Nađimo vrijednost prosječne greške aproksimacije:

U prosjeku, izračunate vrijednosti odstupaju od stvarnih za 8,1%.
Izračunajmo F-kriterijum:

od 1< F < ¥ , treba uzeti u obzir F -1 .
Rezultirajuća vrijednost ukazuje na potrebu prihvaćanja hipoteze Ali oh nasumična priroda utvrđene zavisnosti i statistička beznačajnost parametara jednačine i indikatora bliskosti veze.
1b. Izgradnji energetskog modela prethodi postupak linearizacije varijabli. U primjeru, linearizacija se izvodi uzimanjem logaritama obje strane jednačine:


GdjeY=lg(y), X=lg(x), C=lg(a).

Za proračune koristimo podatke u tabeli. 1.3.

Tabela 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Ukupno 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Prosječna vrijednost 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Izračunajmo C i b:


Dobijamo linearna jednačina:.
Nakon što smo izvršili njegovu potenciranje, dobijamo:

Zamena u zadata jednačina stvarne vrijednosti X, dobijamo teorijske vrijednosti rezultata. Koristeći ih, izračunat ćemo indikatore: čvrstoću veze - indeks korelacije i prosječnu grešku aproksimacije

Karakteristike modela stepena pokazuju da on opisuje odnos nešto bolje od linearne funkcije.

1c. Izrada jednadžbe eksponencijalne krive

kojoj prethodi procedura za linearizaciju varijabli uzimanjem logaritama obje strane jednačine:

Za proračune koristimo tabelarne podatke.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Ukupno 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
sri zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Vrijednosti regresijskih parametara A i IN iznosio:


Rezultirajuća linearna jednačina je: . Potencirajmo rezultirajuću jednačinu i zapišemo je u uobičajenom obliku:

Bliskost veze ćemo procijeniti kroz indeks korelacije:

Svrha regresione analize je mjerenje odnosa između zavisne varijable i jedne (parna regresiona analiza) ili više (više) nezavisnih varijabli. Nezavisne varijable se takođe nazivaju faktorske, eksplanatorne, determinantne, regresorske i prediktorske varijable.

Zavisna varijabla se ponekad naziva određena, objašnjena ili “odgovorna” varijabla. Izuzetno rasprostranjena upotreba regresione analize u empirijskim istraživanjima nije samo zbog činjenice da je ona pogodan alat za testiranje hipoteza. Regresija, posebno višestruka regresija, jeste efikasan metod modeliranje i predviđanje.

Počnimo objašnjavati principe rada s regresijskom analizom jednostavnijom - metodom parova.

Uparena regresijska analiza

Prvi koraci pri korištenju regresione analize bit će gotovo identični onima koje smo poduzeli pri izračunavanju koeficijenta korelacije. Za višestruku regresiju relevantna su i tri glavna uslova za efikasnost korelacione analize korišćenjem Pirsonove metode – normalna distribucija varijabli, intervalno merenje varijabli, linearni odnos između varijabli. Shodno tome, u prvoj fazi se konstruišu dijagrami raspršenja, vrši se statistička i deskriptivna analiza varijabli i izračunava regresijska linija. Kao iu okviru korelacione analize, regresijske linije se konstruišu metodom najmanjih kvadrata.

Da bismo jasnije ilustrovali razlike između ove dve metode analize podataka, okrenimo se već diskutovanom primeru sa varijablama „Podrška SPS“ i „udeo ruralnog stanovništva“. Izvorni podaci su identični. Razlika u dijagramima raspršenja će biti u tome što je u regresionoj analizi ispravno iscrtati zavisnu varijablu – u našem slučaju “SPS podršku” na Y-osi, dok u korelacionoj analizi to nije bitno. Nakon čišćenja odstupanja, dijagram raspršenosti izgleda ovako:

Osnovna ideja regresione analize je da je, imajući opći trend za varijable - u obliku regresijske linije - moguće predvidjeti vrijednost zavisne varijable, s obzirom na vrijednosti nezavisne.

Zamislimo uobičajenu matematiku linearna funkcija. Svaka prava linija u Euklidskom prostoru može se opisati formulom:

gdje je a konstanta koja specificira pomak duž ordinatne ose; b je koeficijent koji određuje ugao nagiba linije.

Poznavajući nagib i konstantu, možete izračunati (predvidjeti) vrijednost y za bilo koji x.

Ova najjednostavnija funkcija činila je osnovu modela regresione analize uz upozorenje da nećemo tačno predviđati vrijednost y, već unutar određenog intervala povjerenja, tj. otprilike.

Konstanta je tačka preseka linije regresije i y-ose (F-presek, koji se obično označava kao „presretač” u statističkim paketima). U našem primjeru sa glasanjem za Savez desnih snaga, njegova zaokružena vrijednost će biti 10,55. Ugaoni koeficijent b će biti približno -0,1 (kao u korelacionoj analizi, znak pokazuje vrstu veze - direktnu ili inverznu). Tako će rezultujući model imati oblik SP C = -0,1 x Sel. nas. + 10.55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Razlika između originalne i predviđene vrijednosti naziva se ostatak (s tim pojmom, koji je fundamentalan za statistiku, već smo se susreli pri analizi kontingentnih tablica). Dakle, za slučaj "Republike Adigeje" ostatak će biti jednak 3,92 - 5,63 = -1,71. Što je veća modularna vrijednost ostatka, to je manje uspješno predviđena vrijednost.

Izračunavamo predviđene vrijednosti i ostatke za sve slučajeve:
Dešava se Sjesti. nas. hvala

(original)

hvala

(predviđeno)

Ostaci
Republika Adygea 47 3,92 5,63 -1,71 -
Republika Altai 76 5,4 2,59 2,81
Republika Baškortostan 36 6,04 6,78 -0,74
Republika Burjatija 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Ingušetija 59 0,38 4,37 3,99
itd.

Analiza omjera početnih i predviđenih vrijednosti služi za procjenu kvaliteta rezultirajućeg modela i njegove prediktivne sposobnosti. Jedan od glavnih pokazatelja regresijska statistika je višestruki koeficijent korelacija R - koeficijent korelacije između originalne i predviđene vrijednosti zavisne varijable. U parnoj regresionoj analizi jednak je uobičajenom Pirsonovom koeficijentu korelacije između zavisnih i nezavisnih varijabli, u našem slučaju - 0,63. Za smisleno tumačenje višestrukog R, mora se pretvoriti u koeficijent determinacije. To se radi na isti način kao u korelacionoj analizi - kvadriranjem. Koeficijent determinacije R-kvadrat (R 2) pokazuje proporciju varijacije zavisne varijable koja je objašnjena nezavisnom varijablom(ama).

U našem slučaju, R 2 = 0,39 (0,63 2); to znači da varijabla „udio ruralnog stanovništva“ objašnjava otprilike 40% varijacije u varijabli „SPS podrška“. Što je veći koeficijent determinacije, to je veći kvalitet modela.

Drugi pokazatelj kvaliteta modela je standardna greška procjene. Ovo je mjera koliko su tačke „rasute“ oko regresijske linije. Mjera širenja za intervalne varijable je standardna devijacija. Prema tome, standardna greška procjene je standardna devijacija distribucije reziduala. Što je veća njegova vrijednost, veći je raspršivanje i lošiji je model. U našem slučaju, standardna greška je 2,18. Upravo za taj iznos će naš model „prosečno grešiti” prilikom predviđanja vrednosti varijable „SPS podrška”.

Regresijska statistika također uključuje analizu varijanse. Uz njegovu pomoć saznajemo: 1) koliki je udio varijacije (disperzije) zavisne varijable objašnjen nezavisnom varijablom; 2) koliki deo varijanse zavisne varijable čine ostaci (neobjašnjivi deo); 3) koliki je omjer ove dvije veličine (/"-odnos). Statistika disperzije je posebno važna za studije uzorka - pokazuje koliko je vjerovatno da postoji veza između nezavisnih i zavisnih varijabli u populaciji. Međutim, za kontinuirane studije (kao u našem primjeru) rezultati studije analize varijanse nisu korisni. U ovom slučaju provjeravaju da li je identificirani statistički obrazac uzrokovan kombinacijom slučajnih okolnosti, koliko je karakterističan za kompleks uslova u kojima se populacija koja se ispituje locira, odnosno utvrđuje se da dobijeni rezultat nije tačan za neki širi opšti agregat, već stepen njegove pravilnosti, oslobođenosti od slučajnih uticaja.

U našem slučaju, ANOVA statistika je sljedeća:

SS df GOSPOĐA F značenje
Regres. 258,77 1,00 258,77 54,29 0.000000001
Ostatak 395,59 83,00 L,11
Ukupno 654,36

F-razmjer od 54,29 je značajan na nivou od 0,0000000001. U skladu s tim, sa sigurnošću možemo odbaciti nultu hipotezu (da je odnos koji smo otkrili posljedica slučajnosti).

Kriterij t ima sličnu funkciju, ali u odnosu na koeficijente regresije (ugaoni i F-presjek). Koristeći / kriterij testiramo hipotezu da su u općoj populaciji koeficijenti regresije jednaki nuli. U našem slučaju, opet možemo sa sigurnošću odbaciti nultu hipotezu.

Višestruka regresijska analiza

Model višestruke regresije je skoro identičan modelu uparene regresije; jedina razlika je u tome što je nekoliko nezavisnih varijabli sekvencijalno uključeno u linearnu funkciju:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ako postoji više od dvije nezavisne varijable, ne možemo dobiti vizualnu predstavu o njihovom odnosu; u tom smislu, višestruka regresija je manje „vizualna“ od regresije u paru. Kada imate dvije nezavisne varijable, može biti korisno prikazati podatke u 3D dijagramu raspršenja. U profesionalnim statističkim softverskim paketima (na primjer, Statistica) postoji mogućnost rotiranja trodimenzionalnog grafikona, što vam omogućava da vizualno dobro predstavite strukturu podataka.

Kada radite sa višestruka regresija, za razliku od parne sobe, potrebno je odrediti algoritam analize. Standardni algoritam uključuje sve dostupne prediktore u konačnom regresijskom modelu. Korak po korak algoritam uključuje sekvencijalno uključivanje (isključivanje) nezavisnih varijabli na osnovu njihove objašnjavajuće „težine“. Stepwise metoda je dobra kada postoji mnogo nezavisnih varijabli; “čisti” model od iskreno slabih prediktora, čineći ga kompaktnijim i konciznijim.

Dodatni uslov za ispravnost višestruke regresije (uz interval, normalnost i linearnost) je odsustvo multikolinearnosti – prisustvo jakih korelacija između nezavisnih varijabli.

Interpretacija statistike višestruke regresije uključuje sve elemente koje smo razmotrili za slučaj parne regresije. Pored toga, postoje i druge važne komponente statistike višestruke regresione analize.

Rad ćemo ilustrovati višestrukom regresijom na primjeru testiranja hipoteza koje objašnjavaju razlike u nivou izborne aktivnosti u ruskim regijama. Specifične empirijske studije sugeriraju da na nivo izlaznosti birača utiču:

Nacionalni faktor (varijabilna " rusko stanovništvo"; operacionalizovan kao udio ruskog stanovništva u konstitutivnim entitetima Ruske Federacije). Pretpostavlja se da povećanje udjela ruskog stanovništva dovodi do smanjenja izlaznosti birača;

Faktor urbanizacije (varijabilna " gradsko stanovništvo"; operacionalizovan kao udeo gradskog stanovništva u konstitutivnim entitetima Ruske Federacije, sa ovim faktorom smo već radili u okviru korelacione analize). Pretpostavlja se da povećanje udjela gradskog stanovništva dovodi i do smanjenja izlaznosti birača.

Zavisna varijabla, “intenzitet izborne aktivnosti” („aktivan”), operacionalizirana je kroz podatke o prosječnom odzivu po regionima za savezni izbori od 1995. do 2003. Originalna tabela podataka za dvije nezavisne i jednu zavisnu varijable bit će sljedeća:

Dešava se Varijable
Imovina. Gor. nas. Rus. nas.
Republika Adygea 64,92 53 68
Republika Altai 68,60 24 60
Republika Burjatija 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Ingušetija 75,05 41 23
Republika Kalmikija 68,52 39 37
Republika Karachay-Cherkess 66,68 44 42
Republika Karelija 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

itd. (nakon čišćenja emisija, ostala su 83 slučaja od 88)

Statistike koje opisuju kvalitet modela:

1. Višestruki R = 0,62; L-kvadrat = 0,38. dakle, nacionalni faktor i faktor urbanizacije zajedno objašnjavaju oko 38% varijacije varijable „izborna aktivnost“.

2. Prosječna greška je 3,38. Upravo toliko je „prosječno pogrešan“ konstruirani model kada se predviđa nivo izlaznosti.

3. /l-odnos objašnjene i neobjašnjive varijacije je 25,2 na nivou 0,000000003. Odbacuje se nulta hipoteza o slučajnosti identifikovanih veza.

4. Kriterijum / za konstantne i regresijske koeficijente varijabli „gradsko stanovništvo“ i „rusko stanovništvo“ je značajan na nivou od 0,0000001; 0,00005 i 0,007 respektivno. Nul hipoteza da su koeficijenti slučajni se odbacuje.

Dodatne korisne statistike u analizi odnosa između originalne i predviđene vrijednosti zavisne varijable su Mahalanobisova udaljenost i Cookova udaljenost. Prvi je mjera jedinstvenosti slučaja (pokazuje koliko kombinacija vrijednosti svih nezavisnih varijabli za dati slučaj odstupa od prosječne vrijednosti za sve nezavisne varijable istovremeno). Druga je mjera uticaja slučaja. Različita opažanja imaju različite efekte na nagib linije regresije, a Cookova udaljenost se može koristiti za njihovo upoređivanje na ovom indikatoru. Ovo može biti korisno pri čišćenju izvanrednih vrijednosti (odvojeni slučaj se može smatrati pretjerano utjecajnim slučajem).

U našem primjeru, jedinstveni i utjecajni slučajevi uključuju Dagestan.

Dešava se Original

vrijednosti

Predska

vrijednosti

Ostaci Razdaljina

Mahalanobis

Razdaljina
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Altai 68,60 69.91 -1,31 6,80 0,01
Republika Burjatija 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

Sam regresijski model ima sljedeće parametre: Y-presjek (konstanta) = 75,99; b (horizontalno) = -0,1; Kommersant (rus. nas.) = -0,06. Konačna formula.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”