Osnove korelacione analize. Primjeri analize linearnih odnosa za parnu korelaciju

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

KURSNI RAD

Predmet: Korelaciona analiza

Uvod

1. Analiza korelacije

1.1 Koncept korelacije

1.2 Opća klasifikacija korelacija

1.3 Korelaciona polja i svrha njihove konstrukcije

1.4 Faze korelacione analize

1.5 Koeficijenti korelacije

1.6 Normalizovani Bravais-Pearson koeficijent korelacije

1.7 Koeficijent rang korelacije Spearman

1.8 Osnovna svojstva koeficijenata korelacije

1.9 Provjera značajnosti koeficijenata korelacije

1.10 Kritične vrijednosti koeficijent korelacije para

2. Planiranje multifaktorskog eksperimenta

2.1 Stanje problema

2.2 Određivanje centra plana (osnovni nivo) i nivoa varijacije faktora

2.3 Izgradnja matrice planiranja

2.4 Provjera homogenosti disperzije i ekvivalencije mjerenja u različitim serijama

2.5 Koeficijenti regresijske jednačine

2.6 Varijanca reproduktivnosti

2.7 Provjera značaja koeficijenata regresijske jednačine

2.8 Provjera adekvatnosti jednačine regresije

Zaključak

Bibliografija

UVOD

Planiranje eksperimenta je matematičko-statistička disciplina koja proučava metode za racionalnu organizaciju eksperimentalnog istraživanja - od optimalnog izbora faktora koji se proučavaju i utvrđivanja stvarnog eksperimentalnog plana u skladu sa njegovom svrhom do metoda za analizu rezultata. Eksperimentalno planiranje započelo je radovima engleskog statističara R. Fišera (1935), koji je naglasio da racionalno eksperimentalno planiranje ne daje manje značajne dobitke u tačnosti procjena od optimalne obrade rezultata mjerenja. Šezdesetih godina 20. vijeka postojala je moderna teorija planiranje eksperimenta. Njene metode su usko povezane sa teorijom aproksimacije funkcija i matematičkim programiranjem. Izrađeni su optimalni planovi i proučavana su njihova svojstva za široku klasu modela.

Eksperimentalno planiranje je izbor eksperimentalnog plana koji ispunjava određene zahtjeve, skup radnji usmjerenih na razvoj strategije eksperimentiranja (od dobijanja a priori informacija do dobijanja izvodljivog matematičkog modela ili određivanja optimalnih uslova). Ovo je svrsishodna kontrola eksperimenta, sprovedena u uslovima nepotpunog poznavanja mehanizma fenomena koji se proučava.

U procesu mjerenja, naknadne obrade podataka, kao i formalizacije rezultata u obliku matematičkog modela, nastaju greške i gube se dio informacija sadržanih u originalnim podacima. Upotreba metoda eksperimentalnog planiranja omogućava određivanje greške matematičkog modela i procjenu njegove adekvatnosti. Ako se pokaže da je tačnost modela nedovoljna, tada korištenje metoda eksperimentalnog planiranja omogućava modernizaciju matematički model uz dodatne eksperimente bez gubitka prethodnih informacija i uz minimalne troškove.

Svrha planiranja eksperimenta je pronaći takve uvjete i pravila za izvođenje eksperimenata pod kojima je moguće dobiti pouzdane i pouzdane informacije o objektu uz najmanju količinu rada, kao i predstaviti te informacije u kompaktnom i prikladnom obliku. sa kvantitativna procjena tačnost.

Među glavnim metodama planiranja koje se koriste u različite faze istraživanje koristi:

Planiranje skrining eksperimenta, čiji je glavni značaj odabir iz čitavog skupa faktora grupe značajnih faktora koji su predmet daljeg detaljnog proučavanja;

Eksperimentalni dizajn za ANOVA, tj. izrada planova za objekte sa kvalitativnim faktorima;

Planiranje regresijskog eksperimenta koji vam omogućava da dobijete regresijske modele (polinomske i druge);

Planiranje ekstremnog eksperimenta u kojem je glavni zadatak eksperimentalna optimizacija objekta istraživanja;

Planiranje prilikom proučavanja dinamičkih procesa itd.

Svrha izučavanja discipline je osposobljavanje studenata za proizvodno-tehničke aktivnosti u svojoj specijalnosti korištenjem metoda teorije planiranja i savremenih informacionih tehnologija.

Ciljevi discipline: studij savremenim metodama planiranje, organizovanje i optimizacija naučnih i industrijskih eksperimenata, izvođenje eksperimenata i obrada dobijenih rezultata.

1. KORELACIONA ANALIZA

1.1 Koncept korelacije

Istraživača često zanima kako su dvije ili više varijabli međusobno povezane u jednom ili više uzoraka koji se proučavaju. Na primjer, može li visina utjecati na težinu osobe ili krvni tlak može utjecati na kvalitetu proizvoda?

Ova vrsta zavisnosti između varijabli naziva se korelacija ili korelacija. Korelacija je konzistentna promjena dvije karakteristike, koja odražava činjenicu da je varijabilnost jedne karakteristike u skladu sa varijabilnosti druge.

Poznato je, na primjer, da u prosjeku postoji pozitivan odnos između visine ljudi i njihove težine, i to takav da što je visina veća, to više više težine osoba. Međutim, postoje izuzeci od ovog pravila kada su relativno niski ljudi imati prekomjerna težina, i, obrnuto, astenici, s visokim rastom, imaju malu težinu. Razlog ovakvih izuzetaka je taj što je svaki biološki, fiziološki ili psihološki znak određen uticajem mnogih faktora: ekoloških, genetskih, društvenih, ekoloških itd.

Korelacione veze su probabilističke promjene koje se mogu proučavati samo na reprezentativnim uzorcima korištenjem metoda matematičke statistike. Oba termina – korelacija i zavisnost od korelacije – često se koriste naizmjenično. Zavisnost podrazumeva uticaj, povezanost - bilo koje koordinisane promene koje se mogu objasniti stotinama razloga. Korelacijske veze ne mogu se smatrati dokazom uzročno-posledične veze, one samo ukazuju na to da su promjene u jednoj osobini obično praćene određenim promjenama u drugoj.

Korelaciona zavisnost - to su promjene koje unose vrijednosti jedne karakteristike u vjerovatnoću pojave različita značenja drugi znak.

Zadatak korelacione analize svodi se na utvrđivanje pravca (pozitivnog ili negativnog) i oblika (linearnog, nelinearnog) odnosa između različitih karakteristika, merenje njegove bliskosti i, na kraju, proveru nivoa značajnosti dobijenih koeficijenata korelacije.

Korelacijske veze se razlikuju po obliku, smjeru i stupnju (snage) .

Oblik korelacijske veze može biti linearan ili krivolinijski. Na primjer, odnos između broja treninga na simulatoru i broja ispravno riješenih problema u kontrolnoj sesiji može biti jednostavan. Na primjer, odnos između nivoa motivacije i efektivnosti zadatka može biti krivolinijski (slika 1). Sa porastom motivacije, prvo raste efektivnost izvršenja zadatka, a zatim se postiže optimalni nivo motivacije, koji odgovara maksimalnoj efektivnosti izvršenja zadatka; Dalje povećanje motivacije je praćeno smanjenjem efikasnosti.

Slika 1 – Odnos između efektivnosti rješavanja problema i snage motivacijskih tendencija

U smjeru, korelacijski odnos može biti pozitivan („direktan“) i negativan („inverzan“). Uz pozitivnu linearnu korelaciju, veće vrijednosti jedne karakteristike odgovaraju više visoke vrijednosti druge, a niže vrijednosti jedne karakteristike znače niže vrijednosti druge (slika 2). Uz negativnu korelaciju, odnosi su inverzni (slika 3). Sa pozitivnom korelacijom, koeficijent korelacije ima pozitivan predznak, sa negativnom korelacijom ima negativan predznak.

Slika 2 – Direktna korelacija

Slika 3 – Inverzna korelacija


Slika 4 – Nema korelacije

Stepen, jačina ili bliskost korelacije određuje se vrijednošću koeficijenta korelacije. Jačina veze ne zavisi od njenog pravca i određena je apsolutnom vrednošću koeficijenta korelacije.

1.2 Opća klasifikacija korelacija

Ovisno o koeficijentu korelacije razlikuju se sljedeće korelacije:

Jaka ili bliska sa koeficijentom korelacije r>0,70;

Prosjek (na 0,50

Umjereno (u 0.30

Slab (na 0,20

Veoma slab (na r<0,19).

1.3 Korelaciona polja i svrha njihove konstrukcije

Korelacija se proučava na osnovu eksperimentalnih podataka, a to su izmjerene vrijednosti (x i, y i) dvije karakteristike. Ako ima malo eksperimentalnih podataka, onda je dvodimenzionalna empirijska raspodjela predstavljena kao dvostruki niz vrijednosti x i i y i. Istovremeno, korelaciona zavisnost između karakteristika može se opisati na različite načine. Korespondencija između argumenta i funkcije može se dati tabelom, formulom, grafikonom itd.

Korelaciona analiza, kao i druge statističke metode, temelji se na korištenju vjerojatnosnih modela koji opisuju ponašanje ispitivanih karakteristika u određenoj općoj populaciji iz koje se dobijaju eksperimentalne vrijednosti xi i y i. Prilikom proučavanja korelacije između kvantitativnih karakteristika, čije se vrijednosti mogu precizno izmjeriti u jedinicama metričke skale (metri, sekunde, kilogrami, itd.), vrlo često se usvaja dvodimenzionalni normalno raspoređeni model populacije. Takav model grafički prikazuje odnos između varijabli x i i y i u obliku geometrijske lokacije tačaka u sistemu pravokutnih koordinata. Ovaj grafički odnos se naziva i dijagram raspršenja ili korelacijsko polje.
Ovaj model dvodimenzionalne normalne distribucije (korelacijsko polje) nam omogućava da damo jasnu grafičku interpretaciju koeficijenta korelacije, jer distribucija ukupno zavisi od pet parametara: μ x, μ y – prosječne vrijednosti (matematička očekivanja); σ x,σ y – standardne devijacije slučajnih varijabli X i Y i p – koeficijent korelacije, koji je mjera odnosa između slučajnih varijabli X i Y.
Ako je p = 0, tada se vrijednosti x i , y i dobivene iz dvodimenzionalne normalne populacije nalaze na grafu u koordinatama x, y unutar područja ograničenog krugom (slika 5, a). U ovom slučaju ne postoji korelacija između slučajnih varijabli X i Y i one se nazivaju nekoreliranim. Za dvodimenzionalnu normalnu distribuciju, nekorelacija istovremeno znači nezavisnost slučajnih varijabli X i Y.


Slika 5 - Grafička interpretacija odnosa između indikatora

Ako je p = 1 ili p = -1, tada postoji linearna funkcionalna veza između slučajnih varijabli X i Y (Y = c + dX). U ovom slučaju govore o potpunoj korelaciji. Kada je p = 1, vrijednosti x i, y i određuju tačke koje leže na pravoj liniji koja ima pozitivan nagib (sa povećanjem x i, povećavaju se i vrijednosti y i kada je p = -1, prava linija). ima negativan nagib (slika 5, b). U srednjim slučajevima (-1< p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p >0 postoji pozitivna korelacija (sa povećanjem x i vrijednosti y i imaju tendenciju rasta), s p< 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Dakle, vizuelna analiza korelacionog polja pomaže da se identifikuje ne samo prisustvo statističke veze (linearne ili nelinearne) između karakteristika koje se proučavaju, već i njihovu bliskost i oblik. Ovo je bitno za sljedeći korak u analizi – odabir i izračunavanje odgovarajućeg koeficijenta korelacije.

Korelacija između karakteristika može se opisati na različite načine. Konkretno, bilo koji oblik veze može se izraziti općom jednačinom Y = f(X), gdje je atribut Y zavisna varijabla, ili funkcija nezavisne varijable X, koja se zove argument. Korespondencija između argumenta i funkcije može se dati tabelom, formulom, grafikonom itd.

1.4 Faze korelacione analize

Praktična implementacija korelacijske analize uključuje sljedeće korake:

a) prikaz problema i izbor karakteristika;

b) prikupljanje informacija i njihova primarna obrada (grupiranje, isključivanje anomalnih zapažanja, provjera normalnosti univarijantne distribucije);

c) preliminarne karakteristike odnosa (analitičke grupe, grafikoni);

d) eliminisanje multikolinearnosti (međuzavisnosti faktora) i pojašnjavanje skupa indikatora izračunavanjem uparenih koeficijenata korelacije;

e) proučavanje zavisnosti faktora i provjera njenog značaja;

f) evaluaciju rezultata analize i pripremu preporuka za njihovu praktičnu upotrebu.

1.5 Koeficijenti korelacije

Koeficijenti korelacije su opšteprihvaćena karakteristika u matematičkoj statistici odnosa između dve slučajne varijable. Koeficijent korelacije je pokazatelj stepena međuzavisnosti, statističke povezanosti dve varijable; varira od -1 do +1. Vrijednost koeficijenta korelacije 0 ukazuje na mogući nedostatak zavisnosti, vrijednost od +1 ukazuje na konzistentnost varijabli.

Razlikuju se sljedeći koeficijenti korelacije:

Dihotomno - indikator povezanosti karakteristika (varijabli) mjerenih na dihotomnim skalama imena;

Pearsonova korelacija produkt-moment - koeficijent korelacije koji se koristi za kontinuirane varijable;

Spearmanova korelacija rang-reda - koeficijent korelacije za varijable mjerene u ordinalnim (rang) skalama;

Tačka-biserijska korelacija - koeficijent korelacije koji se koristi u slučaju analize odnosa varijabli, od kojih se jedna mjeri na skali kontinuuma, a druga na strogo dihotomnoj skali imena;

J je koeficijent korelacije koji se koristi ako se obje varijable mjere na dihotomnoj skali.

Tetrahoric (tetrahoric) - koeficijent korelacije koji se koristi kada se obje varijable mjere na kontinualnim skalama.

Linearni odnos između varijabli X i i X j procjenjuje se koeficijentom korelacije:

,


gdje su X i i X j varijable koje se proučavaju; mX i i mX j – matematička očekivanja varijabli; σ X i σ X su varijanse varijabli.

Koeficijent korelacije uzorka određuje se formulom:

,

ili koristeći pretvorenu formulu:

,

gdje je i =1, 2, ..., n, j = 1, 2, ..., m, u = 1, 2, ..., N; N – broj eksperimenata (veličina uzorka); x i, x j – procjene matematičkih očekivanja; S Xi , S Xj – procjene standardnih devijacija.

Samo sa zajedničkom normalnom raspodjelom proučavanih slučajnih varijabli X i i X j koeficijent korelacije ima određeno značenje odnosa između varijabli. Inače, koeficijent korelacije može samo posredno karakterizirati ovaj odnos.

1.6 Normalizovani Bravais-Pearson koeficijent korelacije

Bravais-Pearsonov koeficijent korelacije r koristi se kao procjena opšteg koeficijenta korelacije p. Da bi se to odredilo, pretpostavlja se dvodimenzionalna normalna distribucija populacije iz koje se dobijaju eksperimentalni podaci. Ova pretpostavka se može testirati odgovarajućim testovima značajnosti. Treba napomenuti da ako su pojedinačno jednodimenzionalne empirijske raspodjele vrijednosti x i i y i konzistentne s normalnom distribucijom, onda iz ovoga ne slijedi da će dvodimenzionalna raspodjela biti normalna. Za takav zaključak potrebno je provjeriti i pretpostavku linearnosti odnosa između slučajnih varijabli X i Y. Strogo govoreći, za izračunavanje koeficijenta korelacije dovoljno je samo prihvatiti pretpostavku o linearnosti odnosa između slučajnih varijabli, i izračunati koeficijent korelacije će biti mjera ove linearne veze.
Bravais–Pearson koeficijent korelacije () odnosi se na parametarske koeficijente i za praktične proračune se izračunava pomoću formule:

Iz formule je jasno da je za proračun potrebno pronaći prosječne vrijednosti karakteristika X i Y, kao i odstupanje svakog statističkog podatka od njegovog prosjeka. Poznavajući ove vrijednosti, pronalaze se zbroji. Zatim, nakon izračunavanja vrijednosti, potrebno je utvrditi pouzdanost pronađenog koeficijenta korelacije upoređujući njegovu stvarnu vrijednost sa tabelarnom vrijednošću za f = n –2. Ako je , onda možemo reći da postoji pouzdana veza između karakteristika. Ako je , tada postoji nepouzdana korelacija između karakteristika.

Primjer 1.10 Učenici su dobili testove vizualno-figurativnog i verbalnog mišljenja. Prosječno vrijeme rješavanja testnih zadataka mjereno je u sekundama. Istraživača zanima pitanje: postoji li veza između vremena koje je potrebno za rješavanje ovih problema? Varijabla X označava prosječno vrijeme za rješavanje vizualno-figurativnih testova, a varijabla Y označava prosječno vrijeme za rješavanje verbalnih testnih zadataka.

Rješenje. Predstavimo početne podatke u obliku tabele 4, koja sadrži dodatne kolone potrebne za izračunavanje pomoću formule.

Tabela 1 – Problemski uslovi

Broj subjekata x y x i - (x i -) 2 y i - (y i - ) 2
1 19 17 -16,7 278,89 -7,2 51,84 120,24
2 32 7 -3,7 13,69 -17,2 295,84 63,64
3 33 17 -2,7 7,29 -7,2 51,84 19,44
4 44 28 8,3 68,89 3,8 14,44 31,54
5 28 27 -7,7 59,29 2,8 7,84 -21,56
6 35 31 -0,7 0,49 6,8 46,24 -4,76
7 39 20 3,3 10,89 -4,2 17,64 -13,86
8 39 17 3,3 10,89 -7,2 51,84 -23,76
9 44 35 8,3 68,89 10,8 116,64 89,64
10 44 43 8,3 68,89 18,8 353,44 156,04
Suma 357 242 588,1 1007,6 416,6
Prosjek 35,7 24,2

Izračunavamo empirijsku vrijednost koeficijenta korelacije koristeći formulu za izračunavanje Bravais–Pearsonovog koeficijenta korelacije:

Određujemo kritične vrijednosti za rezultirajući koeficijent korelacije pomoću tabele. Prilikom pronalaženja kritičnih vrijednosti za izračunati Pearsonov koeficijent linearne korelacije, broj stupnjeva slobode se računa kao f = n – 2 = 8. r crit = 0,72 > 0,54, stoga se hipoteza H 1 odbacuje i hipoteza H 0 se prihvaćeno, drugim riječima, nije dokazana veza između vremena rješavanja vizualno-figurativnih i verbalnih testnih zadataka.

1.7 Spearmanov koeficijent korelacije ranga

Ako trebate uspostaviti vezu između dvije karakteristike čije vrijednosti u populaciji nisu raspoređene po normalnom zakonu, tj. pretpostavka da je dvodimenzionalni uzorak (xi i yi) dobijen iz dvodimenzionalne normalne populacije je nije prihvaćeno, onda možete koristiti koeficijent ranga Spearmanove korelacije ():

gdje su dx i dy rangovi indikatora xi i yi; n – broj koreliranih parova.

Koeficijent korelacije ranga takođe ima granice od 1 i –1. Ako su rangovi isti za sve vrijednosti xi i yi, tada su sve razlike u rangu (dx - dy) = 0 i = 1. Ako su rangovi xi i yi obrnutim redoslijedom, tada je = -1. Dakle, koeficijent korelacije ranga je mjera podudarnosti rangova vrijednosti x i i y i .

Kada se rangovi svih vrijednosti x i i y i striktno poklapaju ili su obrnutim redoslijedom, postoji funkcionalna ovisnost između slučajnih varijabli X i Y, a ta ovisnost nije nužno linearna, kao u slučaju Bravais-Pearson linearne koeficijent korelacije, ali može biti bilo koja monotona zavisnost (tj. zavisnost koja se stalno povećava ili opada). Ako se ovisnost monotono povećava, tada se rangovi vrijednosti x i i y i poklapaju i = 1; ako je zavisnost monotono opadajuća, tada su rangovi inverzni i = –1. Stoga je koeficijent korelacije ranga mjera bilo kojeg monotonog odnosa između slučajnih varijabli X i Y.

Iz formule je jasno da je za izračunavanje potrebno prvo upisati rangove (dx i dy) indikatora xi i yi, pronaći razlike u rangovima (dx - dy) za svaki par indikatora i kvadrate ovih indikatora. razlike (dx - dy) 2. Poznavajući ove vrijednosti, pronalaze se zbrojevi, uzimajući u obzir da je uvijek jednako nuli. Zatim, nakon izračunavanja vrijednosti, potrebno je utvrditi pouzdanost pronađenog koeficijenta korelacije upoređujući njegovu stvarnu vrijednost sa tabelarnom. Ako je , onda možemo reći da postoji pouzdana veza između karakteristika. Ako je , tada postoji nepouzdana korelacija između karakteristika.

Koeficijent korelacije Spearmanovog ranga je mnogo lakše izračunati nego Bravais-Pearsonov koeficijent korelacije sa istim početnim podacima, budući da se u proračunu koriste rangovi, koji su obično cijeli brojevi.

Preporučljivo je koristiti koeficijent korelacije ranga u sljedećim slučajevima:

Ako su eksperimentalni podaci precizno izmjerene vrijednosti karakteristika X i Y i potrebno je brzo pronaći približnu procjenu koeficijenta korelacije. Tada, čak iu slučaju bivarijantne normalne distribucije populacije, može se koristiti koeficijent korelacije ranga umjesto tačnog Bravais-Pearsonovog koeficijenta korelacije. Proračuni će biti znatno jednostavniji, a tačnost procjene opšteg parametra p pomoću koeficijenta za velike uzorke iznosi 91,2% u odnosu na tačnost procjene pomoću koeficijenta korelacije;

Kada su vrijednosti x i i (ili) y i date na ordinalnoj skali (na primjer, bodovi sudija, mjesta na takmičenjima, kvantitativne gradacije kvalitativnih karakteristika), odnosno kada se karakteristike ne mogu precizno izmjeriti, ali su njihove uočene vrijednosti ​mogu se poredati određenim redosledom.

Primjer 2. Odrediti pouzdanost odnosa između indikatora težine i maksimalnog iznosa fleksije i ekstenzije ruku u ležećem položaju kod 10 ispitanika izračunavanjem koeficijenta rang korelacije, ako su podaci uzorka sljedeći:

x i,kg~55; 45; 43; 47; 47; 51; 48; 60; 53;50

y i, broj puta ~ 26; 20; 25; 22; 27; 28; 16; 15; 18; 24

1. Izračunat ćemo Spearmanov koeficijent korelacije ranga koristeći formulu:

gdje: d x I d y- rangovi indikatora X I at ;

n- broj koreliranih parova ili subjekata.

2 Unesite podatke testiranja u radni list i napravite potrebne proračune.

Tabela 2 - Podaci o ispitivanju

x i d x y i d y
55 9 26 9 0 0
45 2 20 4 -2 4
43 1 25 7 -6 36
47 3.5 22 5 -1.5 2.25
47 3.5 7 8 -4.5 20.25
51 7 28 10 -3 9
48 5 16 2 3 9
60 10 15 1 9 81
53 8 18 3 5 25
50 6 24 6 0 0
= 0 = 186,5

Onda

3. Uporedite izračunatu vrijednost koeficijenta rang korelacije (r f = -0,13) sa tabelarnom vrijednošću za n = 10 pri α = 5% i izvedite zaključak.

1) jer r f = -0,13< 0, то между данными выборок наблюдается прямая отрицательная взаимосвязь, т.е. увеличением показателей веса вызывает снижение максимального количество сгибаний и разгибаний рук в упоре лежа в группе исследуемых;

2) jer r f = -0,13< r st = 0,64 для n = 10 при α = 5%, то с уверенностью Р = 95% можно говорить о том, что выявленная зависимость недостоверна.

1.8 Osnovna svojstva koeficijenata korelacije

Glavna svojstva koeficijenta korelacije uključuju sljedeće:

Koeficijenti korelacije mogu karakterizirati samo linearne odnose, tj. one koje su izražene jednadžbom linearne funkcije. Ako postoji nelinearna veza između različitih karakteristika, treba koristiti druge indikatore povezanosti;

Vrijednosti koeficijenata korelacije su apstraktni brojevi u rasponu od -1 do +1, tj. -1< r < 1;

Sa nezavisnom varijacijom karakteristika, kada ne postoji veza između njih, r = 0;

Kod pozitivnog ili direktnog odnosa, kada se s povećanjem vrijednosti jedne karakteristike povećavaju vrijednosti druge, koeficijent korelacije poprima pozitivan predznak i kreće se od 0 do +1, tj. 0< r < 1;

Kod negativnog ili inverznog odnosa, kada se s povećanjem vrijednosti jedne karakteristike shodno tome smanjuju vrijednosti druge, koeficijent korelacije je praćen negativnim predznakom i kreće se od 0 do –1, tj. -1< r <0;

Što je jača veza između karakteristika, to je koeficijent korelacije bliži 1. Ako je r = ±1, tada korelacioni odnos postaje funkcionalan, tj. svaka vrijednost atributa X će odgovarati jednoj ili više strogo definiranih vrijednosti atributa Y;

Pouzdanost korelacije između karakteristika ne može se suditi samo po veličini koeficijenata korelacije. Ovaj parametar zavisi od broja stepeni slobode f= n –2, gde je n broj koreliranih parova indikatora X i Y. Što je n veći, to je veća pouzdanost veze pri istoj vrednosti koeficijenta korelacije.

1.9 Provjera značajnosti koeficijenata korelacije

Za provjeru važnosti koeficijenata korelacije najčešće se koriste Studentova raspodjela i uvjet:

, f = N – 2, α = 0,05.


Ako je uslov ispunjen, onda se prihvata hipoteza o odsustvu korelacije.

1.10 Kritične vrijednosti koeficijenta korelacije para

Tabela 3 - Kritične vrijednosti koeficijenta korelacije para pri α=0,05

Da biste proverili značaj koeficijenta parne korelacije, potrebno je da uporedite njegovu vrednost sa tabeliranom (kritičnom) vrednošću r, koja je data u tabeli 3. Da biste koristili ovu tabelu, morate znati broj stepeni slobode f = N – 2 i odaberite određeni nivo značajnosti, na primjer jednak 0,05. Ovaj nivo značajnosti se takođe naziva nivoom rizika od 5%, što odgovara verovatnoći tačnog odgovora pri testiranju naše hipoteze P = 1 – α = 0,95, ili 95%. To znači da je u prosjeku samo u 5% slučajeva moguća greška prilikom testiranja hipoteze.

U praktičnim studijama najčešće se koristi nivo rizika od 5%. Ali eksperimentator je uvijek slobodan da odabere nivo značajnosti, a mogu postojati situacije u kojima je, na primjer, potreban nivo rizika od 1%. Ovo povećava pouzdanost odgovora. Testiranje hipoteze se svodi na poređenje apsolutne vrijednosti koeficijenta parne korelacije sa kritičnom vrijednošću. Ako je eksperimentalno utvrđena vrijednost r manja od kritične vrijednosti, onda nema razloga vjerovati da postoji bliska linearna veza između parametara, a ako je veća ili jednaka, onda se postavlja hipoteza o linearnom korelacijskom odnosu. nije odbijena.

2. RJEŠENJE PROBLEMA

Tabela 1 – Problemski uslovi

Tabela 2 – Funkcija odgovora

U1 65 60 63 46 47 47 56 54
U2 55 47 46 47 58 56 49 61
UZ 55 51 61 57 58 53 55 52

2.2 Određivanje centra plana (glavni nivo) i nivoa varijacije faktora

Pronalaženje centra plana:

.

Pronalaženje poluraspona:


Računamo i slažemo u obliku tabele.

,

,

,

Tabela 3 - Plansko središte i poluraspon

Izračunavamo donji nivo varijacije faktora:

Izračunavamo gornji nivo varijacije faktora:

2.3 Izgradnja matrice planiranja

Pošto imamo 2 nivoa varijacije faktora i 3 faktora, dobijamo matricu. Broj eksperimenata je 8.

Tabela 3 – Tipska matrica planiranja

Iskustvo br.
1 + + -
2 + + +
3 + - +
4 + - -
5 - + -
6 - + +
7 - - +
8 - - -

Izrađujemo proširenu matricu planiranja kako bismo uzeli u obzir interakciju faktora.

Tabela 4 - Proširena matrica planiranja

Iskustvo br.
1 + + + - + - - - 65 55 55 58,3
2 + + + + + + + + 60 47 51 52,7
3 + + - + - + - - 63 46 61 56,7
4 + + - - - - + + 46 47 57 50
5 + - + - - + - + 47 58 58 54,3
6 + - + + - - + - 47 56 53 52
7 + - - + + - - + 56 49 55 53,3
8 + - - - + + + - 54 61 52 55,7

2.4 Provjera homogenosti disperzije i ekvivalencije mjerenja u različitim serijama

Za provjeru homogenosti varijanse odabran je Cochran test. Da bismo to učinili, izračunavamo varijansu u svakom eksperimentu koristeći formulu:

.

Uvjeti za provjeru homogenosti varijansi korištenjem Cochranovog kriterija:


Za nivo značajnosti od 0,05 to je jednako 0,32.

<, следовательно, дисперсия однородна и измерения в разных сериях равноточны.

2.5 Koeficijenti regresijske jednačine

Pronalaženje koeficijenata regresijske jednačine.

Prema tome, jednadžba regresije će imati oblik:

2.6 Varijanca reproduktivnosti

Izračunavamo vrijednost varijanse ponovljivosti koristeći formulu:

2.7 Provjera značaja koeficijenata regresijske jednačine

Provjeravamo značajnost koeficijenata regresione jednadžbe koristeći Studentov test:

Uslov značajnosti Za nivo značajnosti α = 0,05 i broj stepeni slobode f = N - 1 =8 - 1 = 7, nalazimo tabelu vrednosti Studentovog testa

Upoređujemo izračunatu vrijednost sa tabelarnom i vidimo da je vrijednost su beznačajni i njihove koeficijente treba isključiti iz jednačine regresije. Pošto su se koeficijenti pokazali beznačajni i nemamo mogućnost da ponovo pokrenemo novi eksperiment, nastavljamo proračune odabirom koeficijenata koji su najbliži značajnim.

Jednačina regresije će imati oblik:

2.8 Provjera adekvatnosti jednačine regresije

Za verifikaciju se koristi Fisherov kriterijum:

gdje je d broj koeficijenata regresijske jednačine.

Pronalaženje vrijednosti:

Hajde da nađemo vrednost

Pronađite tabelu vrijednost Fisherovog kriterija za stupnjeve slobode

Upoređujući stanje<, значит, модель адекватна.

Jednačina regresije je:

Analiza značajnosti koeficijenata u regresijskoj jednačini je pokazala da je uticaj svih faktora neznatan.

Model je adekvatan, jer je kriterijum adekvatnosti manji od tabelarnog.

Mjerenja u različitim serijama su jednako tačna.

ZAKLJUČAK

Termin "korelacija" je u nauku uveo istaknuti engleski prirodnjak Francis Galton 1886. Međutim, tačnu formulu za izračunavanje koeficijenta korelacije razvio je njegov učenik Karl Pearson.

Problemi sa jednim izlaznim parametrom imaju očigledne prednosti. Ali u praksi je najčešće potrebno uzeti u obzir nekoliko izlaznih parametara. Ponekad je njihov broj prilično velik. Na primjer, u proizvodnji proizvoda od gume i plastike potrebno je voditi računa o fizičko-mehaničkim, tehnološkim, ekonomskim, umjetničkim, estetskim i drugim parametrima (čvrstoća, elastičnost, relativno istezanje itd.). Matematički modeli se mogu izgraditi za svaki od parametara, ali je nemoguće istovremeno optimizirati nekoliko funkcija.

Tipično, jedna funkcija koja je najvažnija za svrhu studije je optimizirana, podložna ograničenjima koja nameću druge funkcije. Stoga se od mnogih izlaznih parametara jedan odabire kao parametar optimizacije, a ostali služe kao ograničenja. Uvijek je korisno istražiti mogućnost smanjenja broja izlaznih parametara. Zbog toga se koristi korelaciona analiza.

Koristeći rezultate korelacione analize, istraživač može izvući određene zaključke o prisutnosti i prirodi međuzavisnosti, što samo po sebi može pružiti značajne informacije o objektu koji se proučava. Rezultati mogu sugerirati kako smjer daljeg istraživanja, tako i skup potrebnih metoda, uključujući i statističke, neophodnih za potpunije proučavanje objekta.

Upotreba aparata korelacione analize može doneti posebno stvarne koristi u fazi ranih istraživanja u oblastima gde priroda uzroka određenih pojava još nije dovoljno shvaćena. Ovo se može odnositi na proučavanje veoma složenih sistema različitih tipova: tehničkih i društvenih.

BIBLIOGRAFIJA

1 Sidorenko E.V. Metode matematičke obrade u psihologiji. Sankt Peterburg: Rech LLC, 2000. – 350 str.

2 Predavanje na temu: „Korelacione analize” // www.kgafk.ru, 2006, 8 str.

3 Kovalev V.V., Volkova O.N., Analiza ekonomske aktivnosti preduzeća//polbu.ru, 2005, 2 str.

4 Polyakov L.E., Spearmanov koeficijent korelacije ranga //www.eduhmao.ru, 1971, 2 str.

5 Bondar A.G., Statyukha G.A. Planiranje eksperimenta u hemijskoj tehnologiji. Kijev: Viša škola, 1976 – 335 str.

6 Adler Yu.P., Granovsky Yu.V., Markova E.V. Planiranje eksperimenta pri traženju optimalnih uslova. M.: Nauka, 1976.–278 str.

7 Anderson T., Uvod u multivarijantnu statističku analizu //www.ami.nstu.ru, 1963, 24 str.

Ako postoje dvije serije vrijednosti koje podliježu rangiranju, racionalno je izračunati korelaciju Spearmanovog ranga.

Takve serije se mogu predstaviti:

  • par karakteristika utvrđenih u istoj grupi objekata koji se proučavaju;
  • par pojedinačnih podređenih karakteristika, utvrđenih u 2 proučavana objekta prema istom skupu karakteristika;
  • par grupnih podređenih karakteristika;
  • individualna i grupna podređenost karakteristika.

Metoda uključuje rangiranje indikatora posebno za svaku od karakteristika.

Najmanja vrijednost ima najmanji rang.

Ova metoda se odnosi na neparametarsku statističku metodu dizajniranu da utvrdi postojanje veze između fenomena koji se proučavaju:

  • utvrđivanje stvarnog stepena paralelizma između dvije serije kvantitativnih podataka;
  • procjena bliskosti identificirane veze, izražena kvantitativno.

Korelaciona analiza

Statistička metoda dizajnirana da identifikuje postojanje veze između 2 ili više slučajnih vrijednosti (varijabli), kao i njenu snagu, naziva se korelaciona analiza.

Ime je dobio po correlatio (lat.) - omjer.

Kada ga koristite, mogući su sljedeći scenariji:

  • prisustvo korelacije (pozitivne ili negativne);
  • nema korelacije (nula).

Ako se uspostavi odnos između varijabli, govorimo o njihovoj korelaciji. Drugim riječima, možemo reći da kada se vrijednost X promijeni, nužno će se uočiti proporcionalna promjena vrijednosti Y.

Kao alati se koriste različite komunikacijske mjere (koeficijenti).

Na njihov izbor utiču:

  • metoda za mjerenje slučajnih brojeva;
  • priroda veze između slučajnih brojeva.

Postojanje korelacijske veze može se prikazati grafički (grafici) i korištenjem koeficijenta (numerički prikaz).

Korelacioni odnos karakterišu sledeće karakteristike:

  • jačina veze (sa koeficijentom korelacije od ±0,7 do ±1 – jaka; od ±0,3 do ±0,699 – prosječna; od 0 do ±0,299 – slaba);
  • smjer komunikacije (direktan ili obrnut).

Ciljevi korelacione analize

Korelaciona analiza ne dozvoljava nam da uspostavimo uzročno-posledične veze između proučavanih varijabli.

Izvodi se u svrhu:

  • uspostavljanje odnosa između varijabli;
  • dobijanje određenih informacija o varijabli na osnovu druge varijable;
  • utvrđivanje bliskosti (povezanosti) ove zavisnosti;
  • određivanje pravca uspostavljene veze.

Metode analize korelacije


Ova analiza se može izvesti pomoću:

  • metoda kvadrata ili Pearson;
  • rank method ili Spearman.

Pirsonova metoda je primjenjiva na proračune koji zahtijevaju precizno određivanje sile koja postoji između varijabli. Karakteristike koje se proučavaju uz njegovu pomoć treba izraziti samo kvantitativno.

Za primjenu Spearmanove metode ili korelacije ranga ne postoje strogi zahtjevi za izražavanje karakteristika – ono može biti i kvantitativno i atributivno. Zahvaljujući ovoj metodi, ne dobijaju se informacije o tačnom određivanju snage veze, već su približne prirode.

Promjenjivi redovi mogu sadržavati otvorene varijante. Na primjer, kada je radno iskustvo izraženo u vrijednostima kao što su do 1 godine, više od 5 godina itd.

Koeficijent korelacije

Statistička veličina koja karakteriše prirodu promjena u dvije varijable naziva se koeficijent korelacije ili koeficijent korelacije para. U kvantitativnom smislu, kreće se od -1 do +1.

Najčešći izgledi su:

  • Pearson– primjenjivo za varijable koje pripadaju intervalnoj skali;
  • Spearman– za varijable ordinalne skale.

Ograničenja upotrebe koeficijenta korelacije

Dobijanje nepouzdanih podataka prilikom izračunavanja koeficijenta korelacije moguće je u slučajevima kada:

  • postoji dovoljan broj dostupnih varijabilnih vrijednosti (25-100 parova zapažanja);
  • između varijabli koje se proučavaju, na primjer, uspostavlja se kvadratni odnos, a ne linearni;
  • u svakom slučaju podaci sadrže više od jednog zapažanja;
  • prisustvo anomalnih vrijednosti (izuzetnih vrijednosti) varijabli;
  • podaci koji se proučavaju sastoje se od jasno prepoznatljivih podgrupa zapažanja;
  • prisustvo korelacije ne dozvoljava nam da ustanovimo koja se od varijabli može smatrati uzrokom, a koja posljedicom.

Provjera značajnosti korelacije

Za procjenu statističkih veličina koristi se koncept njihovog značaja ili pouzdanosti, koji karakteriše vjerovatnoću slučajnog pojavljivanja neke veličine ili njenih ekstremnih vrijednosti.

Najčešći metod za određivanje značajnosti korelacije je Studentov t test.

Njegova vrijednost se upoređuje sa vrijednošću u tabeli, broj stupnjeva slobode se uzima kao 2. Kada je izračunata vrijednost kriterija veća od vrijednosti u tabeli, to ukazuje na značajnost koeficijenta korelacije.

Prilikom izvođenja ekonomskih proračuna dovoljnim se smatra nivo pouzdanosti od 0,05 (95%) ili 0,01 (99%).

Spearman činovi

Spearmanov koeficijent korelacije ranga omogućava vam da statistički utvrdite postojanje veze između fenomena. Njegovo izračunavanje uključuje uspostavljanje serijskog broja – ranga – za svaki atribut. Rang može biti rastući ili silazni.

Broj karakteristika koje podliježu rangiranju može biti bilo koji. Ovo je prilično radno intenzivan proces koji ograničava njihov broj. Poteškoće počinju kada dostignete 20 znakova.

Da biste izračunali Spearmanov koeficijent, koristite formulu:

pri čemu:

n – prikazuje broj rangiranih karakteristika;

d nije ništa drugo do razlika između rangova u dvije varijable;

i ∑(d2) je zbir kvadratnih razlika rangova.

Primena korelacione analize u psihologiji

Statistička podrška psihološkim istraživanjima omogućava da ona budu objektivnija i visoko reprezentativna. Statistička obrada podataka dobijenih tokom psiholoških eksperimenata pomaže da se izvuku maksimalno korisne informacije.

Najrasprostranjenija metoda za obradu njihovih rezultata je korelaciona analiza.

Prikladno je provesti analizu korelacije rezultata dobijenih tokom istraživanja:

  • anksioznost (prema testovima R. Temml, M. Dorca, V. Amen);
  • porodični odnosi (upitnik „Analiza porodičnih odnosa” (AFV) E.G. Eidemiller, V.V. Yustitskis);
  • nivo internosti-eksternalnosti (upitnik E.F. Bazhin, E.A. Golynkina i A.M. Etkind);
  • stepen emocionalnog sagorevanja među nastavnicima (upitnik V.V. Boyko);
  • veze između elemenata verbalne inteligencije učenika tokom multidisciplinarnog treninga (metodologija K.M. Gurevicha i dr.);
  • veze između nivoa empatije (metoda V.V. Boyka) i bračnog zadovoljstva (upitnik V.V. Stolin, T.L. Romanova, G.P. Butenko);
  • veze između sociometrijskog statusa adolescenata (Jacob L. Moreno test) i karakteristika stila porodičnog vaspitanja (upitnik E.G. Eidemiller, V.V. Yustitskis);
  • strukture životnih ciljeva adolescenata odgajanih u dvoroditeljskim i jednoroditeljskim porodicama (upitnik Edward L. Deci, Richard M. Ryan Ryan).

Kratke upute za provođenje korelacijske analize korištenjem Spearmanovog kriterija

Provedena je korelaciona analiza Spearmanovom metodom prema sljedećem algoritmu:

  • uparene uporedive karakteristike su raspoređene u 2 reda, od kojih je jedan označen sa X, a drugi sa Y;
  • vrijednosti serije X su raspoređene u rastućem ili opadajućem redoslijedu;
  • redoslijed rasporeda vrijednosti serije Y određen je njihovom korespondencijom s vrijednostima serije X;
  • za svaku vrijednost u seriji X odredite rang - dodijelite serijski broj od minimalne vrijednosti do maksimuma;
  • za svaku od vrijednosti u nizu Y odredite i rang (od minimuma do maksimuma);
  • izračunajte razliku (D) između rangova X i Y, koristeći formulu D=X-Y;
  • rezultirajuće vrijednosti razlike su na kvadrat;
  • izvršiti zbrajanje kvadrata razlike u rangu;
  • izvršite proračune koristeći formulu:

Primjer Spearmanove korelacije

Potrebno je utvrditi postojanje korelacije između radnog iskustva i stope ozljeda ako su dostupni sljedeći podaci:

Najprikladnija metoda analize je metoda rangiranja, jer jedna od karakteristika je predstavljena u obliku otvorenih opcija: radno iskustvo do 1 godine i radno iskustvo od 7 godina ili više.

Rješavanje problema počinje rangiranjem podataka koje se sastavlja u radnu tabelu i može se obaviti ručno, jer njihov obim nije veliki:

Radno iskustvo Broj povreda Serijski brojevi (činovi) Razlika u rangu Razlika rangova na kvadrat
d(x-y)
do 1 godine 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 ili više 6 5 1 +4 16
Σ d2 = 38,5

Pojava frakcijskih rangova u koloni je posljedica činjenice da ako se pojave varijante jednake veličine, pronalazi se aritmetička sredina ranga. U ovom primjeru, indikator povrede 12 se pojavljuje dva puta i dodjeljuje mu se rang 2 i 3, pronađite aritmetičku sredinu ovih rangova (2+3)/2= 2,5 i stavite ovu vrijednost u radni list za 2 indikatora.
Zamjenom dobijenih vrijednosti u radnu formulu i jednostavnim proračunima dobijamo Spearmanov koeficijent jednak -0,92

Negativna vrijednost koeficijenta ukazuje na postojanje inverzne veze između karakteristika i omogućava nam da tvrdimo da je kratko radno iskustvo praćeno velikim brojem ozljeda. Štaviše, snaga veze između ovih pokazatelja je prilično velika.
Sljedeća faza proračuna je određivanje pouzdanosti dobijenog koeficijenta:
izračunavaju se njegova greška i Studentov test

Upotreba statističkih metoda u obradi materijala psiholoških istraživanja pruža odličnu priliku za izvlačenje korisnih informacija iz eksperimentalnih podataka. Jedna od najčešćih statističkih metoda je analiza korelacije.

Termin "korelacija" prvi je upotrebio francuski paleontolog J. Cuvier, koji je izveo "zakon korelacije delova i organa životinja" (ovaj zakon omogućava da se iz pronađenih delova tela rekonstruiše izgled cele životinje) . Ovaj termin je u statistiku uveo engleski biolog i statističar F. Galton (ne samo "veza" - odnos, i "kao da je veza" - korelacija).

Korelaciona analiza je testiranje hipoteza o vezama između varijabli pomoću koeficijenata korelacije, bivarijatne deskriptivne statistike, kvantitativne mjere odnosa (zajedničke varijabilnosti) dvije varijable. Dakle, ovo je skup metoda za otkrivanje korelacija između slučajnih varijabli ili karakteristika.

Analiza korelacije za dvije slučajne varijable uključuje:

  • konstruisanje korelacionog polja i sastavljanje korelacione tabele;
  • izračunavanje koeficijenata korelacije uzorka i korelacionih odnosa;
  • testiranje statističke hipoteze o značajnosti odnosa.

Glavna svrha korelacione analize je da se identifikuje odnos između dve ili više varijabli koje se proučavaju, što se smatra zajedničkom koordinisanom promenom dve karakteristike koje se proučavaju. Ova varijabilnost ima tri glavne karakteristike: oblik, smjer i snagu.

Oblik korelacijske veze može biti linearan ili nelinearan. Linearni oblik je pogodniji za identifikaciju i tumačenje korelacionog odnosa. Za linearnu korelaciju mogu se razlikovati dva glavna pravca: pozitivan („direktna veza“) i negativan („povratna informacija“).

Jačina veze direktno ukazuje na to koliko je izražena zajednička varijabilnost proučavanih varijabli. U psihologiji, funkcionalni odnos fenomena može se empirijski identificirati samo kao vjerovatnoća veza odgovarajućih karakteristika. Jasnu ideju o prirodi vjerojatnosnog odnosa daje dijagram raspršenja - graf čije osi odgovaraju vrijednostima dvije varijable, a svaki subjekt predstavlja tačku.

Kao numerička karakteristika vjerovatnoće veze koriste se koeficijenti korelacije čije vrijednosti variraju u rasponu od –1 do +1. Nakon izvršenih proračuna, istraživač, po pravilu, odabire samo najjače korelacije koje se dalje tumače (tabela 1).

Kriterijum za odabir „dovoljno jakih“ korelacija može biti ili apsolutna vrijednost samog koeficijenta korelacije (od 0,7 do 1), ili relativna vrijednost ovog koeficijenta, određena nivoom statističke značajnosti (od 0,01 do 0,1), u zavisnosti na veličinu uzorka. U malim uzorcima ispravnije je odabrati jake korelacije za dalju interpretaciju na osnovu nivoa statističke značajnosti. Za studije provedene na velikim uzorcima, bolje je koristiti apsolutne vrijednosti koeficijenata korelacije.

Dakle, zadatak korelacione analize svodi se na utvrđivanje pravca (pozitivnog ili negativnog) i oblika (linearnog, nelinearnog) odnosa između različitih karakteristika, merenje njegove čvrstoće i, konačno, proveru nivoa značajnosti dobijenih koeficijenata korelacije. .

Trenutno je razvijeno mnogo različitih koeficijenata korelacije. Najviše se koriste r-Pearson, r-Spearman i τ -Kendal. Savremeni kompjuterski statistički programi nude upravo ova tri koeficijenta u meniju „Korelacije“, a metode za poređenje grupa nude se za rešavanje drugih istraživačkih problema.

Izbor metode za izračunavanje koeficijenta korelacije zavisi od vrste skale kojoj pripadaju varijable (tabela 2).

Za varijable intervala i nominalne skale koristi se Pearsonov koeficijent korelacije (korelacija momenta proizvoda). Ako je barem jedna od dvije varijable na ordinalnoj skali ili nije normalno raspoređena, koristi se Spearmanova rang korelacija ili

t-Kendall. Ako je jedna od dvije varijable dihotomna, može se koristiti biserijska korelacija tačaka (ova karakteristika nije dostupna u statističkom kompjuterskom programu SPSS; umjesto toga se mogu koristiti proračuni korelacije ranga). Ako su obje varijable dihotomne, koristi se korelacija sa četiri polja (ovaj tip korelacije izračunava SPSS na osnovu definicije mjera udaljenosti i mjera sličnosti). Izračunavanje koeficijenta korelacije između dvije ne-dihotomne varijable moguće je samo kada je odnos između njih linearan (jednosmjeran). Ako je veza, npr. U-u obliku (dvosmisleno), koeficijent korelacije nije pogodan za upotrebu kao mjera snage veze: njegova vrijednost teži nuli.

Dakle, uslovi za primjenu koeficijenata korelacije će biti sljedeći:

  • varijable mjerene na kvantitativnoj (rang, metrička) skala na istom uzorku objekata;
  • odnos između varijabli je monoton.

Glavna statistička hipoteza, koja se testira korelacijskom analizom, nije usmjerena i sadrži tvrdnju da je korelacija jednaka nuli u populaciji H 0: r xy= 0. Ako se odbije, alternativna hipoteza se prihvata H 1: r xy≠ 0 označava prisustvo pozitivne ili negativne korelacije, u zavisnosti od predznaka izračunatog koeficijenta korelacije.

Na osnovu prihvatanja ili odbijanja hipoteza izvode se smisleni zaključci. Ako prema rezultatima statističkog testiranja H 0: r xy= 0 ne odstupa na nivou a, onda će smisleni zaključak biti sljedeći: odnos između X I Y nije pronađeno. Ako na H 0 r xy= 0 odstupa na nivou a, što znači da je otkrivena pozitivna (negativna) veza između X I Y. Međutim, tumačenju identifikovanih korelacija treba pristupiti s oprezom. Sa naučne tačke gledišta, jednostavno uspostavljanje veze između dve varijable ne znači da postoji uzročno-posledična veza. Štaviše, prisustvo korelacije ne uspostavlja vezu između uzroka i posledice. To jednostavno ukazuje da su dvije varijable povezane jedna s drugom u većoj mjeri nego što bi se slučajno očekivalo. Međutim, ako je oprezan, upotreba korelacionih metoda u proučavanju uzročno-posledičnih veza je opravdana. Trebali biste izbjegavati kategorične fraze poput „varijabla X je razlog povećanja indikatora Y" Takve izjave treba formulisati kao pretpostavke koje moraju biti strogo teorijski opravdane.

Detaljan opis matematičke procedure za svaki koeficijent korelacije dat je u udžbenicima iz matematičke statistike; ; ; itd. Ograničićemo se na opisivanje mogućnosti korišćenja ovih koeficijenata u zavisnosti od vrste merne skale.

Korelacija metričkih varijabli

Za proučavanje odnosa između dvije metričke varijable mjerene na istom uzorku, koristi se koeficijent korelacije r-Pearson. Sam koeficijent karakterizira postojanje samo linearnog odnosa između karakteristika, obično označenih simbolima X I Y. Koeficijent linearne korelacije je parametarska metoda i njegova ispravna upotreba je moguća samo ako su rezultati mjerenja prikazani na intervalnoj skali, a raspodjela vrijednosti u analiziranim varijablama se tek neznatno razlikuje od normalne. Postoje mnoge situacije u kojima je njegova upotreba prikladna. Na primjer: uspostavljanje veze između učenikove inteligencije i njegovog akademskog uspjeha; između raspoloženja i uspjeha u izlasku iz problematične situacije; između nivoa prihoda i temperamenta, itd.

Pearsonov koeficijent se široko koristi u psihologiji i pedagogiji. Na primjer, u radovima I. Ya Kaplunovicha i P. D. Rabinovicha, M. P. Nuzhdina, za potvrdu hipoteza korišten je izračun Pearsonovog koeficijenta linearne korelacije.

Prilikom ručne obrade podataka potrebno je izračunati koeficijent korelacije i potom odrediti str-nivo značaja (da biste pojednostavili verifikaciju podataka, koristite tabele kritičnih vrednosti r xy, koji se sastavljaju prema ovom kriteriju). Vrijednost Pearsonovog koeficijenta linearne korelacije ne može preći +1 i biti manja od –1. Ova dva broja +1 i –1 su granice za koeficijent korelacije. Kada proračun rezultira vrijednošću većom od +1 ili manjom od –1, to znači da je došlo do greške u proračunima.

Prilikom izračunavanja na računaru, statistički program (SPSS, Statistica) prati izračunati koeficijent korelacije više od tačna vrijednost str-nivo.

Za statističko rješenje o prihvatanju ili odbijanju H 0 obično instaliran α = 0,05, a za veliki obim zapažanja (100 ili više) α = 0,01. Ako p ≤ α, H 0 se odbacuje i donosi se smislen zaključak da je pronađena statistički pouzdana (značajna) veza između proučavanih varijabli (pozitivna ili negativna, ovisno o predznaku korelacije). Kada p > α, H 0 se ne odbacuje, smisleni zaključak je ograničen na tvrdnju da (statistički značajna) veza nije pronađena.

Ako veza nije otkrivena, ali postoji razlog za vjerovanje da ona zapravo postoji, provjerite mogući razlozi nepouzdana komunikacija.

Nelinearnost komunikacije– Da biste to učinili, analizirajte dvodimenzionalni dijagram raspršenja. Ako je odnos nelinearan, ali monotoničan, prijeđite na rang korelacije. Ako odnos nije monoton, onda podijelite uzorak na dijelove u kojima je odnos monoton, i izračunajte korelacije posebno za svaki dio uzorka, ili podijelite uzorak u kontrastne grupe, a zatim ih uporedite prema nivou ekspresije osobina.

Prisustvo odstupanja i izražena asimetrija u distribuciji jedne ili obje karakteristike. Da biste to učinili, trebate pogledati histograme distribucije frekvencija obje karakteristike. Ako postoje odstupanja ili asimetrije, isključite odstupanja ili nastavite na rang korelacije.

Heterogenost uzorka(analizirati 2D dijagram raspršenja). Pokušajte podijeliti uzorak na dijelove u kojima odnos može imati različite smjerove.

Ako je veza statistički značajna, onda je prije donošenja smislenog zaključka potrebno isključiti mogućnost lažne korelacije:

  • veza je zbog emisije. Ako postoje odstupanja, idite na rangiranje korelacija ili isključite odstupnike;
  • odnos je posledica uticaja treće varijable. Ako postoji takva pojava, potrebno je izračunati korelaciju ne samo za cijeli uzorak, već i za svaku grupu posebno. Ako je “treća” varijabla metrička, izračunajte djelimičnu korelaciju.

Parcijalni koeficijent korelacije r xy -z izračunava se kada je potrebno provjeriti pretpostavku da je odnos između dvije varijable X I Y ne zavisi od uticaja treće varijable Z. Vrlo često su dvije varijable međusobno povezane samo zato što se obje zajedno mijenjaju pod utjecajem treće varijable. Drugim riječima, zapravo, ne postoji veza između odgovarajućih svojstava, već se ona pojavljuje u statističkom odnosu pod utjecajem zajedničkog uzroka. Na primjer, starost može biti čest uzrok varijabilnosti u dvije varijable kada se proučava odnos između različitih psihološke karakteristike V mješovita starosna grupa. Treba biti oprezan kada se parcijalna korelacija tumači iz perspektive uzročnosti, jer ako Z takođe korelira sa X i sa Y, i parcijalna korelacija r xy -z je blizu nule, iz ovoga ne proizilazi nužno šta tačno Z je čest razlog za X I Y.

Korelacija varijabli ranga

Ako je koeficijent korelacije neprihvatljiv za kvantitativne podatke r-Pearson, zatim da se testira hipoteza o povezanosti dvije varijable nakon preliminarnog rangiranja, mogu se primijeniti korelacije r-Spearman ili τ -Kendal. Na primjer, u proučavanju psihofizičkih karakteristika muzički darovitih adolescenata I. A. Lavočkina korišten je Spearmanov kriterij.

Za pravilno izračunavanje oba koeficijenta (Spearman i Kendall), rezultati mjerenja moraju biti prikazani u rangu ili intervalnoj skali. Fundamentalne razlike nema razlike između ovih kriterija, ali je općenito prihvaćeno da je Kendall koeficijent „smisleniji“, jer potpunije i detaljnije analizira odnose između varijabli, prolazeći kroz sve moguće korespondencije između parova vrijednosti. Spearmanov koeficijent preciznije uzima u obzir kvantitativni stepen veze između varijabli.

Spearmanov koeficijent korelacije ranga je neparametarski analog klasičnog Pirsonovog koeficijenta korelacije, ali njegovo izračunavanje ne uzima u obzir indikatore koji se odnose na distribuciju upoređenih varijabli (aritmetičku sredinu i varijansu), već rangove. Na primjer, potrebno je utvrditi vezu između rangiranja procjena osobina ličnosti koje su dio čovjekove ideje o njegovom „stvarnom ja“ i „idealnom ja“.

Spearmanov koeficijent se široko koristi u psihološko istraživanje. Na primjer, u radu Yu V. Bushova i N. N. Nesmelove: proučavati ovisnost točnosti procjene i reprodukcije trajanja zvučnih signala od. individualne karakteristike On je bio taj koji je korišten.

Pošto je ovaj koeficijent analogan r-Pearson, onda je njegova upotreba za testiranje hipoteza slična upotrebi koeficijenta r-Pearson. Odnosno, statistička hipoteza koja se testira, postupak donošenja statističke odluke i formulacija smislenog zaključka su isti. IN kompjuterski programi ah (SPSS, Statistica) nivoi značajnosti za identične koeficijente r-Pearson i r-Spearmanovi se uvijek poklapaju.

Prednost koeficijenta r-Spearman vs r-Pearson – veća osjetljivost na komunikaciju. Koristimo ga u sledećim slučajevima:

  • prisustvo značajnog odstupanja distribucije najmanje jedne varijable od normalnog oblika (asimetrija, outliers);
  • pojava krivolinijske (monotonske) veze.

Ograničenje za primjenu koeficijenta r-Spearman su:

  • za svaku varijablu najmanje 5 zapažanja;
  • koeficijent at velike količine jednaki rang za jednu ili obje varijable daje grubu vrijednost.

Koeficijent korelacije ranga τ -Kendal je nezavisna originalna metoda koja se zasniva na izračunavanju omjera parova vrijednosti dva uzorka koji imaju iste ili različite trendove (rastuće ili opadajuće vrijednosti). Ovaj koeficijent se još naziva koeficijent podudarnosti. Dakle, glavna ideja ovu metodu je da se smjer veze može ocijeniti poređenjem subjekata u parovima: ako par subjekata ima promjenu u X poklapa se u pravcu sa promjenom u Y, ovo ukazuje na pozitivnu vezu, ako se ne poklapa, to ukazuje na negativnu vezu, na primjer, prilikom učenja lični kvaliteti, koji su odlučujući za porodično blagostanje. U ovoj metodi, jedna varijabla je predstavljena kao monotonski niz (na primjer, podaci o mužu) u rastućem redoslijedu veličine; drugoj varijabli (na primjer, ženinim podacima) dodijeljena su odgovarajuća rangirana mjesta. Broj inverzija (kršenja monotonosti u odnosu na prvi red) koristi se u formuli za koeficijente korelacije.

Prilikom brojanja τ- Kendall "ručno" podaci su prvo poređani po varijabli X. Zatim se za svaki predmet izračunava koliko puta je njegov rang prema Y ispada da je manji od ranga subjekata ispod. Rezultat se bilježi u koloni "Utakmice". Zbir svih vrijednosti u koloni „Podudaranje“ je Pukupan broj podudara se u formulu za izračunavanje Kendalovog koeficijenta, koji je jednostavniji u računskom smislu, ali kako se uzorak povećava, za razliku od r-Spearmane, obim proračuna se ne povećava proporcionalno, već u geometrijska progresija. Tako, na primjer, kada N= 12 potrebno je sortirati 66 parova predmeta, i kada N= 489 – već 1128 parova, odnosno obim proračuna se povećava za više od 17 puta. Kada se računa na računaru u statističkom programu (SPSS, Statistica), Kendall koeficijent se izračunava slično koeficijentima r-Spearman i r-Pearson. Izračunati koeficijent korelacije τ -Kendall karakterizira tačnija vrijednost str-nivo.

Upotreba Kendalovog koeficijenta je poželjnija ako postoje odstupanja u izvornim podacima.

Karakteristika koeficijenata rang korelacije je da maksimalne apsolutne korelacije ranga (+1, –1) ne odgovaraju nužno striktnim direktno ili obrnuto proporcionalnim odnosima između originalnih varijabli X I Y: dovoljna je samo monotona funkcionalna veza između njih. Korelacije ranga dostižu svoju maksimalnu apsolutnu vrijednost ako veća vrijednost jedna varijabla uvijek odgovara većoj vrijednosti druge varijable (+1), ili veća vrijednost jedne varijable uvijek odgovara manjoj vrijednosti druge varijable i obrnuto (–1).

Statistička hipoteza koja se provjerava, postupak donošenja statističke odluke i formulacija smislenog zaključka isti su kao u slučaju r-Spearman ili r-Pearson.

Ako statistički značajna veza nije pronađena, ali postoji razlog za vjerovanje da zapravo postoji veza, prvo treba preći s koeficijenta

r-Spearman za koeficijent τ -Kendall (ili obrnuto), a zatim provjerite moguće razloge za nepouzdanu vezu:

  • nelinearnost komunikacije: Da biste to učinili, pogledajte 2D dijagram raspršenja. Ako odnos nije monoton, onda podijelite uzorak na dijelove u kojima je odnos monoton, ili podijelite uzorak u kontrastne grupe, a zatim ih uporedite prema nivou izraženosti osobine;
  • heterogenost uzorka: Pogledajte dvodimenzionalni dijagram raspršenja, pokušajte podijeliti uzorak na dijelove u kojima odnos može imati različite smjerove.

Ako je veza statistički značajna, onda je prije donošenja smislenog zaključka potrebno isključiti mogućnost lažne korelacije (po analogiji sa metričkim koeficijentima korelacije).

Korelacija dihotomnih varijabli

Kada se uporede dvije varijable mjerene na dihotomnoj skali, mjera korelacije je takozvani koeficijent j, koji je koeficijent korelacije za dihotomne podatke.

Magnituda koeficijent φ nalazi se u rasponu između +1 i –1. Može biti pozitivan ili negativan, karakterizirajući smjer odnosa između dvije dihotomno mjerene osobine. Međutim, interpretacija φ može predstavljati specifične probleme. Dihotomni podaci uključeni u izračunavanje koeficijenta φ ne liče na dvodimenzionalnu normalnu površinu, stoga je pogrešno pretpostaviti da su interpretirane vrijednosti r xy=0,60 i φ = 0,60 su isti. Koeficijent φ se može izračunati metodom kodiranja, kao i korištenjem takozvane tabele sa četiri polja ili tabele kontingencije.

Da bi se primenio koeficijent korelacije φ, moraju biti ispunjeni sledeći uslovi:

  • karakteristike koje se porede moraju se meriti na dihotomnoj skali;
  • X I Y trebao bi biti isti.

Ova vrsta korelacije se izračunava u računarskom programu SPSS na osnovu definicije mera udaljenosti i mera sličnosti. Neki statistički postupci kao npr faktorska analiza, klaster analiza, višedimenzionalno skaliranje, izgrađeni su na korišćenju ovih mjera, a ponekad i sami pružaju dodatne mogućnosti za izračunavanje mjera sličnosti.

U slučajevima kada se jedna varijabla mjeri na dihotomnoj skali (varijabla X), a drugi na skali intervala ili omjera (varijabilna Y), koristi se biserijski koeficijent korelacije, na primjer, prilikom testiranja hipoteza o utjecaju spola djeteta na visinu i težinu. Ovaj koeficijent varira u rasponu od –1 do +1, ali njegov predznak nije bitan za interpretaciju rezultata. Da biste ga koristili, moraju biti ispunjeni sljedeći uslovi:

  • Karakteristike koje se upoređuju moraju se mjeriti na različitim skalama: jedan X– na dihotomnoj skali; ostalo Y– na skali intervala ili omjera;
  • varijabla Y ima normalan zakon distribucije;
  • broj različitih karakteristika u upoređivanim varijablama X I Y trebao bi biti isti.

Ako je varijabla X mjereno na dihotomnoj skali, i varijabla Y na ljestvici ranga (varijabilna Y), može biti korišteno rang-biserijski koeficijent korelacije, koji je usko povezan sa Kendallovim τ i koristi koncepte koincidencije i inverzije u svojoj definiciji. Tumačenje rezultata je isto.

Izvođenje korelacione analize pomoću računarskih programa SPSS i Statistica je jednostavna i praktična operacija. Da biste to učinili, nakon pozivanja dijaloškog okvira Bivarijantne korelacije (Analiza>Korelacija>Bivarijantna...), potrebno je premjestiti proučavane varijable u polje Varijable i odabrati metodu kojom će se identificirati korelacijski odnos između varijabli. Izlazni fajl za svaki izračunati kriterijum sadrži kvadratnu tabelu (korelacije). Svaka ćelija tabele prikazuje: vrednost samog koeficijenta korelacije, statistički značaj izračunati koeficijent Sig, broj ispitanika.

Zaglavlje i bočne kolone rezultirajuće korelacijske tablice sadrže nazive varijabli. Dijagonala (gornji lijevi – donji desni ugao) tabele se sastoji od jedinica, jer je korelacija bilo koje varijable sa sobom maksimalna. Tabela je simetrična oko ove dijagonale. Ako je u programu označeno polje za potvrdu “Označi značajne korelacije”, tada će statistički značajne korelacije biti označene u konačnoj tabeli korelacija značajni koeficijenti: na nivou od 0,05 i manje - jedna zvjezdica (*), a na nivou od 0,01 - dvije zvjezdice (**).

Dakle, da rezimiramo: glavna svrha korelacione analize je da identifikuje odnos između varijabli. Mjera povezanosti su koeficijenti korelacije, čiji izbor direktno ovisi o vrsti skale na kojoj se varijable mjere, broju promjenjivih karakteristika u usporedivim varijablama i distribuciji varijabli. Prisustvo korelacije između dvije varijable ne znači da između njih postoji uzročna veza. Iako korelacija ne ukazuje direktno na uzročnost, ona može biti ključ do uzroka. Na osnovu toga se mogu formirati hipoteze. U nekim slučajevima, nedostatak korelacije ima dublji uticaj na hipotezu o uzročnosti. Nulta korelacija između dvije varijable može ukazivati ​​na to da nema utjecaja jedne varijable na drugu.

je jedna od najčešćih metoda za proučavanje odnosa između brojčanih veličina. Njegov glavni cilj je pronaći odnos između dva parametra i njegovog stepena, nakon čega slijedi izvođenje jednačine. Na primjer, imamo studente koji su položili ispit iz matematike i engleskog jezika. Možemo koristiti korelaciju da odredimo da li učinak na jednom testu utiče na performanse na drugom predmetu. Što se tiče regresione analize, ona pomaže u predviđanju ocjena iz matematike na osnovu rezultata ispita iz engleskog i obrnuto.

Šta je korelacioni grafikon?

Svaka analiza počinje prikupljanjem informacija. Što je više, to je precizniji rezultat. U gornjem primjeru imamo dvije discipline u kojima studenti trebaju položiti ispit. Pokazatelj uspjeha na njima je rezultat. Korelaciona i regresiona analiza pokazuje da li rezultat iz jednog predmeta utiče na rezultate na drugom ispitu. Da bi se odgovorilo na ovo pitanje, potrebno je paralelno analizirati ocjene svih učenika. Ali prvo morate odlučiti o zavisnoj varijabli. U ovom slučaju to nije toliko važno. Recimo da je ispit iz matematike održan ranije. Rezultati na njemu su nezavisna varijabla (nacrtani su na x-osi). engleski jezik je na rasporedu kasnije. Stoga su rezultati na njemu zavisna varijabla (crtani su duž ordinatne ose). Što više graf dobijen na ovaj način liči na pravu liniju, to je jači linearna korelacija između dvije odabrane količine. To znači da odlični učenici matematike sa veliki udiošanse za dobijanje petice na ispitu iz engleskog.

Pretpostavke i pojednostavljenja

Metoda korelaciono-regresijske analize uključuje pronalaženje uzročno-posledične veze. Međutim, u prvoj fazi morate shvatiti da promjene u obje veličine mogu biti posljedica neke treće veličine koju istraživač još nije uzeo u obzir. Takođe, mogu postojati nelinearni odnosi između varijabli, tako da dobijanje koeficijenta jednakog nuli nije kraj eksperimenta.

Linearna Pearsonova korelacija

Ovaj koeficijent se može koristiti ako su ispunjena dva uslova. Prvo, sve varijabilne vrijednosti su racionalnih brojeva, drugo, očekuje se da će se količine proporcionalno mijenjati. Ovaj koeficijent je uvijek između -1 i 1. Ako je veći od nule, tada postoji direktno proporcionalan odnos, manje - obrnuto, jednake - ove vrijednosti ​​ne utiču jedna na drugu ni na koji način. Sposobnost izračunavanja ovaj indikator– ovo su osnove korelacione i regresione analize. Prvo ovaj koeficijent je razvio Karl Pearson na osnovu ideje Francisa Galtona.

Svojstva i upozorenja

Pearsonov koeficijent korelacije je moćan alat, ali ga također treba koristiti s oprezom. Postoje sljedeća upozorenja pri njenoj upotrebi:

  1. Pearsonov koeficijent pokazuje prisustvo ili odsustvo linearne veze. Korelaciona i regresijska analiza se tu ne završava;
  2. Treba biti oprezan u tumačenju značenja koeficijenta. Možete pronaći korelaciju između veličine stopala i IQ nivoa. Ali to ne znači da jedan pokazatelj određuje drugi.
  3. Pirsonov koeficijent ne govori ništa o uzročno-posledičnoj vezi između indikatora.

Spearmanov koeficijent korelacije ranga

Ako promjena vrijednosti jednog pokazatelja dovodi do povećanja ili smanjenja vrijednosti drugog, to znači da su oni povezani. Korelaciono-regresijska analiza, čiji će primjer biti dat u nastavku, je upravo vezana za takve parametre. Koeficijent ranga omogućava vam da pojednostavite proračune.

Korelaciona i regresijska analiza: primjer

Pretpostavimo da se ocjenjuje učinak deset preduzeća. Imamo dvoje sudija koji im daju bodove. U ovom slučaju, korelaciona i regresiona analiza preduzeća ne može se izvršiti na osnovu linearni koeficijent Pearson. Ne zanima nas odnos između ocjena sudija. Bitni su rangovi preduzeća prema ocjeni sudija.

Ova vrsta analize ima sljedeće prednosti:

  • Neparametarski oblik odnosa između proučavanih veličina.
  • Jednostavna upotreba, jer se rangovi mogu dodijeliti u rastućem ili opadajućem redoslijedu.

Jedini uslov za ovu vrstu analize je potreba da se konvertuju izvorni podaci.

Problemi sa aplikacijom

Analiza korelacije i regresije zasniva se na sljedećim pretpostavkama:

  • Zapažanja se smatraju nezavisnim (dobijanje glave pet puta nema uticaja na ishod sledećeg bacanja novčića).
  • U korelacionoj analizi, obe varijable se tretiraju kao slučajne. U regresiji postoji samo jedna (zavisna).
  • Prilikom testiranja hipoteze, mora se promatrati normalna distribucija. Promjena zavisne varijable mora biti ista za svaku vrijednost na x-osi.
  • Korelacioni dijagram je samo prvi test hipoteze o odnosu između dva niza parametara, a ne i konačni rezultat analize.

Zavisnost i uzročnost

Pretpostavimo da smo izračunali koeficijent korelacije između obima izvoza i BDP-a. Ispostavilo se da jeste jednako jedan modulo. Da li smo do kraja izvršili korelaciono-regresijsku analizu? Naravno da ne. Ovaj rezultat ne znači da se BDP može izraziti kroz izvoz. Još nismo dokazali uzročno-posledičnu vezu između indikatora. Korelaciono-regresiona analiza – predviđanje vrednosti jedne varijable na osnovu druge. Međutim, morate shvatiti da na parametar često utječu mnogi faktori. Izvoz određuje BDP, ali ne samo on. Postoje i drugi faktori. Ovdje postoji i korelacija i uzročna veza, iako prilagođena za druge komponente bruto domaćeg proizvoda.

Druga situacija je mnogo opasnija. U Velikoj Britaniji je sprovedeno istraživanje koje je pokazalo da su djeca čiji su roditelji pušili češće delinkventi. Ovaj zaključak je donesen na osnovu jake korelacije između indikatora. Međutim, da li je to tačno? Prvo, odnos bi mogao biti obrnut. Roditelji su možda počeli pušiti zbog stresa njihove djece koja stalno upadaju u nevolje i krše zakon. Drugo, oba parametra se mogu odrediti trećim. Takve porodice pripadaju niskim društvenim slojevima, koje karakterišu oba problema. Stoga se na osnovu korelacije ne može zaključiti da postoji uzročno-posledična veza.

Zašto koristiti regresionu analizu?

Korelaciona zavisnost uključuje pronalaženje odnosa između veličina. Uzročno-posledična veza u ovom slučaju ostaje iza kulisa. Zadaci korelacijske i regresijske analize poklapaju se samo u smislu potvrđivanja postojanja veze između vrijednosti dvije veličine. Međutim, istraživač u početku ne obraća pažnju na mogućnost uzročno-posljedične veze. U regresionoj analizi uvijek postoje dvije varijable, od kojih je jedna zavisna. Odvija se u nekoliko faza:

  1. Odabir pravog modela korištenjem metode najmanjih kvadrata.
  2. Izvođenje jednadžbe koja opisuje učinak promjene nezavisne varijable na drugu.

Na primjer, ako proučavamo utjecaj starosti na visinu osobe, onda regresiona analiza može pomoći u predviđanju promjena tokom godina.

Linearna i višestruka regresija

Pretpostavimo da su X i Y dvije povezane varijable. Regresiona analiza omogućava vam da predvidite vrijednost jednog od njih na osnovu vrijednosti drugog. Na primjer, zrelost i starost su zavisne karakteristike. Zavisnost između njih se ogleda pomoću linearna regresija. U stvari, moguće je izraziti X u terminima Y ili obrnuto. Ali često je samo jedna od regresijskih linija tačna. Uspjeh analize u velikoj mjeri zavisi od tačne definicije nezavisne varijable. Na primjer, imamo dva indikatora: prinos usjeva i količinu padavina. Iz svakodnevnog iskustva postaje jasno da prvo zavisi od drugog, a ne obrnuto.

Višestruka regresija vam omogućava da izračunate nepoznatu količinu na osnovu vrijednosti tri ili više varijabli. Na primjer, prinos riže po jutru zemlje ovisi o kvaliteti zrna, plodnosti tla, gnojiva, temperaturi i padavinama. Svi ovi parametri utiču na ukupni rezultat. Da bi se model pojednostavio, koriste se sljedeće pretpostavke:

  • Odnos između nezavisnih i uticajnih karakteristika je linearan.
  • Multikolinearnost je isključena. To znači da zavisne varijable nisu povezane jedna s drugom.
  • Homoskedastičnost i normalnost brojevnih nizova.

Primjena korelacijske i regresione analize

Postoje tri glavna slučaja korištenja ove metode:

  1. Ispitivanje uzročno-posledičnih veza između veličina. U ovom slučaju, istraživač određuje vrijednosti varijable i saznaje da li one utiču na promjenu zavisne varijable. Na primjer, možete dati ljudima različite doze alkohola i izmjeriti im krvni tlak. U ovom slučaju, istraživač sigurno zna da je prvo uzrok drugog, a ne obrnuto. Korelaciono-regresiona analiza nam omogućava da otkrijemo direktno proporcionalno linearna zavisnost između ove dvije varijable i izvedite formulu koja to opisuje. U ovom slučaju se mogu uporediti količine izražene u potpuno različitim mjernim jedinicama.
  2. Pronalaženje odnosa između dvije varijable bez proširenja uzročno-posljedične veze na njih. U ovom slučaju, nije bitno koju količinu istraživač naziva zavisnom. Štaviše, u stvarnosti se može ispostaviti da su na oba pod utjecajem treće varijable, pa se proporcionalno mijenjaju.
  3. Izračunavanje vrijednosti jedne veličine na osnovu druge. Izvodi se na osnovu jednadžbe u koju se zamjenjuju poznati brojevi.

Dakle, korelaciona analiza uključuje pronalaženje veze (ne uzročno-posledice) između varijabli, a regresiona analiza uključuje njeno objašnjenje, često koristeći matematičku funkciju.

Proučavanje objektivno postojećih veza među pojavama najvažniji je zadatak statistike. U procesu statističkog proučavanja zavisnosti otkrivaju se uzročno-posledične veze između pojava. Uzročno-posledične veze su takva veza između pojava i procesa kada promena jednog od njih – uzroka – dovodi do promene drugog – posledice.

Znakovi pojava i procesa, prema njihovom značaju za proučavanje odnosa, dijele se u dvije klase. Pozivaju se znakovi koji uzrokuju promjene u drugim povezanim znakovima faktorijel , ili jednostavno faktori. Karakteristike koje se mijenjaju pod uticajem faktorskih karakteristika nazivaju se efektivno .

U statistici se pravi razlika između funkcionalnih i stohastičkih (vjerovatnih) veza između pojava i procesa:

  • Funkcionalni nazivaju takav odnos u kojem određena vrijednost faktorske karakteristike odgovara jednoj vrijednosti rezultantne.
  • Ako se uzročna zavisnost ne manifestira u svakom pojedinačnom slučaju, već općenito, u prosjeku, veliki broj zapažanja, onda se takva zavisnost naziva stohastički (vjerovatni) . Poseban slučaj stohastičke komunikacije je korelacija.

osim toga, klasificiraju se veze između pojava i njihovih karakteristika prema stepenu zategnutosti, pravcu i analitičkom izrazu.

Towards razlikovati direktnu i obrnutu vezu:

  • Direktna komunikacija - ovo je odnos u kojem, s povećanjem (smanjenjem) vrijednosti faktorske karakteristike, dolazi do povećanja (pada) vrijednosti rezultantne. Na primjer, povećanje produktivnosti rada pomaže povećanju nivoa profitabilnosti proizvodnje.
  • U slučaju povratnih informacija vrijednosti rezultirajuće karakteristike se mijenjaju pod utjecajem faktorske karakteristike, ali u suprotnom smjeru u odnosu na promjenu faktorske karakteristike. Dakle, sa povećanjem nivoa kapitalne produktivnosti, trošak po jedinici proizvodnje opada.

Analitičkim izrazom razlikovati linearne (ili jednostavno linearne) i nelinearne veze:

  • Ako se statistički odnos između pojava može približno izraziti jednadžbom prave linije, onda se naziva linearna veza oblik: y=a+bx.
  • Ako se odnos može izraziti jednadžbom bilo koje krive linije (parabole, hiperbole, itd.), onda se takav odnos naziva nelinearna (krivolinijska) veza .

Bliskost veze prikazuje mjeru utjecaja faktorske karakteristike na ukupnu varijaciju rezultirajuće karakteristike. Klasifikacija komunikacija prema stepenu nepropusnosti predstavljeno u tabeli 1.

Za identifikaciju prisutnosti veze, njene prirode i smjera u statistici, koriste se sljedeće metode: dovođenje paralelnih podataka, analitičko grupisanje, grafičko, korelacije. Glavna metoda za proučavanje statističkih odnosa je statistička komunikacijsko modeliranje zasnovano na korelacionoj i regresijskoj analizi .

Korelacija je statistički odnos između slučajnih varijabli koji nema striktno funkcionalnu prirodu, u kojem promjena jedne od slučajnih varijabli dovodi do promjene matematičko očekivanje drugi. U statistici je uobičajeno razlikovati sledeće vrste korelacije :

  • parna korelacija - veza između dvije karakteristike (rezultativne i faktorske, ili dva faktora);
  • parcijalna korelacija - zavisnost između rezultantne i jedne faktorske karakteristike sa fiksnom vrednošću ostalih faktorskih karakteristika;
  • višestruka korelacija- zavisnost rezultanta i dvije ili više faktorskih karakteristika uključenih u studiju.

Zadatak korelacione analize je kvantifikacija zbijenost komunikacije između dvije karakteristike (u parnoj vezi) i između rezultantnih i višefaktorskih karakteristika (u multifaktorskoj vezi).

Bliskost veze se kvantitativno izražava veličinom koeficijenata korelacije, koji, dajući kvantitativnu karakteristiku bliskosti veze između karakteristika, omogućavaju određivanje „korisnosti“ faktorskih karakteristika pri konstruisanju višestruke regresije. jednačina.

Korelacija je međusobno povezana sa regresijom, jer prva procenjuje snagu (blizinu) statističke veze, druga ispituje njen oblik.

Regresiona analiza sastoji se u određivanju analitičkog izraza odnosa u obliku jednadžbe regresije.

Regresija naziva se zavisnost prosječne vrijednosti slučajna varijabla rezultantni atribut iz vrijednosti faktorijalne, i jednadžba regresije – jednačina koja opisuje korelaciju između rezultantne karakteristike i jedne ili više faktorijalnih.

Formule za korelaciono-regresionu analizu za linearni odnos sa korelacijom parova prikazani su u tabeli 2.

Tabela 2 - Formule za korelaciono-regresionu analizu za linearne odnose sa parnim korelacijama
IndeksOznaka i formula
Jednačina linije za korelaciju parova y x = a +bx, gdje je b koeficijent regresije
Sistem normalnih jednačina metoda najmanjih kvadrata za određivanje koeficijenata a I b
Koeficijent linearne korelacije za određivanje blizine veze,
njegovo tumačenje:
r = 0 – nema veze;
0 -1 r = 1 – funkcionalna veza
Apsolutna elastičnost
Relativna elastičnost

Primjeri rješavanja zadataka na temu “Osnove korelacijske analize”

Zadatak 1 (analiza linearne veze sa parnom korelacijom) . Postoje podaci o kvalifikacijama i mjesečnom učinku pet radnika u radionici:

Za proučavanje odnosa između kvalifikacija radnika i njihovog učinka, odredite linearnu jednadžbu odnosa i koeficijent korelacije. Interpretirajte regresiju i koeficijente korelacije.

Rješenje . Proširimo predloženu tabelu.

Odredimo parametre pravolinijske jednačine y x = a +bx. Da bismo to uradili, rešavamo sistem jednačina:

To znači da je koeficijent regresije 18.

Pošto je b pozitivan broj, postoji direktna veza između parametara x i y.
a=92-4×18
a=20
Linearna jednadžba veza ima oblik y x = 20 + 18x.

Da bismo odredili bliskost (snagu) veze između proučavanih karakteristika, određujemo vrijednost koeficijenta korelacije pomoću formule:

= (2020-20×460/5)/(√10×√3280) ≈ 180/181,11=0,99. Pošto je koeficijent korelacije veći od 0,7, veza je ovu seriju jaka.

Problem 2 . U preduzeću su cijene proizvoda smanjene sa 80 rubalja. po jedinici do 60 rub. Nakon sniženja cijene, prodaja je porasla sa 400 na 500 jedinica dnevno. Definirajte apsolutnu i relativnu elastičnost. Napravite procjenu elastičnosti s obzirom na mogućnost (ili nemogućnost) daljnjeg sniženja cijena.

Rješenje . Izračunajmo indikatore koji nam omogućavaju da izvršimo preliminarnu analizu elastičnosti:

Kao što vidimo, stopa pada cijena je u apsolutnoj vrijednosti jednaka stopi rasta tražnje.

Apsolutnu i relativnu elastičnost pronalazimo pomoću formula:

= (500-400)/(60-80) =100/(-20) -5 - apsolutna elastičnost

= (100:400)/(-20:80) = -1 - relativna elastičnost

Modul relativne elastičnosti je jednak 1. Ovo potvrđuje činjenicu da je stopa rasta tražnje jednaka stopi pada cijena. U ovoj situaciji, izračunajmo prihod koji je kompanija primila prije i nakon smanjenja cijene: 80 * 400 = 32.000 rubalja. dnevno, 60*500 = 30.000 rub. po danu - kao što vidimo prihodi su smanjeni i dalje snižavanje cijena nije preporučljivo.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”