Interval pouzdanosti u statistici. Interval pouzdanosti za procjenu srednje vrijednosti (varijansa je poznata) u MS EXCEL-u

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Jedna od metoda rješenja statistički problemi je izračun intervala povjerenja. Koristi se kao poželjnija alternativa tačka procene sa malom veličinom uzorka. Treba napomenuti da je sam proces izračunavanja intervala povjerenja prilično složen. Ali alati programa Excel vam omogućavaju da ga donekle pojednostavite. Hajde da saznamo kako se to radi u praksi.

Ova metoda se koristi za intervalnu procjenu različitih statističkih veličina. Glavni zadatak ovog proračuna je da se riješi nesigurnosti procjene bodova.

U Excelu postoje dvije glavne opcije za izvođenje proračuna pomoću ovu metodu: kada je varijansa poznata i kada je nepoznata. U prvom slučaju, funkcija se koristi za proračune TRUST.NORM, a u drugom - POVJERENIK.STUDENT.

Metoda 1: funkcija NORMA POVJERENJA

Operater TRUST.NORM, koji pripada statističkoj grupi funkcija, prvi put se pojavio u programu Excel 2010. Ranije verzije ovog programa koriste njegov analog TRUST. Svrha ovog operatora je izračunavanje normalno raspoređenog intervala povjerenja za srednju vrijednost populacije.

Njegova sintaksa je sljedeća:

POVJERENJE.NORMA(alfa;standard_isključeno;veličina)

"Alfa"— argument koji ukazuje na nivo značajnosti koji se koristi za izračunavanje nivoa pouzdanosti. Nivo samopouzdanja jednako sljedećem izrazu:

(1-"Alfa")*100

"Standardna devijacija"- Ovo je argument čija je suština jasna iz imena. Ovo je standardna devijacija predloženog uzorka.

"Veličina"— argument koji definira veličinu uzorka.

Svi argumenti za ovaj operator su obavezni.

Funkcija TRUST ima potpuno iste argumente i mogućnosti kao i prethodni. Njegova sintaksa je:

VERUST(alfa, standard_off, veličina)

Kao što vidite, razlike su samo u nazivu operatera. Iz razloga kompatibilnosti, ova funkcija je ostavljena u programu Excel 2010 i novijim verzijama u posebnoj kategoriji "Kompatibilnost". U verzijama programa Excel 2007 i starijim, prisutan je u glavnoj grupi statističkih operatora.

Granica intervala pouzdanosti određuje se pomoću sljedeće formule:

X+(-)NORMA POUZDANJA

Gdje X je prosječna vrijednost uzorka, koja se nalazi u sredini odabranog raspona.

Pogledajmo sada kako izračunati interval pouzdanosti na konkretan primjer. Urađeno je 12 testova, što je rezultiralo različitim rezultatima navedenim u tabeli. Ovo je naš totalitet. Standardna devijacija je 8. Potrebno je da izračunamo interval pouzdanosti na nivou pouzdanosti od 97%.

  1. Odaberite ćeliju u kojoj će se prikazati rezultat obrade podataka. Kliknite na dugme "Insert Function".
  2. Pojavljuje se Čarobnjak za funkcije. Idi na kategoriju "Statistički" i označite ime "POVERENJE.NORMA". Nakon toga kliknite na dugme "UREDU".
  3. Otvara se prozor sa argumentima. Njegova polja prirodno odgovaraju imenima argumenata.
    Postavite kursor u prvo polje - "Alfa". Ovdje treba naznačiti nivo značaja. Koliko se sjećamo, naš nivo povjerenja je 97%. Istovremeno smo rekli da se izračunava na ovaj način:

    (1-nivo povjerenja)/100

    Odnosno, zamjenom vrijednosti dobijamo:

    Jednostavnim proračunima saznajemo da je argument "Alfa" jednaki 0,03 . Unesite ovu vrijednost u polje.

    Kao što je poznato, po uslovu je standardna devijacija jednaka 8 . Dakle, na terenu "Standardna devijacija" samo zapišite ovaj broj.

    Na terenu "Veličina" potrebno je da unesete broj izvršenih testnih elemenata. Koliko se sjećamo, njihove 12 . Ali kako bismo automatizirali formulu i ne bismo je uređivali svaki put kada provodimo novi test, postavimo ovu vrijednost ne običnim brojem, već pomoću operatora CHECK. Dakle, postavimo kursor u polje "Veličina", a zatim kliknite na trokut koji se nalazi lijevo od trake formule.

    Pojavljuje se lista nedavno korištenih funkcija. Ako operater CHECK koju ste nedavno koristili, trebao bi biti na ovoj listi. U ovom slučaju, samo trebate kliknuti na njegovo ime. U suprotnom, ako ga ne pronađete, pređite na stvar "Druge funkcije...".

  4. Pojavljuje se već poznati Čarobnjak za funkcije. Vratimo se ponovo na grupu "Statistički". Tu ističemo ime "PROVJERI". Kliknite na dugme "UREDU".
  5. Pojavljuje se prozor za argumente za gornju izjavu. Ova funkcija je dizajnirana da izračuna broj ćelija u određenom rasponu koje sadrže numeričke vrijednosti. Njegova sintaksa je sljedeća:

    COUNT(vrijednost1,vrijednost2,…)

    Grupa argumenata "Vrijednosti" je referenca na raspon u kojem želite izračunati broj ćelija ispunjenih numeričkim podacima. Takvih argumenata može biti do 255 ukupno, ali u našem slučaju nam je potreban samo jedan.

    Postavite kursor u polje "Vrijednost1" i, držeći lijevu tipku miša, odaberite na listu raspon koji sadrži našu kolekciju. Tada će njegova adresa biti prikazana u polju. Kliknite na dugme "UREDU".

  6. Nakon toga, aplikacija će izvršiti proračun i prikazati rezultat u ćeliji u kojoj se nalazi. U našem konkretnom slučaju formula je izgledala ovako:

    NORMA POUZDANJA(0.03,8,BROJ(B2:B13))

    Ukupan rezultat proračuna je bio 5,011609 .

  7. Ali to nije sve. Kao što se sjećamo, granica intervala povjerenja izračunava se dodavanjem i oduzimanjem rezultata izračuna od srednje vrijednosti uzorka TRUST.NORM. Na ovaj način se izračunavaju desna i lijeva granica intervala povjerenja. Sama srednja vrijednost uzorka može se izračunati pomoću operatora PROSJEČNO.

    Ovaj operator je dizajniran za izračunavanje prosjeka aritmetička vrijednost odabrani raspon brojeva. Ima sljedeću prilično jednostavnu sintaksu:

    PROSEK(broj1,broj2,…)

    Argument "Broj" mogu biti odvojene numerička vrijednost, i vezu do ćelija ili čak cijelih raspona koji ih sadrže.

    Dakle, odaberite ćeliju u kojoj će se prikazati izračun prosječne vrijednosti i kliknite na dugme "Insert Function".

  8. Otvara se Čarobnjak za funkcije. Vraćam se na kategoriju "Statistički" i izaberite ime sa liste "PROSJEČNO". Kao i uvijek, kliknite na dugme "UREDU".
  9. Otvara se prozor sa argumentima. Postavite kursor u polje "Broj 1" i držeći lijevu tipku miša, odaberite cijeli raspon vrijednosti. Nakon što se koordinate prikažu u polju, kliknite na dugme "UREDU".
  10. Nakon toga PROSJEČNO prikazuje rezultat proračuna u elementu lista.
  11. Izračunavamo desnu granicu intervala povjerenja. Da biste to učinili, odaberite zasebnu ćeliju i stavite znak «=» i sabirati sadržaj elemenata lista u kojima se nalaze rezultati proračuna funkcije PROSJEČNO I TRUST.NORM. Da izvršite proračun, pritisnite dugme Enter. U našem slučaju dobili smo sljedeću formulu:

    Rezultat izračuna: 6,953276

  12. Na isti način izračunavamo lijevu granicu intervala povjerenja, samo ovaj put iz rezultata proračuna PROSJEČNO oduzmi rezultat izračunavanja operatora TRUST.NORM. Rezultirajuća formula za naš primjer je sljedećeg tipa:

    Rezultat izračuna: -3,06994

  13. Pokušali smo detaljno opisati sve korake za izračunavanje intervala povjerenja, pa smo svaku formulu detaljno opisali. Ali možete kombinirati sve radnje u jednoj formuli. Izračun desne granice intervala povjerenja može se napisati na sljedeći način:

    PROSJEČAN(B2:B13)+POVJERENJE.NORMA(0.03,8,BROJ(B2:B13))

  14. Sličan izračun za lijevu granicu bi izgledao ovako:

    PROSJEČAN(B2:B13)-POVJERENJE.NORMA(0.03,8,BROJ(B2:B13))

Metoda 2: funkcija TRUST.STUDENT

Osim toga, Excel ima još jednu funkciju koja je povezana s izračunavanjem intervala povjerenja - POVJERENIK.STUDENT. Pojavio se samo u Excelu 2010. Ovaj operator izračunava interval pouzdanosti populacije koristeći Studentovu distribuciju. Vrlo je zgodno koristiti kada su varijansa i, shodno tome, standardna devijacija nepoznati. Sintaksa operatora je:

POVJERENJE.STUDENT(alfa,standard_isključeno,veličina)

Kao što vidite, imena operatora su u ovom slučaju ostala nepromijenjena.

Pogledajmo kako izračunati granice intervala povjerenja s nepoznatom standardnom devijacijom na primjeru iste populacije koju smo razmatrali u prethodnoj metodi. Uzmimo nivo povjerenja kao prošli put od 97%.

  1. Odaberite ćeliju u kojoj će se izvršiti proračun. Kliknite na dugme "Insert Function".
  2. Na otvorenom Čarobnjak za funkcije idi u kategoriju "Statistički". Odaberite ime "STUDENT OD POUZDANJA". Kliknite na dugme "UREDU".
  3. Pokreće se prozor argumenata za navedeni operator.

    Na terenu "Alfa", s obzirom da je nivo pouzdanosti 97%, zapisujemo broj 0,03 . Drugi put se nećemo zadržavati na principima izračunavanja ovog parametra.

    Nakon toga, postavite kursor u polje "Standardna devijacija". Ovaj put ovaj indikator nam je nepoznat i treba ga izračunati. Ovo se radi pomoću posebna funkcijaSTDEV.V. Da biste otvorili prozor ovog operatora, kliknite na trokut lijevo od trake formule. Ako ne pronađemo željeno ime na listi koja se otvori, idite na stavku "Druge funkcije...".

  4. Počinje Čarobnjak za funkcije. Prelazak u kategoriju "Statistički" i označite ime u njemu "STDEV.B". Zatim kliknite na dugme "UREDU".
  5. Otvara se prozor sa argumentima. Zadatak operatera STDEV.V je definicija standardna devijacija prilikom uzorkovanja. Njegova sintaksa izgleda ovako:

    STANDARDNO ODSTUPANJE.B(broj1;broj2;…)

    Nije teško pogoditi taj argument "Broj" je adresa elementa za odabir. Ako je selekcija smještena u jedan niz, tada možete koristiti samo jedan argument da biste pružili vezu do ovog raspona.

    Postavite kursor u polje "Broj 1" i, kao i uvijek, držeći lijevu tipku miša, odaberite kolekciju. Nakon što su koordinate u polju, nemojte žuriti da pritisnete dugme "UREDU", jer će rezultat biti netačan. Prvo se moramo vratiti na prozor argumenata operatora POVJERENIK.STUDENT deponovati poslednji argument. Da biste to učinili, kliknite na odgovarajuće ime u traci formule.

  6. Ponovo se otvara prozor argumenta za već poznatu funkciju. Postavite kursor u polje "Veličina". Ponovo kliknite na trougao koji nam je već poznat da biste prešli na izbor operatora. Kao što razumete, treba nam ime "PROVJERI". Pošto smo koristili ovu funkciju kada se računa u prethodnoj metodi, u ovu listu tamo je, pa samo kliknemo na njega. Ako ga ne pronađete, slijedite algoritam opisan u prvoj metodi.
  7. Jednom u prozoru argumenata CHECK, postavite kursor u polje "Broj 1" i sa pritisnutim dugmetom miša izaberite kolekciju. Zatim kliknite na dugme "UREDU".
  8. Nakon toga, program vrši proračun i prikazuje vrijednost intervala povjerenja.
  9. Da bismo odredili granice, opet ćemo morati izračunati srednju vrijednost uzorka. Ali, s obzirom na to da se algoritam izračuna pomoću formule PROSJEČNO isto kao u prethodnoj metodi, pa čak i rezultat se nije promijenio, nećemo se drugi put detaljnije zadržavati na tome.
  10. Zbrajanje rezultata proračuna PROSJEČNO I POVJERENIK.STUDENT, dobijamo desnu granicu intervala pouzdanosti.
  11. Oduzimanje od rezultata izračuna operatora PROSJEČNO rezultat izračuna POVJERENIK.STUDENT, imamo lijevu granicu intervala povjerenja.
  12. Ako je izračun napisan u jednoj formuli, tada će izračunavanje desne granice u našem slučaju izgledati ovako:

    PROSJEČAN(B2:B13)+POVJERENJE.STUDENT(0,03,STDEV.B(B2:B13),BROJ(B2:B13))

  13. U skladu s tim, formula za izračunavanje lijeve granice će izgledati ovako:

    PROSJEČAN(B2:B13)-POVJERENJE.STUDENT(0,03,STDEV.B(B2:B13),BROJ(B2:B13))

Kao što vidite, Excel alati znatno olakšavaju izračunavanje intervala pouzdanosti i njegovih granica. U ove svrhe, odvojeni operatori se koriste za uzorke čija je varijansa poznata i nepoznata.

Intervali pouzdanosti ( engleski Intervali pouzdanosti) jedan od tipova intervalne procjene koristi se u statistici, koja se izračunava za dati nivo značajnosti. Oni nam dozvoljavaju da to izjavimo pravo značenje nepoznati statistički parametar populacije je unutar dobijenog raspona vrijednosti sa vjerovatnoćom određenom odabranim nivoom statistički značaj.

Normalna distribucija

Kada je poznata varijansa (σ 2) populacije podataka, z-score se može koristiti za izračunavanje granica pouzdanosti (krajnje tačke intervala pouzdanosti). U poređenju s korištenjem t-distribucije, korištenje z-score će vam omogućiti da izgradite ne samo uži interval povjerenja, već i pouzdanije procjene očekivane vrijednosti i standardne devijacije (σ), budući da je z-score zasnovan na normalna distribucija.

Formula

Za određivanje graničnih tačaka intervala povjerenja, pod uvjetom da je poznata standardna devijacija populacije podataka, koristi se sljedeća formula

L = X - Z α/2 σ
√n

Primjer

Pretpostavimo da je veličina uzorka 25 opservacija, očekivana vrijednost uzorka je 15, a standardna devijacija populacije je 8. Za nivo značajnosti od α=5%, Z-skor je Z α/2 =1,96. U ovom slučaju, donja i gornja granica intervala pouzdanosti će biti

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Dakle, možemo reći da će sa vjerovatnoćom od 95% matematičko očekivanje stanovništva pasti u rasponu od 11.864 do 18.136.

Metode za sužavanje intervala povjerenja

Pretpostavimo da je raspon preširok za potrebe našeg istraživanja. Postoje dva načina da se smanji raspon intervala povjerenja.

  1. Smanjiti nivo statističke značajnosti α.
  2. Povećajte veličinu uzorka.

Smanjenjem nivoa statističke značajnosti na α=10%, dobijamo Z-skor jednak Z α/2 =1,64. U ovom slučaju, donja i gornja granica intervala će biti

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

I sam interval povjerenja može se napisati u obliku

U ovom slučaju možemo pretpostaviti da će s vjerovatnoćom od 90% matematičko očekivanje populacije pasti u raspon .

Ako ne želimo da smanjimo nivo statističke značajnosti α, onda jedina alternativa ostaje povećanje veličine uzorka. Povećajući ga na 144 opažanja, dobijamo sljedeće vrijednosti granica pouzdanosti

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

Sam interval povjerenja će imati sljedeći oblik

Dakle, sužavanje intervala pouzdanosti bez smanjenja nivoa statističke značajnosti moguće je samo povećanjem veličine uzorka. Ako povećanje veličine uzorka nije moguće, onda se sužavanje intervala pouzdanosti može postići isključivo smanjenjem nivoa statističke značajnosti.

Izrada intervala povjerenja za distribuciju koja nije normalna

Ako standardna devijacija populacija nije poznata ili se distribucija razlikuje od normalne, t-distribucija se koristi za konstruiranje intervala povjerenja. Ova tehnika je konzervativnija, što se ogleda u širim intervalima pouzdanosti, u poređenju sa tehnikom zasnovanom na Z-skoru.

Formula

Da biste izračunali donju i gornju granicu intervala povjerenja na osnovu t-distribucije, koristite sljedeće formule

L = X - t α σ
√n

Studentova raspodjela ili t-distribucija ovisi samo o jednom parametru - broju stupnjeva slobode, koji je jednak broju pojedinačnih vrijednosti atributa (broj opažanja u uzorku). Vrijednost Studentovog t-testa za dati broj stupnjeva slobode (n) i nivo statističke značajnosti α može se naći u referentnim tabelama.

Primjer

Pretpostavimo da je veličina uzorka 25 pojedinačnih vrijednosti, očekivana vrijednost uzorka 50, a standardna devijacija uzorka 28. Potrebno je konstruirati interval povjerenja za nivo statističke značajnosti α=5%.

U našem slučaju, broj stepeni slobode je 24 (25-1), pa je odgovarajuća tabelarna vrednost Studentovog t-testa za nivo statističke značajnosti α=5% 2,064. Stoga će donja i gornja granica intervala povjerenja biti

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

I sam interval se može napisati u obliku

Dakle, možemo reći da će sa vjerovatnoćom od 95% matematičko očekivanje populacije biti u rasponu .

Korištenje t distribucije vam omogućava da suzite interval pouzdanosti bilo smanjenjem statističke značajnosti ili povećanjem veličine uzorka.

Smanjenjem statističke značajnosti sa 95% na 90% u uslovima našeg primera dobijamo odgovarajuću tabelu vrednosti Studentovog t-testa od 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

U ovom slučaju možemo reći da će sa vjerovatnoćom od 90% matematičko očekivanje populacije biti u rasponu .

Ako ne želimo da smanjimo statističku značajnost, onda je jedina alternativa povećanje veličine uzorka. Recimo da je to 64 pojedinačna zapažanja, a ne 25 kao u prvobitnom stanju primjera. Tabelarna vrijednost Studentovog t-testa za 63 stepena slobode (64-1) i nivo statističke značajnosti α=5% je 1,998.

L = 50 - 1.998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Ovo nam omogućava da kažemo da će sa vjerovatnoćom od 95% matematičko očekivanje stanovništva biti u rasponu.

Veliki uzorci

Veliki uzorci su uzorci iz populacije podataka u kojoj broj pojedinačnih opservacija prelazi 100. Statističke studije su pokazale da veći uzorci imaju tendenciju da budu normalno raspoređeni, čak i ako distribucija populacije nije normalna. Osim toga, za takve uzorke, korištenje z-skora i t-distribucije daje približno iste rezultate pri konstruiranju intervala povjerenja. Stoga je za velike uzorke prihvatljivo koristiti z-score za normalnu distribuciju umjesto t-distribucije.

Hajde da sumiramo

Interval povjerenja dolazi nam iz oblasti statistike. Ovo je određeni raspon koji služi za procjenu nepoznatog parametra sa visokim stepenom pouzdanosti. Najlakši način da to objasnite je primjerom.

Pretpostavimo da trebate proučiti neku slučajnu varijablu, na primjer, brzinu odgovora servera na zahtjev klijenta. Svaki put kada korisnik upiše adresu određene web stranice, server odgovara sa različitim brzinama. Stoga je vrijeme odgovora koje se proučava je nasumično. Dakle, interval pouzdanosti nam omogućava da odredimo granice ovog parametra, i tada možemo reći da će sa vjerovatnoćom od 95% server biti u rasponu koji smo izračunali.

Ili trebate saznati koliko ljudi zna za zaštitni znak kompanije. Kada se izračuna interval povjerenja, moći će se, na primjer, reći da je sa vjerovatnoćom od 95% udio potrošača koji su svjesni toga u rasponu od 27% do 34%.

Usko povezana s ovim pojmom je količina verovatnoća poverenja. Predstavlja vjerovatnoću da je željeni parametar uključen u interval pouzdanosti. Koliko će veliki biti naš željeni raspon zavisi od ove vrijednosti. Kako veća vrijednost prihvati, interval pouzdanosti postaje uži, i obrnuto. Obično se postavlja na 90%, 95% ili 99%. Vrijednost 95% je najpopularnija.

Na ovaj indikator utiče i disperzija zapažanja i njegova definicija se zasniva na pretpostavci da se proučavana karakteristika povinuje.Ova izjava je poznata i kao Gaussov zakon. Prema njegovim riječima, takva raspodjela svih vjerovatnoća je kontinuirana slučajna varijabla, koji se može opisati gustinom vjerovatnoće. Ako je pretpostavka normalne distribucije netačna, onda procjena može biti netačna.

Prvo, hajde da shvatimo kako da izračunamo interval poverenja za Ovde postoje dva moguća slučaja. Disperzija (stepen širenja slučajne varijable) može ili ne mora biti poznata. Ako je poznato, tada se naš interval pouzdanosti izračunava pomoću sljedeće formule:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - znak,

t - parametar iz Laplaceove distributivne tabele,

σ je kvadratni korijen varijanse.

Ako je varijansa nepoznata, onda se može izračunati ako znamo sve vrijednosti željene karakteristike. Za to se koristi sljedeća formula:

σ2 = h2sr - (hsr)2, gdje je

h2sr - prosječna vrijednost kvadrata proučavane karakteristike,

(hsr)2 je kvadrat ove karakteristike.

Formula po kojoj se izračunava interval pouzdanosti u ovom slučaju se neznatno mijenja:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - prosjek uzorka,

α - znak,

t je parametar koji se nalazi pomoću Studentove tabele distribucije t = t(ɣ;n-1),

sqrt(n) - kvadratni korijen ukupne veličine uzorka,

s je kvadratni korijen varijanse.

Razmotrite ovaj primjer. Pretpostavimo da je na osnovu rezultata 7 mjerenja utvrđeno da je proučavana karakteristika jednaka 30, a varijansa uzorka jednaka 36. Potrebno je pronaći, s vjerovatnoćom od 99%, interval povjerenja koji sadrži pravi vrijednost mjerenog parametra.

Prvo, odredimo čemu je t jednako: t = t (0,99; 7-1) = 3,71. Koristeći gornju formulu, dobijamo:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Interval pouzdanosti za varijansu izračunava se i u slučaju poznate srednje vrijednosti i kada nema podataka o matematičkom očekivanju, a poznata je samo vrijednost bodovne nepristrasne procjene varijanse. Ovdje nećemo davati formule za izračunavanje, jer su prilično složene i po želji se uvijek mogu pronaći na internetu.

Napomenimo samo da je zgodno odrediti interval pouzdanosti koristeći Excel ili mrežni servis, koji se tako zove.

U statistici postoje dvije vrste procjena: tačka i interval. Tačka procjena je statistika jednog uzorka koja se koristi za procjenu parametra populacije. Na primjer, srednja vrijednost uzorka je tačkasta procjena matematičkog očekivanja populacije i varijanse uzorka S 2- bodovna procjena varijanse populacije σ 2. pokazalo se da je srednja vrijednost uzorka nepristrasna procjena matematičkog očekivanja populacije. Srednja vrijednost uzorka se naziva nepristrasna jer je prosjek svih srednjih vrijednosti uzorka (sa istom veličinom uzorka) n) jednak je matematičkom očekivanju opće populacije.

U cilju varijanse uzorka S 2 postala nepristrasna procjena varijanse stanovništva σ 2, nazivnik varijanse uzorka treba postaviti jednakim n – 1 , ali ne n. Drugim riječima, varijansa populacije je prosjek svih mogućih varijansi uzorka.

Prilikom procjene parametara populacije, treba imati na umu da statistika uzorka kao npr , ovise o konkretnim uzorcima. Uzeti ovu činjenicu u obzir, dobiti intervalna procjena matematičko očekivanje opće populacije, analizirati distribuciju srednjih vrijednosti uzorka (za više detalja vidjeti). Konstruisani interval karakteriše određeni nivo pouzdanosti, koji predstavlja verovatnoću da je pravi parametar populacije tačno procenjen. Slični intervali pouzdanosti mogu se koristiti za procjenu udjela karakteristike R i glavna rasprostranjena masa stanovništva.

Preuzmite bilješku u formatu ili, primjere u formatu

Izgradnja intervala povjerenja za matematičko očekivanje populacije sa poznatom standardnom devijacijom

Izgradnja intervala povjerenja za udio neke karakteristike u populaciji

Ovaj odjeljak proširuje koncept intervala povjerenja na kategoričke podatke. Ovo nam omogućava da procijenimo udio ove karakteristike u populaciji R koristeći udio uzorka RS= X/n. Kao što je naznačeno, ako količine nR I n(1 – str) prelazi broj 5, binomna distribucija se može aproksimirati kao normalna. Dakle, procijeniti udio neke karakteristike u populaciji R moguće je konstruisati interval čiji je nivo pouzdanosti jednak (1 – α)h100%.


Gdje strS- proporcija uzorka karakteristike jednaka X/n, tj. broj uspjeha podijeljen s veličinom uzorka, R- udio karakteristike u opštoj populaciji, Z- kritična vrijednost standardizirane normalne distribucije, n- veličina uzorka.

Primjer 3. Pretpostavimo da je uzorak koji se sastoji od 100 faktura popunjenih tokom prošlog mjeseca izvučen iz informacionog sistema. Recimo da je 10 ovih faktura sastavljeno sa greškama. dakle, R= 10/100 = 0,1. Nivo pouzdanosti od 95% odgovara kritičnoj vrijednosti Z = 1,96.

Dakle, vjerovatnoća da između 4,12% i 15,88% računa sadrži greške iznosi 95%.

Za datu veličinu uzorka, interval pouzdanosti koji sadrži udio karakteristike u populaciji izgleda širi nego za kontinuiranu slučajnu varijablu. To je zato što mjerenja kontinuirane slučajne varijable sadrže više informacija nego mjerenja kategoričkih podataka. Drugim riječima, kategorički podaci koji uzimaju samo dvije vrijednosti ne sadrže dovoljno informacija za procjenu parametara njihove distribucije.

INizračunavanje procjena ekstrahovanih iz konačne populacije

Procjena matematičkog očekivanja. Korekcioni faktor za konačnu populaciju ( fpc) je korišten za smanjenje standardne greške za faktor. Prilikom izračunavanja intervala pouzdanosti za procjene parametara populacije, faktor korekcije se primjenjuje u situacijama kada se uzorci uzimaju bez vraćanja. Dakle, interval pouzdanosti za matematičko očekivanje ima nivo pouzdanosti jednak (1 – α)h100%, izračunava se po formuli:

Primjer 4. Da bismo ilustrovali upotrebu faktora korekcije za konačnu populaciju, vratimo se problemu izračunavanja intervala pouzdanosti za prosječan iznos faktura, o čemu se govorilo u primjeru 3. Pretpostavimo da kompanija izdaje 5.000 faktura mjesečno, i =110,27 dolara, S= 28,95 dolara, N = 5000, n = 100, α = 0,05, t 99 = 1,9842. Koristeći formulu (6) dobijamo:

Procjena udjela neke karakteristike. Prilikom odabira bez povrata, interval pouzdanosti za udio atributa koji ima nivo pouzdanosti jednak (1 – α)h100%, izračunava se po formuli:

Intervali povjerenja i etička pitanja

Prilikom uzorkovanja populacije i izvođenja statističkih zaključaka često se javljaju etička pitanja. Glavni je način na koji se intervali povjerenja i procjene tačaka statistike uzorka slažu. Objavljivanje procjena tačaka objavljivanja bez specificiranja povezanih intervala pouzdanosti (obično na nivou pouzdanosti od 95%) i veličine uzorka iz kojeg su izvedene može stvoriti zabunu. Ovo može dati korisniku utisak da je bodovna procjena upravo ono što mu je potrebno da predvidi svojstva cjelokupne populacije. Stoga je potrebno shvatiti da u svakom istraživanju fokus ne treba biti na tačkastim procjenama, već na procjenama intervala. Osim toga, posebnu pažnju treba posvetiti pravilnom odabiru veličina uzoraka.

Predmet statističke manipulacije najčešće su rezultati socioloških istraživanja stanovništva o određenim političkim temama. Istovremeno, rezultati istraživanja se objavljuju na naslovnim stranicama novina, a greška uzorkovanja i metodologija statističke analize se objavljuju negdje u sredini. Da bi se dokazala validnost dobijenih tačaka, potrebno je navesti veličinu uzorka na osnovu koje su dobijene, granice intervala poverenja i nivo njegove značajnosti.

Sledeća napomena

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. – M.: Williams, 2004. – str. 448–462

Centralna granična teorema navodi da se sa dovoljno velikom veličinom uzorka distribucija uzorka srednjih vrijednosti može aproksimirati normalnom distribucijom. Ovo svojstvo ne zavisi od vrste distribucije stanovništva.

Interval povjerenja(CI; na engleskom, interval pouzdanosti - CI) dobijen u studiji sa uzorkom daje mjeru tačnosti (ili nesigurnosti) rezultata studije kako bi se izveli zaključci o populaciji svih takvih pacijenata (opća populacija). Ispravna definicija 95% CI može se formulirati na sljedeći način: 95% takvih intervala će sadržavati pravu vrijednost u populaciji. Ovo tumačenje je nešto manje precizno: CI je raspon vrijednosti unutar kojeg možete biti 95% sigurni da sadrži pravu vrijednost. Kada se koristi CI, naglasak je na određivanju kvantitativnog efekta, za razliku od P vrijednosti koja je rezultat testiranja statističke značajnosti. P vrijednost ne procjenjuje nikakvu količinu, već služi kao mjera jačine dokaza protiv nulte hipoteze „bez efekta“. Vrijednost P sama po sebi ne govori nam ništa o veličini razlike, pa čak ni o njenom smjeru. Stoga su nezavisne P vrijednosti apsolutno neinformativne u člancima ili sažecima. Nasuprot tome, CI ukazuje i na veličinu efekta od neposrednog interesa, kao što je korist od tretmana, i na snagu dokaza. Stoga je DI direktno povezan sa praksom EBM.

Pristup procjeni statističke analize, na primjeru CI, ima za cilj da izmjeri količinu efekta od interesa (osjetljivost dijagnostičkog testa, stopa predviđenih slučajeva, relativno smanjenje rizika liječenjem, itd.), kao i mjerenje nesigurnosti u tome efekat. Najčešće, CI je raspon vrijednosti na obje strane procjene u kojem će vjerovatno biti prava vrijednost, a u to možete biti sigurni 95%. Dogovor da se koristi vjerovatnoća od 95% je proizvoljan, kao i vrijednost P.<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI se zasniva na ideji da ista studija sprovedena na različitim uzorcima pacijenata ne bi dala identične rezultate, već da bi njihovi rezultati bili raspoređeni oko prave, ali nepoznate vrednosti. Drugim riječima, CI to opisuje kao "varijabilnost zavisnu od uzorka". CI ne odražava dodatnu nesigurnost zbog drugih razloga; posebno, ne uključuje uticaj selektivnog gubitka na praćenje, lošu usklađenost ili netačno mjerenje ishoda, nedostatak zasljepljivanja itd. Stoga CI uvijek potcjenjuje ukupni iznos neizvjesnosti.

Izračun intervala pouzdanosti

Tabela A1.1. Standardne greške i intervali pouzdanosti za odabrana klinička mjerenja

Tipično, CI se izračunava iz uočene procjene količine, kao što je razlika (d) između dvije proporcije i standardne greške (SE) u procjeni te razlike. Približnih 95% CI dobijenog na ovaj način je d ± 1,96 SE. Formula se mijenja u skladu s prirodom mjere ishoda i opsegom CI. Na primjer, u randomiziranom, placebom kontroliranom ispitivanju acelularne vakcine protiv hripavca, 72 od 1670 (4,3%) novorođenčadi koja su primila vakcinu razvilo je pertusis, a 240 od ​​1665 (14,4%) u kontrolnoj grupi. Procentualna razlika, poznata kao apsolutno smanjenje rizika, iznosi 10,1%. SE ove razlike je 0,99%. Prema tome, CI od 95% iznosi 10,1% + 1,96 x 0,99%, tj. od 8.2 do 12.0.

Uprkos njihovim različitim filozofskim pristupima, CI i testovi statističke značajnosti su usko povezani matematički.

Dakle, vrijednost P je “značajna”, tj. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Nesigurnost (netačnost) procjene, izražena u CI, u velikoj je mjeri povezana s kvadratnim korijenom veličine uzorka. Mali uzorci daju manje informacija od velikih, a CI je shodno tome širi u manjem uzorku. Na primjer, članak u kojem se upoređuju performanse tri testa korištena za dijagnosticiranje infekcije Helicobacter pylori izvijestio je o osjetljivosti testa daha na ureu od 95,8% (95% CI 75-100). Dok je brojka od 95,8% impresivna, mali uzorak od 24 odrasla pacijenta sa J. pylori znači da postoji značajna nesigurnost u ovoj procjeni, kao što pokazuje široki CI. Zaista, donja granica od 75% je mnogo niža od procjene od 95,8%. Ako bi se ista osjetljivost uočila na uzorku od 240 ljudi, CI od 95% bio bi 92,5–98,0, što daje veću sigurnost da je test visoko osjetljiv.

U randomiziranim kontroliranim studijama (RCT), neznatni rezultati (tj. oni s P >0,05) su posebno podložni pogrešnoj interpretaciji. CI je ovdje posebno koristan jer pokazuje koliko su rezultati konzistentni s klinički korisnim stvarnim efektom. Na primjer, u RCT-u koji je upoređivao šav debelog crijeva i klamnu anastomozu, infekcija rane se razvila kod 10,9% odnosno 13,5% pacijenata (P = 0,30). CI od 95% za ovu razliku je 2,6% (-2 do +8). Čak iu ovoj studiji od 652 pacijenta ostaje moguće da postoji skromna razlika u učestalosti infekcija koje su rezultat ove dvije procedure. Što je manje istraživanja, veća je nesigurnost. Sung et al. izvršio RCT kako bi uporedio infuziju oktreotida sa akutnom skleroterapijom za akutno krvarenje iz varikoziteta kod 100 pacijenata. U grupi koja je primala oktreotid, stopa kontrole krvarenja bila je 84%; u grupi skleroterapije - 90%, što daje P = 0,56. Imajte na umu da su stope kontinuiranog krvarenja slične onima za infekciju rane u spomenutoj studiji. U ovom slučaju, međutim, CI od 95% za razliku između intervencija je 6% (-7 do +19). Ovaj raspon je prilično širok u poređenju sa razlikom od 5% koja bi bila od kliničkog interesa. Jasno je da studija ne isključuje značajnu razliku u efikasnosti. Stoga je zaključak autora „infuzija oktreotida i skleroterapija podjednako učinkoviti u liječenju krvarenja iz proširenih vena“ definitivno nevažeći. U slučajevima poput ovog, gdje, kao ovdje, CI od 95% za apsolutno smanjenje rizika (ARR) uključuje nulu, CI za NNT (broj potreban za liječenje) je prilično teško protumačiti. NPL i njegov CI se dobijaju iz recipročnih vrednosti ACP-a (množenjem sa 100 ako su ove vrednosti date u procentima). Ovdje dobijamo NPL = 100: 6 = 16,6 sa 95% CI od -14,3 do 5,3. Kao što se može vidjeti iz fusnote “d” u tabeli. A1.1, ovaj CI uključuje vrijednosti NPL-a od 5,3 do beskonačnosti i NPL-a od 14,3 do beskonačnosti.

CI se mogu konstruisati za najčešće korištene statističke procjene ili poređenja. Za RCT, uključuje razliku između srednjih proporcija, relativnih rizika, omjera šansi i NLR-a. Slično, CI se mogu dobiti za sve glavne procjene napravljene u studijama tačnosti dijagnostičkih testova – osjetljivost, specifičnost, pozitivna prediktivna vrijednost (sve su jednostavne proporcije) i omjeri vjerovatnoće – procjene dobivene u meta-analizama i usporedbi s kontrolom studije. Program za personalni računar koji pokriva mnoge od ovih upotreba MDI-a dostupan je uz drugo izdanje Statistics with Confidence. Makroi za izračunavanje CI za proporcije dostupni su besplatno za Excel i statističke programe SPSS i Minitab na http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Višestruke procjene učinka liječenja

Iako su CI poželjni za ishode primarne studije, oni nisu neophodni za sve ishode. CI se odnosi na klinički važna poređenja. Na primjer, kada se porede dvije grupe, ispravan CI je onaj koji je konstruiran za razliku između grupa, kao što je prikazano u gornjim primjerima, a ne CI koji se može konstruirati za procjenu u svakoj grupi. Ne samo da nije od pomoći dati odvojene CI za procjene u svakoj grupi, ova prezentacija može biti pogrešna. Slično tome, ispravan pristup kada se poredi efikasnost tretmana u različitim podgrupama je direktno upoređivanje dve (ili više) podgrupa. Netačno je pretpostaviti da je tretman efikasan samo u jednoj podgrupi ako njegov CI isključuje vrijednost koja odgovara bez efekta, a ostale ne. CI su također korisni kada se porede rezultati u više podgrupa. Na sl. A 1.1 pokazuje relativni rizik od eklampsije kod žena sa preeklampsijom u podgrupama žena iz placebo kontrolisanog RCT magnezijum sulfata.

Rice. A1.2. Šuma prikazuje rezultate 11 randomiziranih kliničkih ispitivanja vakcine protiv goveđeg rotavirusa za prevenciju dijareje u usporedbi s placebom. Za procjenu relativnog rizika od dijareje korišten je interval pouzdanosti od 95%. Veličina crnog kvadrata je proporcionalna količini informacija. Pored toga, prikazana je zbirna procjena efikasnosti tretmana i interval pouzdanosti od 95% (označen dijamantom). Meta-analiza je koristila model slučajnih efekata veći od nekih prethodno specificiranih; na primjer, ovo može biti veličina koja se koristi za izračunavanje veličine uzorka. Stroži kriterij zahtijeva da cijeli raspon CI pokaže korist veću od unaprijed određenog minimuma.

Već smo raspravljali o zabludi uzimanja nedostatka statističke značajnosti kao indikacije da su dva tretmana podjednako efikasna. Jednako je važno ne izjednačavati statističku značajnost sa kliničkom važnosti. Klinički značaj se može pretpostaviti kada je rezultat statistički značajan i veličina procjene efikasnosti liječenja

Studije mogu pokazati da li su rezultati statistički značajni i koji su klinički važni, a koji nisu. Na sl. A1.2 prikazuje rezultate četiri testa, za koje je cijeli CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”