Kvadratna funkcija metode najmanjih kvadrata. Primjeri rješavanja problema metode najmanjih kvadrata

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Metoda najmanjih kvadrata(LSM) omogućava procjenu različitih veličina koristeći rezultate mnogih mjerenja koja sadrže slučajne greške.

Karakteristike MNE

Osnovna ideja ove metode je da se zbir grešaka na kvadrat smatra kriterijem za tačnost rješavanja problema, koji nastoje minimizirati. Pri korištenju ove metode mogu se koristiti i numerički i analitički pristupi.

Konkretno, kao numerička implementacija, metoda najmanjih kvadrata podrazumijeva izvođenje što je više moguće više mjerenja nepoznatog slučajna varijabla. Štaviše, što je više proračuna, to će rješenje biti preciznije. Na osnovu ovog skupa proračuna (početnih podataka) dobija se još jedan skup procenjenih rešenja iz kojih se zatim bira najbolje. Ako je skup rješenja parametriran, tada će se metoda najmanjih kvadrata svesti na pronalaženje optimalna vrijednost parametri.

Kao analitički pristup implementaciji LSM-a na skup početnih podataka (mjerenja) i očekivani skup rješenja, određuje se određeno (funkcionalno) koje se može izraziti formulom dobijenom kao određena hipoteza koja zahtijeva potvrdu. U ovom slučaju, metoda najmanjih kvadrata se svodi na pronalaženje minimuma ovog funkcionala na skupu kvadrata grešaka originalnih podataka.

Imajte na umu da to nisu same greške, već kvadrati grešaka. Zašto? Činjenica je da su česta odstupanja mjerenja od tačna vrijednost su i pozitivne i negativne. Prilikom određivanja prosjeka, jednostavno zbrajanje može dovesti do pogrešnog zaključka o kvaliteti procjene, jer će poništavanje pozitivnih i negativnih vrijednosti smanjiti snagu uzorkovanja višestrukih mjerenja. I, shodno tome, tačnost procjene.

Da se to ne bi dogodilo, kvadratna odstupanja se zbrajaju. Štaviše, da bi se izjednačila dimenzija izmjerene vrijednosti i konačne procjene, izdvaja se zbir grešaka na kvadrat

Neke MNC aplikacije

MNC se široko koristi u raznim oblastima. Na primjer, u teoriji vjerojatnosti i matematičke statistike metoda se koristi za određivanje takvih karakteristika slučajne varijable kao što je srednja vrijednost standardna devijacija, koji određuje širinu raspona vrijednosti slučajnih varijabli.

  • Tutorial

Uvod

Ja sam matematičar i programer. Najveći skok koji sam napravio u karijeri je kada sam naučio da kažem: "Ne razumijem ništa!" Sada se ne stidim da kažem svetioniku nauke da mi drži predavanje, da ne razumem šta mi on, svetilo, govori. I to je veoma teško. Da, priznati svoje neznanje je teško i sramotno. Ko voli da prizna da ne zna osnove nečega? Zbog moje profesije, moram prisustvovati velike količine prezentacije i predavanja, gdje, priznajem, u velikoj većini slučajeva želim spavati jer ništa ne razumijem. Ali ne razumem jer veliki problem Trenutna situacija u nauci leži u matematici. Pretpostavlja se da su svi slušaoci upoznati sa apsolutno svim oblastima matematike (što je apsurdno). Priznati da ne znate šta je derivat (o čemu ćemo govoriti malo kasnije) je sramotno.

Ali naučio sam da kažem da ne znam šta je množenje. Da, ne znam šta je podalgebra nad Lijevom algebrom. Da, ne znam zašto su potrebni u životu kvadratne jednačine. Inače, ako ste sigurni da znate, onda imamo o čemu da razgovaramo! Matematika je niz trikova. Matematičari pokušavaju da zbune i zastraše javnost; gdje nema zabune, nema ugleda, nema autoriteta. Da, prestižno je govoriti što apstraktnijim jezikom, što je potpuna glupost.

Znate li šta je derivat? Najvjerovatnije ćete mi reći o granici omjera razlike. Viktor Petrovič Havin mi je rekao na prvoj godini matematike i mehanike na Državnom univerzitetu u Sankt Peterburgu odlučan izvod kao koeficijent prvog člana Taylorovog reda funkcije u tački (ovo je bila posebna gimnastika za određivanje Taylorovog reda bez izvoda). Dugo sam se smijao ovoj definiciji dok konačno nisam shvatio o čemu se radi. Izvod nije ništa drugo nego jednostavna mjera koliko je funkcija koju razlikujemo slična funkciji y=x, y=x^2, y=x^3.

Sada imam čast da držim predavanja studentima koji uplašen matematike. Ako se bojite matematike, mi smo na istom putu. Čim pokušate da pročitate neki tekst i učini vam se da je previše komplikovan, znajte da je loše napisan. Tvrdim da ne postoji nijedna oblast matematike o kojoj se ne može raspravljati "na prste" a da se ne izgubi tačnost.

Zadatak za blisku budućnost: Zadao sam svojim učenicima da shvate šta je linearni kvadratni regulator. Ne stidite se, potrošite tri minuta svog života i pratite link. Ako ništa ne razumete, onda smo na istom putu. Ni ja (profesionalni matematičar-programer) nisam ništa razumio. I uvjeravam vas, ovo možete shvatiti „na prstima“. On ovog trenutka Ne znam šta je to, ali uvjeravam vas da možemo to shvatiti.

Dakle, prvo predavanje koje ću održati svojim studentima nakon što mi dotrče užasnuto i kažu da je linearno-kvadratni regulator strašna stvar koju nikada nećete savladati u životu je metode najmanjih kvadrata. Možete li odlučiti linearne jednačine? Ako čitate ovaj tekst, onda najvjerovatnije ne.

Dakle, date dvije tačke (x0, y0), (x1, y1), na primjer, (1,1) i (3,2), zadatak je pronaći jednadžbu prave koja prolazi kroz ove dvije tačke:

ilustracija

Ova linija bi trebala imati jednačinu poput sljedeće:

Ovdje su nam alfa i beta nepoznate, ali su poznate dvije tačke ove linije:

Ovu jednačinu možemo napisati u matričnom obliku:

Šta bi tu trebalo da se uradi lirska digresija: Šta je matrica? Matrica nije ništa drugo do dvodimenzionalni niz. Ovo je način pohranjivanja podataka; ne treba mu pridavati daljnja značenja. Od nas zavisi kako tačno interpretirati određenu matricu. Periodično ću ga tumačiti kao linearno preslikavanje, periodično kao kvadratni oblik, a ponekad jednostavno kao skup vektora. Ovo će sve biti razjašnjeno u kontekstu.

Zamijenimo konkretne matrice njihovim simboličkim prikazom:

Tada se (alfa, beta) može lako pronaći:

Konkretnije za naše prethodne podatke:

Što dovodi do sljedeće jednačine prave koja prolazi kroz tačke (1,1) i (3,2):

Dobro, ovde je sve jasno. Nađimo jednačinu prave koja prolazi tri tačke: (x0,y0), (x1,y1) i (x2,y2):

Oh-oh-oh, ali imamo tri jednadžbe za dvije nepoznanice! Standardni matematičar će reći da nema rješenja. Šta će reći programer? I prvo će prepisati prethodni sistem jednačina u sljedećem obliku:

U našem slučaju vektori i,j,b trodimenzionalno, dakle (in opšti slučaj) ne postoji rješenje za ovaj sistem. Bilo koji vektor (alpha\*i + beta\*j) leži u ravni koju pokrivaju vektori (i, j). Ako b ne pripada ovoj ravni, onda nema rješenja (jednakost se ne može postići u jednadžbi). sta da radim? Hajde da tražimo kompromis. Označimo sa e (alfa, beta) koliko tačno nismo postigli ravnopravnost:

I mi ćemo pokušati minimizirati ovu grešku:

Zašto kvadrat?

Ne tražimo samo minimum norme, već minimum kvadrata norme. Zašto? Minimalna tačka sama po sebi se poklapa, a kvadrat daje glatku funkciju (kvadratna funkcija argumenata (alfa, beta)), dok jednostavno dužina daje funkciju u obliku konusa, nediferencirajuću u minimalnoj tački. Brr. Kvadrat je pogodniji.

Očigledno, greška je minimizirana kada je vektor e ortogonalno na ravan koju pokrivaju vektori i I j.

Ilustracija

Drugim riječima: tražimo pravu liniju tako da je zbroj kvadrata dužina udaljenosti od svih tačaka do ove prave linije minimalan:

AŽURIRANJE: Ovdje imam problem, udaljenost do prave treba mjeriti vertikalno, a ne ortogonalnom projekcijom. Ovaj komentator je u pravu.

Ilustracija

Potpuno drugačijim riječima (pažljivo, loše formalizirano, ali treba biti jasno): uzimamo sve moguće linije između svih parova tačaka i tražimo prosječnu liniju između svih:

Ilustracija

Drugo objašnjenje je jednostavno: spajamo oprugu između svih tačaka podataka (ovdje imamo tri) i prave linije koju tražimo, a ravna linija ravnotežnog stanja je upravo ono što tražimo.

Minimalni kvadratni oblik

Dakle, s obzirom na ovaj vektor b i ravan koja se proteže vektorima stupaca matrice A(u ovom slučaju (x0,x1,x2) i (1,1,1)), tražimo vektor e sa minimalnim kvadratom dužine. Očigledno, minimum je dostižan samo za vektor e, ortogonalno na ravan koju pokrivaju vektori stupaca matrice A:

Drugim riječima, tražimo vektor x=(alfa, beta) takav da:

Da vas podsjetim da je ovaj vektor x=(alfa, beta) minimum kvadratna funkcija||e(alfa, beta)||^2:

Ovdje bi bilo korisno zapamtiti da se matrica može tumačiti i kao kvadratni oblik, na primjer, matrica identiteta ((1,0),(0,1)) se može interpretirati kao funkcija x^2 + y^ 2:

kvadratni oblik

Sva ova gimnastika poznata je pod nazivom linearna regresija.

Laplaceova jednadžba sa Dirichletovim graničnim uvjetom

Sada najjednostavnije pravi izazov: postoji određena trokutasta površina, potrebno ju je zagladiti. Na primjer, učitajmo model mog lica:

Originalno urezivanje je dostupno. Da smanjim vanjske zavisnosti, uzeo sam kod svog softverskog renderera, već na Habré-u. Za rješenja linearni sistem Ja koristim OpenNL, odličan je rešavač, koji je, međutim, veoma težak za instaliranje: potrebno je da kopirate dva fajla (.h+.c) u fasciklu sa vašim projektom. Svo izglađivanje se radi sa sljedećim kodom:

Za (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = lica[i]; za (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

X, Y i Z koordinate su razdvojive, ja ih izglađujem zasebno. Odnosno, rješavam tri sistema linearnih jednačina, od kojih svaki ima broj varijabli jednak broju vrhova u mom modelu. Prvih n redova matrice A ima samo jednu 1 po redu, a prvih n redova vektora b imaju originalne koordinate modela. Odnosno, vezujem oprugu između nove pozicije temena i stare pozicije temena - novi se ne bi trebali previše udaljavati od starih.

Svi naredni redovi matrice A (faces.size()*3 = broj ivica svih trouglova u mreži) imaju jedno pojavljivanje 1 i jedno pojavljivanje -1, pri čemu vektor b ima nula komponenti nasuprot. To znači da stavljam oprugu na svaku ivicu naše trouglaste mreže: sve ivice pokušavaju da dobiju isti vrh kao njihova početna i završna tačka.

Još jednom: svi vrhovi su varijable, i ne mogu se udaljiti od svog prvobitnog položaja, ali u isto vrijeme pokušavaju da postanu slični jedni drugima.

Evo rezultata:

Sve bi bilo u redu, model je zaista izglađen, ali se udaljio od prvobitne ivice. Promenimo malo kod:

Za (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

U našoj matrici A, za vrhove koji se nalaze na ivici, ne dodajem red iz kategorije v_i = verts[i][d], već 1000*v_i = 1000*verts[i][d]. Šta to mijenja? I ovo mijenja naš kvadratni oblik greške. Sada će jedno odstupanje od vrha na rubu koštati ne jednu jedinicu, kao prije, već 1000*1000 jedinica. Odnosno, okačili smo jaču oprugu na ekstremne vrhove, rješenje će radije istegnuti ostale jače. Evo rezultata:

Udvostručimo snagu opruge između vrhova:
nlKoeficijent(lice[j], 2); nlKoeficijent(lice[(j+1)%3], -2);

Logično je da je površina postala glatkija:

A sada čak sto puta jače:

Šta je ovo? Zamislite da smo umočili žičani prsten u vodu sa sapunom. Kao rezultat toga, rezultirajući film sapuna pokušat će imati najmanju moguću zakrivljenost, dodirujući granicu - naš žičani prsten. Upravo to smo dobili tako što smo popravili ivicu i tražili glatku površinu unutra. Čestitamo, upravo smo riješili Laplaceovu jednačinu sa Dirichletovim graničnim uslovima. Zvuči cool? Ali u stvarnosti, trebate samo riješiti jedan sistem linearnih jednačina.

Poissonova jednadžba

Prisjetimo se još jednog cool imena.

Recimo da imam ovakvu sliku:

Svima izgleda dobro, ali mi se stolica ne sviđa.

Preseći ću sliku na pola:



I ja ću svojim rukama odabrati stolicu:

Zatim ću sve što je bijelo na maski povući na lijevu stranu slike, a istovremeno ću kroz cijelu sliku reći da razlika između dva susjedna piksela treba biti jednaka razlici između dva susjedna piksela desnog slika:

Za (int i=0; i

Evo rezultata:

Dostupni kod i slike

Široko se koristi u ekonometriji u obliku jasne ekonomske interpretacije njenih parametara.

Linearna regresija se svodi na pronalaženje jednačine oblika

ili

Jednačina oblika dozvoljava na osnovu specificiranih vrijednosti parametara X imaju teorijske vrijednosti rezultantne karakteristike, zamjenjujući stvarne vrijednosti faktora u nju X.

Izgradnja linearna regresija svodi se na procjenu njegovih parametara - A I V. Procjene parametara linearne regresije mogu se pronaći korištenjem različitih metoda.

Klasičan pristup procjeni parametara linearne regresije temelji se na metoda najmanjih kvadrata(MNC).

Metoda najmanjih kvadrata nam omogućava da dobijemo takve procjene parametara A I V, pri čemu je zbir kvadrata odstupanja stvarnih vrijednosti rezultantne karakteristike (y) od izračunatog (teorijskog) minimum:

Da biste pronašli minimum funkcije, morate izračunati parcijalne izvode za svaki od parametara A I b i postavite ih jednakima nuli.

Označimo kroz S, onda:

Transformacijom formule dobijamo sledeći sistem normalnih jednačina za procenu parametara A I V:

Rješavajući sistem normalnih jednačina (3.5) bilo metodom sekvencijalne eliminacije varijabli ili metodom determinanti, nalazimo tražene procjene parametara A I V.

Parametar V naziva se koeficijent regresije. Njegova vrijednost pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu.

Jednačina regresije je uvijek dopunjena indikatorom bliskosti veze. Kada se koristi linearna regresija, takav pokazatelj je koeficijent linearne korelacije. Postoje različite modifikacije formule koeficijenta linearne korelacije. Neki od njih su dati u nastavku:

Kao što je poznato, koeficijent linearne korelacije je u granicama: -1 1.

Za procjenu kvaliteta odabira linearne funkcije izračunava se kvadrat

Koeficijent linearne korelacije tzv koeficijent odlučnosti. Koeficijent determinacije karakterizira udio varijanse rezultirajuće karakteristike y, objašnjeno regresijom, u ukupnoj varijansi rezultirajuće osobine:

Shodno tome, vrijednost 1 karakterizira udio varijanse y, uzrokovane uticajem drugih faktora koji nisu uzeti u obzir u modelu.

Pitanja za samokontrolu

1. Suština metode najmanjih kvadrata?

2. Koliko varijabli pruža parna regresija?

3. Koji koeficijent određuje bliskost veze između promjena?

4. U kojim granicama se utvrđuje koeficijent determinacije?

5. Procjena parametra b u korelaciono-regresionoj analizi?

1. Christopher Dougherty. Uvod u ekonometriju. - M.: INFRA - M, 2001 - 402 str.

2. S.A. Borodich. Ekonometrija. Minsk DOO “Novo znanje” 2001.


3. R.U. Rakhmetova Kratki kurs iz ekonometrije. Tutorial. Almaty. 2004. -78p.

4. I.I. Eliseeva Econometrics. - M.: “Finansije i statistika”, 2002

5. Mjesečni informativno-analitički časopis.

Nelinearni ekonomski modeli. Modeli nelinearne regresije. Transformacija varijabli.

Nelinearni ekonomski modeli..

Transformacija varijabli.

Koeficijent elastičnosti.

Ako postoje nelinearni odnosi između ekonomskih fenomena, onda se oni izražavaju pomoću odgovarajućih nelinearnih funkcija: na primjer, jednakostranična hiperbola , parabole drugog stepena i sl.

Postoje dvije klase nelinearnih regresija:

1. Regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, na primjer:

Polinomi različitih stepeni - , ;

Jednakostranična hiperbola - ;

Semilogaritamska funkcija - .

2. Regresije koje su nelinearne u parametrima koji se procjenjuju, na primjer:

Snaga - ;

Demonstrativna - ;

Eksponencijalno - .

Ukupan zbroj kvadrata odstupanja pojedinačnih vrijednosti rezultirajuće karakteristike at od prosječne vrijednosti uzrokovano je uticajem mnogih razloga. Uvjetno podijelimo cijeli niz razloga u dvije grupe: faktor koji se proučava x I drugi faktori.

Ako faktor ne utječe na rezultat, tada je linija regresije na grafu paralelna s osom Oh I

Tada je cijela varijansa rezultirajuće karakteristike posljedica utjecaja drugih faktora i ukupni zbir kvadrata odstupanja će se poklopiti sa ostatkom. Ako drugi faktori ne utiču na rezultat, onda y tied With X funkcionalno i rezidualni zbir kvadrata je nula. U ovom slučaju, zbir kvadrata odstupanja objašnjenih regresijom je isti kao i ukupni zbir kvadrata.

Budući da ne leže sve tačke korelacionog polja na regresijskoj liniji, njihovo rasipanje se uvek javlja kao rezultat uticaja faktora X, odnosno regresija at By X, i uzrokovane drugim uzrocima (neobjašnjive varijacije). Pogodnost linije regresije za predviđanje zavisi od toga koji deo ukupne varijacije osobine at objašnjava objašnjenu varijaciju

Očigledno, ako je zbir kvadrata odstupanja zbog regresije veći od preostalog zbira kvadrata, tada je jednadžba regresije statistički značajna i faktor X ima značajan uticaj na rezultat u.

, tj. sa brojem slobode nezavisne varijacije karakteristike. Broj stepeni slobode povezan je sa brojem jedinica populacije n i brojem konstanti koje se iz njega određuju. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od P

Procjena značaja regresione jednačine u cjelini data je korištenjem F-Fišerov kriterijum. U ovom slučaju se postavlja nulta hipoteza da je koeficijent regresije jednak nuli, tj. b = 0, a samim tim i faktor X ne utiče na rezultat u.

Neposrednom izračunavanju F-testa prethodi analiza varijanse. Centralno mjesto u njemu zauzima dekompozicija ukupnog zbira kvadrata odstupanja varijable at od prosječne vrijednosti at na dva dijela - "objašnjeno" i "neobjašnjeno":

- ukupan zbir kvadrata odstupanja;

- zbir kvadrata odstupanja objašnjenih regresijom;

- rezidualni zbir kvadrata odstupanja.

Svaki zbir odstupanja na kvadrat povezan je sa brojem stepeni slobode , tj. sa brojem slobode nezavisne varijacije karakteristike. Broj stepena slobode povezan je sa brojem populacijskih jedinica n i sa brojem konstanti određenim iz njega. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od P moguće potrebno za formiranje date sume kvadrata.

Disperzija po stepenu slobodeD.

F-odnosi (F-test):

Ako je nulta hipoteza tačna, tada se faktor i preostale varijanse ne razlikuju jedna od druge. Za H 0 potrebno je opovrgavanje kako bi disperzija faktora nekoliko puta premašila disperziju ostatka. Engleski statističar Snedekor razvio je tabele kritičnih vrednosti F-relacije na različitim nivoima značaja nulte hipoteze i različitog broja stepeni slobode. Vrijednost tabele F-kriterijum je maksimalna vrijednost omjera varijansi koja se može pojaviti u slučaju slučajne divergencije za dati nivo vjerovatnoće prisustva nulte hipoteze. Izračunata vrijednost F-relacije se smatraju pouzdanim ako je o veće od tabele.

U ovom slučaju se odbacuje nulta hipoteza o nepostojanju veze između znakova i izvodi se zaključak o značaju ovog odnosa: F činjenica > F tabela H 0 je odbijen.

Ako je vrijednost manja od prikazane u tabeli F činjenica ‹, F tabela, tada je vjerovatnoća nulte hipoteze veća od određenog nivoa i ne može se odbaciti bez ozbiljnog rizika od izvođenja pogrešnog zaključka o postojanju veze. U ovom slučaju, jednačina regresije se smatra statistički beznačajnom. Ali on ne odstupa.

Standardna greška koeficijenta regresije

Da bi se procijenila značajnost koeficijenta regresije, njegova vrijednost se upoređuje sa njegovom standardnom greškom, odnosno utvrđuje se stvarna vrijednost t-Učenički test: koji se zatim poredi sa tabelarnom vrednošću na određenom nivou značajnosti i broju stepeni slobode ( n- 2).

Standardna greška parametra A:

Značajnost koeficijenta linearne korelacije se provjerava na osnovu veličine greške koeficijent korelacije t r:

Ukupna varijansa osobina X:

Višestruka linearna regresija

Izgradnja modela

Višestruka regresija predstavlja regresiju efektivne karakteristike sa dva ili više faktora, odnosno model forme

Regresija može dati dobre rezultate u modeliranju ako se zanemari uticaj drugih faktora koji utiču na predmet proučavanja. Ponašanje pojedinih ekonomskih varijabli ne može se kontrolisati, odnosno nije moguće osigurati jednakost svih ostalih uslova za procjenu uticaja jednog faktora koji se proučava. U ovom slučaju, trebali biste pokušati identificirati utjecaj drugih faktora tako što ćete ih uvesti u model, tj. konstruirati jednadžbu višestruke regresije: y = a+b 1 x 1 +b 2 +…+b p x p + .

Osnovni cilj višestruke regresije je da se izgradi model sa velikim brojem faktora, pri čemu se utvrđuje uticaj svakog od njih posebno, kao i njihov kombinovani uticaj na modelirani indikator. Specifikacija modela uključuje dva niza pitanja: izbor faktora i izbor vrste regresijske jednačine

Ima mnogo aplikacija, jer omogućava približan prikaz date funkcije drugim jednostavnijim. LSM može biti izuzetno koristan u obradi zapažanja, a aktivno se koristi za procjenu nekih veličina na osnovu rezultata mjerenja drugih koji sadrže slučajne greške. U ovom članku ćete naučiti kako implementirati izračune najmanjih kvadrata u Excelu.

Iskazivanje problema na konkretnom primjeru

Pretpostavimo da postoje dva indikatora X i Y. Štaviše, Y zavisi od X. Budući da nas OLS zanima sa stanovišta regresione analize (u Excelu se njegove metode implementiraju pomoću ugrađenih funkcija), treba odmah preći na razmatranje konkretan problem.

Dakle, neka je X maloprodajni prostor prodavnice prehrambenih proizvoda, mjeren kvadratnim metrima, a Y godišnji promet, mjeren milionima rubalja.

Potrebno je napraviti prognozu koliki će promet (Y) trgovina imati ako ima ovaj ili onaj maloprodajni prostor. Očigledno, funkcija Y = f (X) raste, jer hipermarket prodaje više robe od tezge.

Nekoliko riječi o ispravnosti početnih podataka korištenih za predviđanje

Recimo da imamo tabelu napravljenu koristeći podatke za n prodavnica.

Prema matematičkoj statistici, rezultati će biti manje-više tačni ako se ispitaju podaci o najmanje 5-6 objekata. Osim toga, "anomalni" rezultati se ne mogu koristiti. Konkretno, elitni mali butik može imati promet koji je nekoliko puta veći od prometa velikih maloprodajnih objekata klase „masmarket“.

Suština metode

Podaci tabele mogu se prikazati na kartezijanskoj ravni u obliku tačaka M 1 (x 1, y 1), ... M n (x n, y n). Sada će se rješenje problema svesti na izbor aproksimirajuće funkcije y = f (x), koja ima graf koji prolazi što bliže tačkama M 1, M 2, .. M n.

Naravno, možete koristiti polinom visokog stupnja, ali ova opcija nije samo teška za implementaciju, već je i jednostavno netočna, jer neće odražavati glavni trend koji treba otkriti. Najrazumnije rješenje je traženje prave linije y = ax + b, koja najbolje aproksimira eksperimentalne podatke, tačnije, koeficijente a i b.

Procjena tačnosti

Uz bilo kakvu aproksimaciju, procjena njegove tačnosti je od posebne važnosti. Označimo sa e i razliku (odstupanje) između funkcionalne i eksperimentalne vrijednosti za tačku x i, tj. e i = y i - f (x i).

Očigledno, da biste procijenili tačnost aproksimacije, možete koristiti zbir odstupanja, odnosno, kada birate pravu liniju za približni prikaz zavisnosti X od Y, treba dati prednost onoj s najmanjom vrijednošću zbir e i u svim tačkama koje se razmatraju. Međutim, nije sve tako jednostavno, jer će uz pozitivne devijacije biti i negativnih.

Problem se može riješiti korištenjem modula odstupanja ili njihovih kvadrata. Posljednja metoda je najčešće korištena. Koristi se u mnogim oblastima, uključujući regresijsku analizu (implementirana u Excelu pomoću dvije ugrađene funkcije), i odavno je dokazala svoju učinkovitost.

Metoda najmanjeg kvadrata

Excel, kao što znate, ima ugrađenu funkciju AutoSum koja vam omogućava da izračunate vrijednosti svih vrijednosti koje se nalaze u odabranom rasponu. Dakle, ništa nas neće spriječiti da izračunamo vrijednost izraza (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

U matematičkoj notaciji ovo izgleda ovako:

Pošto je prvobitno donesena odluka da se aproksimira pomoću prave linije, imamo:

Dakle, zadatak pronalaženja prave linije koja najbolje opisuje specifičnu zavisnost veličina X i Y svodi se na izračunavanje minimuma funkcije dvije varijable:

Da biste to učinili, morate parcijalne derivacije u odnosu na nove varijable a i b izjednačiti sa nulom, i riješiti primitivni sistem koji se sastoji od dvije jednadžbe sa 2 nepoznate forme:

Nakon nekoliko jednostavnih transformacija, uključujući dijeljenje sa 2 i manipulaciju suma, dobijamo:

Rješavajući ga, na primjer, Cramerovom metodom, dobijamo stacionarnu tačku sa određenim koeficijentima a * i b *. Ovo je minimum, tj. da se predvidi koliki će promet trgovina imati za određeno područje, prikladna je ravna linija y = a * x + b *, koja je regresijski model za predmetni primjer. Naravno, to vam neće omogućiti da pronađete točan rezultat, ali će vam pomoći da steknete ideju o tome hoće li se kupovina određenog područja na kredit u trgovini isplatiti.

Kako implementirati najmanje kvadrate u Excelu

Excel ima funkciju za izračunavanje vrijednosti pomoću najmanjih kvadrata. Ima sljedeći oblik: “TREND” (poznate Y vrijednosti; poznate X vrijednosti; nove X vrijednosti; konstanta). Primijenimo formulu za izračunavanje OLS-a u Excelu na našu tablicu.

Da biste to učinili, unesite znak “=” u ćeliju u kojoj bi trebao biti prikazan rezultat izračuna primjenom metode najmanjih kvadrata u Excelu i odaberite funkciju “TREND”. U prozoru koji se otvori popunite odgovarajuća polja, naglašavajući:

  • raspon poznatih vrijednosti za Y (u ovom slučaju podaci za trgovinski promet);
  • raspon x 1 , …x n , odnosno veličina maloprodajnog prostora;
  • i poznate i nepoznate vrijednosti x, za koje morate saznati veličinu prometa (za informacije o njihovoj lokaciji na radnom listu, pogledajte dolje).

Dodatno, formula sadrži logičku varijablu “Const”. Ako u odgovarajuće polje unesete 1, to će značiti da trebate izvršiti proračune, pod pretpostavkom da je b = 0.

Ako trebate saznati prognozu za više od jedne vrijednosti x, onda nakon unosa formule ne biste trebali pritisnuti "Enter", već morate upisati kombinaciju "Shift" + "Control" + "Enter" na tastaturi.

Neke karakteristike

Regresiona analiza može biti dostupna čak i lutkama. Excel formulu za predviđanje vrijednosti niza nepoznatih varijabli – TREND – mogu koristiti čak i oni koji nikada nisu čuli za najmanje kvadrate. Dovoljno je samo znati neke od karakteristika njegovog rada. posebno:

  • Ako raspoređujete raspon poznatih vrijednosti varijable y u jednom redu ili stupcu, tada će svaki red (kolona) s poznatim vrijednostima x program percipirati kao zasebnu varijablu.
  • Ako raspon s poznatim x nije naveden u prozoru TREND, tada će ga, kada se koristi funkcija u Excelu, program tretirati kao niz koji se sastoji od cijelih brojeva, čiji broj odgovara rasponu sa datim vrijednostima varijabla y.
  • Za izlaz niza "predviđenih" vrijednosti, izraz za izračunavanje trenda se mora unijeti kao formula niza.
  • Ako nove vrijednosti x nisu specificirane, funkcija TREND ih smatra jednakim poznatim. Ako nisu specificirani, tada se niz 1 uzima kao argument; 2; 3; 4;…, što je srazmerno opsegu sa već navedenim parametrima y.
  • Raspon koji sadrži nove vrijednosti x mora imati iste ili više redova ili stupaca kao raspon koji sadrži date vrijednosti y. Drugim riječima, mora biti proporcionalan nezavisnim varijablama.
  • Niz sa poznatim x vrijednostima može sadržavati više varijabli. Međutim, ako govorimo samo o jednom, onda je potrebno da opsezi sa datim vrijednostima x i y budu proporcionalni. U slučaju više varijabli, potrebno je da raspon sa datim y vrijednostima stane u jednu kolonu ili jedan red.

Funkcija PREDICTION

Implementirano korištenjem nekoliko funkcija. Jedna od njih se zove “PREDIKCIJA”. Sličan je "TREND", tj. daje rezultat proračuna metodom najmanjih kvadrata. Međutim, samo za jedan X, za koji je vrijednost Y nepoznata.

Sada znate formule u Excelu za lutke koje vam omogućavaju da predvidite buduću vrijednost određenog indikatora prema linearnom trendu.

Aproksimiramo funkciju polinomom stepena 2. Da bismo to učinili, izračunavamo koeficijente normalnog sistema jednadžbi:

, ,

Kreirajmo normalan sistem najmanjih kvadrata, koji ima oblik:

Rješenje sistema je lako pronaći:, , .

Tako se nalazi polinom 2. stepena: .

Teorijske informacije

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer 2. Pronalaženje optimalnog stepena polinoma.

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer 3. Izvođenje normalnog sistema jednadžbi za nalaženje parametara empirijske zavisnosti.

Hajde da izvedemo sistem jednačina za određivanje koeficijenata i funkcija , koji izvodi aproksimaciju date funkcije po tačkama srednjeg kvadrata. Hajde da sastavimo funkciju i zapišite potreban ekstremni uslov za to:

Tada će normalan sistem poprimiti oblik:

Dobili smo linearni sistem jednadžbi za nepoznate parametre i, koji se lako rješava.

Teorijske informacije

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer.

Eksperimentalni podaci o vrijednostima varijabli X I at date su u tabeli.

Kao rezultat njihovog poravnanja, dobija se funkcija

Koristeći metoda najmanjeg kvadrata, aproksimira ove podatke linearnom zavisnošću y=ax+b(pronaći parametre A I b). Saznajte koja od dvije linije bolje (u smislu metode najmanjih kvadrata) poravnava eksperimentalne podatke. Napravite crtež.

Suština metode najmanjih kvadrata (LSM).

Zadatak je pronaći koeficijente linearne zavisnosti na kojima je funkcija dvije varijable A I buzima najmanju vrijednost. Odnosno, dato A I b zbir kvadrata odstupanja eksperimentalnih podataka od pronađene prave će biti najmanji. Ovo je cijela poenta metode najmanjih kvadrata.

Dakle, rješavanje primjera se svodi na pronalaženje ekstrema funkcije dvije varijable.

Izvođenje formula za pronalaženje koeficijenata.

Sastavlja se i rješava sistem dvije jednačine sa dvije nepoznate. Pronalaženje parcijalnih izvoda funkcije po varijablama A I b, izjednačavamo ove izvode sa nulom.

Rezultirajući sistem jednačina rješavamo bilo kojom metodom (npr metodom supstitucije ili Cramerovu metodu) i dobiju formule za pronalaženje koeficijenata koristeći metodu najmanjih kvadrata (LSM).

Dato A I b funkcija uzima najmanju vrijednost. Dokaz za ovu činjenicu dat je u tekstu na kraju stranice.

To je cijela metoda najmanjih kvadrata. Formula za pronalaženje parametra a sadrži sume , , , i parametar n— količina eksperimentalnih podataka. Preporučujemo da se vrijednosti ovih iznosa izračunaju zasebno.

Koeficijent b pronađeno nakon izračuna a.

Vrijeme je da se prisjetimo originalnog primjera.

Rješenje.

U našem primjeru n=5. Ispunjavamo tablicu radi praktičnosti izračunavanja iznosa koji su uključeni u formule potrebnih koeficijenata.

Vrijednosti u četvrtom redu tabele dobijaju se množenjem vrijednosti 2. retka sa vrijednostima 3. reda za svaki broj i.

Vrijednosti u petom redu tabele dobijaju se kvadriranjem vrijednosti u 2. redu za svaki broj i.

Vrijednosti u posljednjoj koloni tabele su zbroji vrijednosti u redovima.

Za pronalaženje koeficijenata koristimo formule metode najmanjih kvadrata A I b. U njih zamjenjujemo odgovarajuće vrijednosti iz posljednje kolone tabele:

dakle, y = 0,165x+2,184— željena aproksimirajuća prava linija.

Ostaje da saznamo koja od linija y = 0,165x+2,184 ili bolje aproksimira originalne podatke, odnosno pravi procjenu metodom najmanjih kvadrata.

Procjena greške metode najmanjih kvadrata.

Da biste to učinili, morate izračunati zbir kvadrata odstupanja originalnih podataka od ovih linija I , manja vrijednost odgovara liniji koja bolje aproksimira originalne podatke u smislu metode najmanjih kvadrata.

Od , onda ravno y = 0,165x+2,184 bolje aproksimira originalne podatke.

Grafička ilustracija metode najmanjih kvadrata (LS).

Sve je jasno vidljivo na grafikonima. Crvena linija je pronađena ravna linija y = 0,165x+2,184, plava linija je , ružičaste tačke su originalni podaci.

Zašto je to potrebno, čemu sve ove aproksimacije?

Ja ga lično koristim za rješavanje problema ujednačavanja podataka, interpolacije i ekstrapolacije (u originalnom primjeru od njih bi se moglo tražiti da pronađu vrijednost posmatrane vrijednosti y at x=3 ili kada x=6 koristeći metodu najmanjih kvadrata). Ali o tome ćemo više govoriti kasnije u drugom dijelu stranice.

Vrh stranice

Dokaz.

Tako da kada se nađe A I b funkcija uzima najmanju vrijednost, potrebno je da u ovom trenutku matrica kvadratnog oblika diferencijala drugog reda za funkciju bilo pozitivno određeno. Hajde da to pokažemo.

Diferencijal drugog reda ima oblik:

To je

Prema tome, matrica kvadratnog oblika ima oblik

a vrijednosti elemenata ne ovise o A I b.

Pokažimo da je matrica pozitivno određena. Da biste to učinili, ugaoni minori moraju biti pozitivni.

Ugaoni minor prvog reda . Nejednakost je stroga jer se tačke ne poklapaju. U nastavku ćemo to implicirati.

Ugaoni minor drugog reda

Dokažimo to metodom matematičke indukcije.

Zaključak: pronađene vrijednosti A I b odgovaraju najmanjoj vrijednosti funkcije , dakle, su potrebni parametri za metodu najmanjih kvadrata.

Nemate vremena da to shvatite?
Naručite rješenje

Vrh stranice

Razvijanje prognoze metodom najmanjih kvadrata. Primjer rješenja problema

Ekstrapolacija je naučnoistraživačka metoda koja se zasniva na diseminaciji prošlih i sadašnjih trendova, obrazaca i veza sa budućim razvojem objekta prognoze. Metode ekstrapolacije uključuju metoda pokretnog prosjeka, metoda eksponencijalnog izglađivanja, metoda najmanjih kvadrata.

Essence metoda najmanjih kvadrata sastoji se u minimiziranju sume kvadrata odstupanja između posmatranih i izračunatih vrednosti. Izračunate vrijednosti se nalaze pomoću odabrane jednadžbe - jednadžbe regresije. Što je manja udaljenost između stvarnih vrijednosti i izračunatih, to je preciznija prognoza zasnovana na jednadžbi regresije.

Teorijska analiza suštine fenomena koji se proučava, čija se promjena odražava kroz vremensku seriju, služi kao osnova za odabir krive. Ponekad se u obzir uzimaju razmatranja o prirodi povećanja nivoa serije. Dakle, ako se rast proizvodnje očekuje u aritmetičkoj progresiji, onda se izravnavanje vrši pravolinijski. Ako se ispostavi da je rast u geometrijskoj progresiji, onda se izravnavanje mora obaviti pomoću eksponencijalne funkcije.

Radna formula za metodu najmanjih kvadrata : Y t+1 = a*X + b, gdje je t + 1 – period prognoze; Ut+1 – predviđeni indikator; a i b su koeficijenti; X je simbol vremena.

Izračunavanje koeficijenata a i b vrši se pomoću sljedećih formula:

gdje je, Uf – stvarne vrijednosti serije dinamike; n – broj nivoa vremenske serije;

Izglađivanje vremenskih serija metodom najmanjih kvadrata služi da se odrazi obrazac razvoja fenomena koji se proučava. U analitičkom izražavanju trenda, vrijeme se smatra nezavisnom varijablom, a nivoi serije djeluju kao funkcija ove nezavisne varijable.

Razvoj neke pojave ne zavisi od toga koliko je godina prošlo od početne tačke, već od toga koji su faktori uticali na njen razvoj, u kom pravcu i kojim intenzitetom. Odavde je jasno da je razvoj neke pojave tokom vremena rezultat djelovanja ovih faktora.

Ispravno utvrđivanje tipa krive, tipa analitičke zavisnosti od vremena jedan je od najtežih zadataka prediktivne analize. .

Odabir tipa funkcije koja opisuje trend, čiji se parametri određuju metodom najmanjih kvadrata, u većini slučajeva provodi se empirijski, konstruiranjem većeg broja funkcija i međusobnom poređenjem prema vrijednosti srednja kvadratna greška, izračunata po formuli:

gdje su UV stvarne vrijednosti serije dinamike; Ur – izračunate (izglađene) vrijednosti serije dinamike; n – broj nivoa vremenske serije; p – broj parametara definisanih u formulama koje opisuju trend (trend razvoja).

Nedostaci metode najmanjih kvadrata :

  • kada pokušavate da opišete ekonomski fenomen koji se proučava pomoću matematičke jednačine, prognoza će biti tačna za kratak vremenski period i regresionu jednačinu treba ponovo izračunati kako nove informacije postanu dostupne;
  • složenost odabira jednadžbe regresije koja je rješiva ​​korištenjem standardnih kompjuterskih programa.

Primjer korištenja metode najmanjih kvadrata za razvoj prognoze

Zadatak . Postoje podaci koji karakterišu stopu nezaposlenosti u regionu, %

  • Konstruisati prognozu stope nezaposlenosti u regionu za novembar, decembar, januar koristeći sledeće metode: pokretni prosek, eksponencijalno izglađivanje, najmanji kvadrati.
  • Izračunajte greške u rezultirajućim prognozama koristeći svaku metodu.
  • Uporedite rezultate i izvucite zaključke.

Rješenje najmanjih kvadrata

Da bismo to riješili, sastavit ćemo tabelu u kojoj ćemo napraviti potrebne proračune:

ε = 28,63/10 = 2,86% tačnost prognoze visoko.

Zaključak : Poređenje rezultata dobijenih iz proračuna metoda pokretnog prosjeka , metoda eksponencijalnog izglađivanja i metodom najmanjih kvadrata, možemo reći da se prosječna relativna greška pri izračunavanju korištenjem metode eksponencijalnog glađenja nalazi u rasponu od 20-50%. To znači da je tačnost prognoze u ovom slučaju samo zadovoljavajuća.

U prvom i trećem slučaju tačnost prognoze je visoka, jer je prosječna relativna greška manja od 10%. Ali metoda pokretnog proseka omogućila je da se dobiju pouzdaniji rezultati (prognoza za novembar - 1,52%, prognoza za decembar - 1,53%, prognoza za januar - 1,49%), pošto je prosečna relativna greška pri upotrebi ove metode najmanja - 1 ,13%.

Metoda najmanjeg kvadrata

Ostali članci na ovu temu:

Spisak korištenih izvora

  1. Naučno-metodološke preporuke za dijagnosticiranje društvenih rizika i predviđanje izazova, prijetnji i društvenih posljedica. Ruski državni socijalni univerzitet. Moskva. 2010;
  2. Vladimirova L.P. Predviđanje i planiranje u tržišnim uslovima: Udžbenik. dodatak. M.: Izdavačka kuća "Daškov i Ko", 2001;
  3. Novikova N.V., Pozdeeva O.G. Predviđanje nacionalne ekonomije: Obrazovno-metodički priručnik. Ekaterinburg: Uralska izdavačka kuća. stanje econ. Univ., 2007;
  4. Slutskin L.N. MBA kurs o poslovnom predviđanju. M.: Alpina Business Books, 2006.

MNC program

Unesite podatke

Podaci i aproksimacija y = a + b x

i- broj eksperimentalne tačke;
x i- vrijednost fiksnog parametra u tački i;
y i- vrijednost mjerenog parametra u tački i;
ω i- mjerenje težine u tački i;
y i, izrač.- razlika između izmjerene i regresijski izračunate vrijednosti y u tački i;
S x i (x i)- procjena greške x i prilikom merenja y u tački i.

Podaci i aproksimacija y = k x

i x i y i ω i y i, izrač. Δy i S x i (x i)

Kliknite na grafikon

Korisnički priručnik za MNC online program.

U polje podataka unesite u svaki poseban red vrijednosti `x` i `y` u jednoj eksperimentalnoj točki. Vrijednosti moraju biti odvojene razmakom (razmak ili tab).

Treća vrijednost može biti težina tačke `w`. Ako težina tačke nije navedena, ona je jednaka jedan. U velikoj većini slučajeva težine eksperimentalnih tačaka su nepoznate ili nisu izračunate, tj. svi eksperimentalni podaci se smatraju ekvivalentnim. Ponekad težine u proučavanom rasponu vrijednosti apsolutno nisu ekvivalentne i mogu se čak i teoretski izračunati. Na primjer, u spektrofotometriji, težine se mogu izračunati pomoću jednostavnih formula, iako se to uglavnom zanemaruje radi smanjenja troškova rada.

Podaci se mogu zalijepiti putem međuspremnika iz proračunske tablice u uredskom paketu kao što je Excel iz Microsoft Officea ili Calc iz Open Officea. Da biste to učinili, u proračunskoj tabeli odaberite opseg podataka za kopiranje, kopirajte u međuspremnik i zalijepite podatke u polje podataka na ovoj stranici.

Za izračunavanje metodom najmanjih kvadrata potrebne su najmanje dvije točke za određivanje dva koeficijenta `b` - tangenta ugla nagiba prave i `a` - vrijednosti koju presječe linija na osi `y`.

Da biste procijenili grešku izračunatih koeficijenata regresije, potrebno je postaviti broj eksperimentalnih tačaka na više od dvije.

Metoda najmanjih kvadrata (LSM).

Što je veći broj eksperimentalnih tačaka, to je tačnija statistička procjena koeficijenata (zbog smanjenja Studentovog koeficijenta) i to je procjena bliža procjeni opšteg uzorka.

Dobivanje vrijednosti u svakoj eksperimentalnoj točki često je povezano sa značajnim troškovima rada, pa se često provodi kompromisni broj eksperimenata koji daje procjenu kojom se može upravljati i ne dovodi do pretjeranih troškova rada. Po pravilu, broj eksperimentalnih tačaka za linearnu zavisnost najmanjih kvadrata sa dva koeficijenta bira se u području od 5-7 tačaka.

Kratka teorija najmanjih kvadrata za linearne odnose

Recimo da imamo skup eksperimentalnih podataka u obliku parova vrijednosti [`y_i`, `x_i`], gdje je `i` broj jednog eksperimentalnog mjerenja od 1 do `n`; `y_i` - vrijednost izmjerene veličine u tački `i`; `x_i` - vrijednost parametra koji smo postavili u tački `i`.

Kao primjer, razmotrite djelovanje Ohmovog zakona. Promjenom napona (razlike potencijala) između dijelova električnog kola mjerimo količinu struje koja prolazi kroz ovu dionicu. Fizika nam daje eksperimentalno utvrđenu ovisnost:

`I = U/R`,
gdje je `I` trenutna snaga; `R` - otpor; `U` - napon.

U ovom slučaju, `y_i` je trenutna vrijednost koja se mjeri, a `x_i` je vrijednost napona.

Kao drugi primjer, razmotrite apsorpciju svjetlosti otopinom tvari u otopini. Hemija nam daje formulu:

`A = ε l C`,
gdje je `A` optička gustoća otopine; `ε` - propusnost otopljene tvari; `l` - dužina puta kada svjetlost prolazi kroz kivetu s otopinom; `C` je koncentracija otopljene supstance.

U ovom slučaju, `y_i` je izmjerena vrijednost optičke gustoće `A`, a `x_i` je vrijednost koncentracije supstance koju navedemo.

Razmotrićemo slučaj kada je relativna greška u zadaci `x_i` znatno manja od relativne greške u merenju `y_i`. Također ćemo pretpostaviti da su sve mjerene vrijednosti `y_i` slučajne i normalno raspoređene, tj. pridržavati se normalnog zakona distribucije.

U slučaju linearne zavisnosti `y` od `x`, možemo napisati teorijsku zavisnost:
`y = a + b x`.

Sa geometrijske tačke gledišta, koeficijent `b` označava tangentu ugla nagiba prave prema osi `x`, a koeficijent `a` - vrijednost `y` u tački presjeka linije linija sa `y` osom (na `x = 0`).

Pronalaženje parametara regresijske linije.

U eksperimentu, izmjerene vrijednosti `y_i` ne mogu tačno ležati na teorijskoj pravoj liniji zbog grešaka mjerenja, koje su uvijek svojstvene stvarnom životu. Prema tome, linearna jednačina mora biti predstavljena sistemom jednačina:
`y_i = a + b x_i + ε_i` (1),
gdje je `ε_i` nepoznata greška mjerenja `y` u `i`-tom eksperimentu.

Zavisnost (1) se također naziva regresija, tj. zavisnost dvije veličine jedna od druge sa statističkom značajnošću.

Zadatak obnavljanja zavisnosti je da se pronađu koeficijenti `a` i `b` iz eksperimentalnih tačaka [`y_i`, `x_i`].

Za pronalaženje koeficijenata `a` i `b` obično se koristi metoda najmanjeg kvadrata(MNC). To je poseban slučaj principa maksimalne vjerovatnoće.

Prepišimo (1) u obliku `ε_i = y_i - a - b x_i`.

Tada će zbir grešaka na kvadrat biti
`Φ = suma_(i=1)^(n) ε_i^2 = suma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Princip najmanjih kvadrata (najmanjih kvadrata) je minimiziranje sume (2) u odnosu na parametre `a` i `b`.

Minimum se postiže kada su parcijalni derivati ​​zbira (2) u odnosu na koeficijente `a` i `b` jednaki nuli:
`frac(parcijalni Φ)(djelomični a) = frac(djelomični zbir_(i=1)^(n) (y_i - a - b x_i)^2)(djelomični a) = 0`
`frac(parcijalni Φ)(djelomični b) = frac(djelomični zbir_(i=1)^(n) (y_i - a - b x_i)^2)(djelomični b) = 0`

Proširujući derivacije, dobijamo sistem od dve jednačine sa dve nepoznanice:
`suma_(i=1)^(n) (2a + 2bx_i — 2y_i) = suma_(i=1)^(n) (a + bx_i — y_i) = 0`
`suma_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = suma_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

Otvaramo zagrade i prenosimo zbrojeve nezavisne od traženih koeficijenata na drugu polovinu, dobijamo sistem linearnih jednadžbi:
`suma_(i=1)^(n) y_i = a n + b suma_(i=1)^(n) bx_i`
`suma_(i=1)^(n) x_iy_i = a zbroj_(i=1)^(n) x_i + b suma_(i=1)^(n) x_i^2`

Rješavajući rezultirajući sistem, nalazimo formule za koeficijente `a` i `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n) ) x_iy_i) (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.2)

Ove formule imaju rješenja kada je `n > 1` (prava se može konstruirati koristeći najmanje 2 tačke) i kada je determinanta `D = n sum_(i=1)^(n) x_i^2 - (suma_(i= 1 )^(n) x_i)^2 != 0`, tj. kada su tačke `x_i` u eksperimentu različite (tj. kada linija nije okomita).

Procjena grešaka koeficijenata regresijske linije

Za precizniju procjenu greške u izračunavanju koeficijenata `a` i `b`, poželjan je veći broj eksperimentalnih tačaka. Kada je `n = 2`, nemoguće je procijeniti grešku koeficijenata, jer aproksimirajuća prava će jednoznačno prolaziti kroz dvije tačke.

Određuje se greška slučajne varijable `V` zakon akumulacije grešaka
`S_V^2 = suma_(i=1)^p (frac(parcijalni f)(djelomični z_i))^2 S_(z_i)^2`,
gdje je `p` broj parametara `z_i` sa greškom `S_(z_i)`, koji utiču na grešku `S_V`;
`f` je funkcija ovisnosti `V` od `z_i`.

Zapišimo zakon akumulacije greške za grešku koeficijenata `a` i `b`
`S_a^2 = suma_(i=1)^(n)(frac(parcijalni a)(djelomični y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(djelomični a )(parcijalni x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(djelomični a)(djelomični y_i))^2 `,
`S_b^2 = suma_(i=1)^(n)(frac(parcijalni b)(djelomični y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(djelomični b )(parcijalni x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(djelomični b)(djelomični y_i))^2 `,
jer `S_(x_i)^2 = 0` (prethodno smo rezervisali da je greška `x` zanemarljiva).

`S_y^2 = S_(y_i)^2` - greška (varijansa, kvadrat standardne devijacije) u mjerenju `y`, pod pretpostavkom da je greška uniformna za sve vrijednosti `y`.

Zamjenom formula za izračunavanje `a` i `b` u rezultirajuće izraze dobijamo

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2) suma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

U većini stvarnih eksperimenata, vrijednost `Sy` se ne mjeri. Da biste to učinili, potrebno je izvršiti nekoliko paralelnih mjerenja (eksperimenata) na jednoj ili više tačaka plana, što povećava vrijeme (i eventualno cijenu) eksperimenta. Stoga se obično pretpostavlja da se odstupanje `y` od linije regresije može smatrati slučajnim. Procjena varijanse `y` u ovom slučaju se izračunava pomoću formule.

`S_y^2 = S_(y, odmor)^2 = frac(suma_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Delitelj `n-2` se pojavljuje jer se naš broj stupnjeva slobode smanjio zbog izračunavanja dva koeficijenta koristeći isti uzorak eksperimentalnih podataka.

Ova procjena se također naziva rezidualna varijansa u odnosu na liniju regresije `S_(y, rest)^2`.

Značajnost koeficijenata se procjenjuje korištenjem Studentovog t testa

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Ako su izračunati kriterijumi `t_a`, `t_b` manji od tabelarnih kriterijuma `t(P, n-2)`, onda se smatra da se odgovarajući koeficijent ne razlikuje značajno od nule sa datom verovatnoćom `P`.

Da biste ocijenili kvalitetu opisa linearne veze, možete uporediti `S_(y, odmor)^2` i `S_(bar y)` u odnosu na srednju vrijednost koristeći Fisherov kriterij.

`S_(bar y) = frac(suma_(i=1)^n (y_i — bar y)^2) (n-1) = frac(suma_(i=1)^n (y_i — (suma_(i= 1)^n y_i) /n)^2) (n-1)` - procjena uzorka varijanse `y` u odnosu na srednju vrijednost.

Da bi se procijenila efikasnost jednadžbe regresije koja opisuje ovisnost, izračunava se Fisherov koeficijent
`F = S_(bar y) / S_(y, odmor)^2`,
koji se poredi sa tabelarnim Fisherovim koeficijentom `F(p, n-1, n-2)`.

Ako je `F > F(P, n-1, n-2)`, razlika između opisa odnosa `y = f(x)` pomoću regresijske jednačine i opisa pomoću srednje vrijednosti smatra se statistički značajnom s vjerovatnoćom `P`. One. regresija bolje opisuje zavisnost od širenja `y` oko srednje vrednosti.

Kliknite na grafikon
da dodate vrednosti u tabelu

Metoda najmanjeg kvadrata. Metoda najmanjih kvadrata znači određivanje nepoznatih parametara a, b, c, prihvaćene funkcionalne zavisnosti

Metoda najmanjih kvadrata se odnosi na određivanje nepoznatih parametara a, b, c,… prihvaćena funkcionalna zavisnost

y = f(x,a,b,c,…),

koji bi obezbedio minimum srednjeg kvadrata (varijanse) greške

, (24)

gdje je x i, y i skup parova brojeva dobijenih iz eksperimenta.

Pošto je uslov za ekstremum funkcije nekoliko varijabli uslov da su njeni parcijalni derivati ​​jednaki nuli, tada parametri a, b, c,… određuju se iz sistema jednačina:

; ; ; … (25)

Mora se imati na umu da se metoda najmanjih kvadrata koristi za odabir parametara nakon tipa funkcije y = f(x) definisano

Ako se iz teorijskih razmatranja ne mogu izvući zaključci o tome kakva bi empirijska formula trebala biti, onda se treba voditi vizualnim prikazima, prvenstveno grafičkim prikazima posmatranih podataka.

U praksi su najčešće ograničene na sljedeće vrste funkcija:

1) linearni ;

2) kvadratno a.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”