Metode klaster analize. Pregled algoritama za grupisanje podataka

Pretplatite se
Pridružite se zajednici parkvak.ru!
U kontaktu sa:

Često se u raznim oblastima aktivnosti moramo baviti ogromna količina sve stavke koje zahtijevaju radnju.

A mi ne možemo ni da shvatimo ceo tom tom, a kamoli da ga razumemo.

Šta je izlaz? Pa, naravno, "sve dovesti u red." U ovom slučaju narodna mudrost poprima sasvim određenu naučnu formulaciju.

Klaster analiza je proučavanje objekata kombinovanjem u homogene grupe sa sličnim karakteristikama. Njegove metode su primjenjive u doslovno svim oblastima: od medicine do Forex trgovanja, od osiguranja automobila do arheologije. A za trgovce i HR stručnjake jednostavno je nezamjenjiv.

Više detalja o tome u članku.

Šta je klaster

Klaster analiza je dizajnirana da podijeli skup objekata u homogene grupe (klastere ili klase). Ovo je problem višedimenzionalne klasifikacije podataka.


Postoji oko 100 različitih algoritama za grupisanje, međutim, najčešće korišteni su:

  1. hijerarhijska klaster analiza,
  2. k-znači grupisanje.

Gdje se koristi klaster analiza:

  • U marketingu je to segmentacija konkurenata i potrošača.
  • U menadžmentu:
    1. podjela osoblja u grupe različitih nivoa motivacije,
    2. klasifikacija dobavljača,
    3. identifikaciju sličnih proizvodnih situacija u kojima se javljaju nedostaci.
  • U medicini - klasifikacija simptoma, pacijenata, lijekova.
  • U sociologiji je podjela ispitanika na homogene grupe.

Zapravo, klaster analiza se dobro dokazala u svim sferama ljudskog života. Lijepo ovu metodu- radi čak i kada ima malo podataka i kada nisu ispunjeni uslovi za normalnu distribuciju slučajne varijable i drugi zahtjevi klasične metode Statistička analiza.

Objasnimo suštinu klaster analize bez pribjegavanja strogoj terminologiji.

Recimo da ste sproveli anketu zaposlenih i želite da utvrdite kako najefikasnije upravljati osobljem. Odnosno, želite podijeliti zaposlenike u grupe i istaknuti najefikasnije upravljačke poluge za svaku od njih. Istovremeno, razlike između grupa treba da budu očigledne, a unutar grupe ispitanici treba da budu što sličniji.

Za rješavanje problema predlaže se korištenje hijerarhijske klaster analize. Kao rezultat, dobit ćemo stablo, gledajući u koje moramo odlučiti na koliko klasa (klastera) želimo podijeliti osoblje. Pretpostavimo da smo odlučili podijeliti osoblje u tri grupe, pa ćemo za proučavanje ispitanika koji spadaju u svaki klaster dobiti tabelu otprilike sljedećeg sadržaja:


Objasnimo kako je formirana gornja tabela. Prva kolona sadrži broj klastera - grupe, za koju se podaci ogledaju u liniji. Na primjer, prvi klaster je 80% muškaraca. 90% prvog klastera spada u starosnu kategoriju od 30 do 50 godina, a 12% ispitanika smatra da su beneficije veoma važne. I tako dalje.

Pokušajmo napraviti portrete ispitanika iz svakog klastera:

  1. Prvu grupu čine uglavnom zreli muškarci koji zauzimaju liderske pozicije. Ne zanima ih socijalni paket (MED, LGOTI, VRIJEME-slobodno vrijeme). Više vole da primaju dobru platu nego pomoć od poslodavca.
  2. Grupa dva, naprotiv, daje prednost socijalnom paketu. Sastoji se uglavnom od “starih” ljudi koji zauzimaju niske pozicije. Plata im je svakako bitna, ali tu su i drugi prioriteti.
  3. Treća grupa je „najmlađi“. Za razliku od prethodna dva, postoji očigledan interes za mogućnosti učenja i profesionalni rast. Ova kategorija zaposlenih ima dobre šanse da se uskoro pridruži prvoj grupi.

Dakle, prilikom planiranja kampanje implementacije efikasne metode upravljanja kadrovima, očigledno je da je u našoj situaciji moguće povećati socijalni paket druge grupe na štetu, na primjer, plata. Ako govorimo o tome koje stručnjake treba poslati na obuku, svakako možemo preporučiti da obratite pažnju na treću grupu.

Izvor: "nickart.spb.ru"

Klaster analiza je ključ za razumijevanje tržišta

Klaster je cijena sredstva tokom određenog vremenskog perioda tokom kojeg su izvršene transakcije. Rezultirajući obim kupovine i prodaje označen je brojem unutar klastera. Traka bilo kojeg vremenskog okvira obično sadrži nekoliko klastera. Ovo vam omogućava da detaljno vidite obim kupovine, prodaje i njihov saldo u svakom pojedinačnom baru, na svakom nivou cijena.


Izgradnja klaster grafa

Promjena cijene jednog sredstva neizbježno povlači lanac kretanja cijena u drugim instrumentima. U većini slučajeva, razumijevanje kretanja trenda javlja se već u trenutku kada se on ubrzano razvija, a ulazak na tržište duž trenda rizikuje da završi u korektivnom valu.

Za uspješne transakcije morate razumjeti trenutnu situaciju i moći predvidjeti buduća kretanja cijena. Ovo se može naučiti analizom klaster grafa. Koristeći klaster analizu, možete vidjeti aktivnost učesnika na tržištu čak iu najmanjoj cjenovnoj liniji.

Ovo je najpreciznija i najdetaljnija analiza, jer pokazuje tačku distribucije obima transakcija na svakom nivou cijene imovine. Na tržištu postoji stalni sukob između interesa prodavača i kupaca. I svako najmanje kretanje cijene (kvačica) je pomak ka kompromisu – nivou cijena – koji trenutno odgovara objema stranama.

Ali tržište je dinamično, broj prodavača i kupaca se stalno mijenja. Ako su u jednom trenutku tržištem dominirali prodavci, onda će u sledećem trenutku najverovatnije biti kupaca. Broj izvršenih transakcija na susednim nivoima cena takođe nije isti.

Pa ipak, prvo se tržišna situacija ogleda u ukupnom obimu transakcija, a tek onda u cijeni. Ako vidite akcije dominantnih učesnika na tržištu (prodavaca ili kupaca), onda možete predvidjeti samo kretanje cijene.

Da biste uspješno koristili klaster analizu, prvo morate razumjeti šta su klaster i delta:

  • Klaster je kretanje cijena koje je podijeljeno na nivoe na kojima su izvršene transakcije sa poznatim količinama.
  • Delta prikazuje razliku između kupovine i prodaje u svakom klasteru.


Klaster graf

Svaki klaster, ili grupa delta, omogućava vam da shvatite da li kupci ili prodavci dominiraju tržištem u datom trenutku. Dovoljno je samo izračunati ukupnu deltu zbrajanjem prodaje i kupovine. Ako je delta negativna, onda je tržište preprodano i postoje suvišne transakcije prodaje. Kada je delta pozitivna, kupci jasno dominiraju tržištem.

Sama delta može uzeti normalnu ili kritična vrijednost. Vrijednost delta volumena iznad normalne u klasteru je označena crvenom bojom. Ako je delta umjerena, onda to karakterizira ravno stanje na tržištu. Kod normalne delta vrijednosti, na tržištu se uočava kretanje trenda, ali kritična vrijednost je uvijek predznak preokreta cijene.

Forex trgovanje koristeći CA

Da biste postigli maksimalan profit, morate biti u mogućnosti da odredite prijelaz delte sa umjerenog nivoa na normalan. Zaista, u ovom slučaju možete primijetiti sam početak tranzicije sa ravnog na trend kretanja i moći ćete dobiti najveći profit.

Klaster grafikon je vizuelniji; na njemu možete videti značajne nivoe akumulacije i distribucije volumena, kao i nivoe podrške i otpora.

Ovo omogućava trgovcu da pronađe tačan ulaz u trgovinu. Koristeći deltu, možete procijeniti prevlast prodaje ili kupovine na tržištu. Klaster analiza vam omogućava da posmatrate transakcije i pratite njihov obim unutar trake bilo kog TF-a. Ovo je posebno važno kada se približavate značajnim nivoima podrške ili otpora. Klasterske prosudbe su ključ za razumijevanje tržišta.

Izvor: "orderflowtrading.ru"

Područja i karakteristike primjene klaster analize

Termin klaster analiza (prvi ga je skovao Tryon, 1939.) zapravo uključuje skup različitih klasifikacionih algoritama. Opšte pitanje, koje postavljaju istraživači u mnogim oblastima, jeste kako organizovati posmatrane podatke u vizuelne strukture, tj. proširiti taksonomije.

Na primjer, biolozi su postavili cilj da podijele životinje na različite vrste da smisleno opiše razlike među njima. Prema modernom sistemu usvojenom u biologiji, ljudi pripadaju primatima, sisarima, amniotima, kralježnjacima i životinjama.

Imajte na umu da u ovoj klasifikaciji, što je viši nivo agregacije, to je manje sličnosti između članova odgovarajuće klase. Ljudi imaju više sličnosti s drugim primatima (tj. majmunima) nego sa „udaljenim“ članovima porodice sisara (tj. psima) itd.

Imajte na umu da se prethodna rasprava odnosi na algoritme za grupisanje, ali ne spominje ništa o provjeri statistički značaj. Zapravo, klaster analiza nije toliko obična statistička metoda koliko „skup“ različitih algoritama za „distribuciju objekata u klastere“.

Postoji stajalište da se, za razliku od mnogih drugih statističkih procedura, metode klaster analize koriste u većini slučajeva kada nemate nikakve apriorne hipoteze o klasama, ali ste još uvijek u deskriptivnoj fazi studije. Treba shvatiti da klaster analiza određuje “najvjerovatnije značajno rješenje”.

Stoga, testiranje statističke značajnosti ovdje nije stvarno primjenjivo, čak ni u slučajevima kada su p-nivoi poznati (kao u metodi K-means).

Tehnike grupisanja koriste se u raznim oblastima. Hartigan (1975) je dao odličan pregled mnogih objavljenih studija koje sadrže rezultate dobivene korištenjem metoda klaster analize. Na primjer, u području medicine, grupiranje bolesti, tretmana bolesti ili simptoma bolesti dovodi do široko korištenih taksonomija.

U oblasti psihijatrije, pravilna dijagnoza klastera simptoma kao što su paranoja, šizofrenija itd. je ključna za uspješnu terapiju. U arheologiji, koristeći klaster analizu, istraživači pokušavaju uspostaviti taksonomije kamenog oruđa, pogrebnih predmeta itd.

Postoje široke primjene klaster analize u marketinškim istraživanjima. Općenito, kad god je potrebno klasificirati “gorove” informacija u grupe pogodne za dalju obradu, klaster analiza se pokazuje kao vrlo korisna i efikasna.

Grupiranje stabala

Svrha algoritma ujedinjenja (klastera stabala) je da kombinuje objekte (na primjer, životinje) u dovoljno velike klastere koristeći neku mjeru sličnosti ili udaljenosti između objekata. Tipičan rezultat takvog grupisanja je hijerarhijsko stablo.

Razmotrite horizontalni dijagram stabla. Dijagram počinje sa svakim objektom u klasi (na lijevoj strani dijagrama). Sada zamislite da postepeno (u vrlo malim koracima) „opuštate“ svoj kriterij o tome koji su objekti jedinstveni, a koji nisu. Drugim riječima, snižavate prag vezan za odluku o kombiniranju dva ili više objekata u jedan klaster.


Kao rezultat toga, sve više se povezujete veći broj objekata i agregirati (kombinirati) sve više i više klastera koji se sastoje od sve više različitih elemenata. Konačno, u posljednjem koraku, svi objekti se kombinuju zajedno.

U ovim dijagramima, horizontalne ose predstavljaju udaljenost spajanja (u vertikalnim dijagramima stabla, vertikalne ose predstavljaju udaljenost spajanja). Dakle, za svaki čvor u grafu (gdje se formira novi klaster), možete vidjeti vrijednost udaljenosti za koju su odgovarajući elementi povezani u novi pojedinačni klaster.

Kada podaci imaju jasnu "strukturu" u smislu klastera objekata koji su međusobno slični, tada će se ova struktura vjerovatno odražavati u hijerarhijskom stablu kroz različite grane. Kao rezultat uspješne analize metodom spajanja, postaje moguće detektirati klastere (grane) i interpretirati ih.

Mjere udaljenosti

Metoda ujedinjenja ili klastera stabla koristi se za formiranje klastera različitosti ili udaljenosti između objekata. Ove udaljenosti se mogu definirati u jednodimenzionalnom ili višedimenzionalnom prostoru. Na primjer, ako biste grupirali vrste hrane u kafiću, mogli biste uzeti u obzir broj kalorija koje sadrži, cijenu, subjektivnu ocjenu ukusa itd.

Najdirektniji način za izračunavanje udaljenosti između objekata u višedimenzionalnom prostoru je izračunavanje euklidskih udaljenosti. Ako imate dvodimenzionalni ili trodimenzionalni prostor, onda je ova mjera stvarna geometrijska udaljenost između objekata u prostoru (kao da su udaljenosti između objekata mjerene mjernom trakom).

Međutim, algoritam za udruživanje nije "briga" da li su udaljenosti "obezbeđene" za tu udaljenost stvarne ili neka druga izvedena mera udaljenosti, koja je značajnija za istraživača; a izazov za istraživače je odabrati pravu metodu za specifične primjene.

  1. Euklidska udaljenost.
  2. Čini se da je ovo najčešći tip udaljenosti. To je jednostavno geometrijska udaljenost u višedimenzionalnom prostoru i izračunava se na sljedeći način:

    Imajte na umu da se Euklidska udaljenost (i njen kvadrat) izračunavaju iz originalnih podataka, a ne standardiziranih podataka. Ovo je uobičajen način za njegovo izračunavanje, koji ima određene prednosti (na primjer, udaljenost između dva objekta se ne mijenja kada se u analizu uvede novi objekt, koji može biti autlier).

    Međutim, na udaljenosti mogu u velikoj mjeri utjecati razlike između osa iz kojih se računaju udaljenosti.

    Na primjer, ako se jedna od osi mjeri u centimetrima, a zatim je pretvorite u milimetre (množenjem vrijednosti sa 10), tada će se promijeniti konačna euklidska udaljenost (ili kvadrat euklidske udaljenosti) izračunata iz koordinata uvelike, i kao rezultat toga, rezultati klaster analize mogu se znatno razlikovati od prethodnih.

  3. Euklidska udaljenost na kvadrat.
  4. Ponekad ćete možda htjeti kvadrature standardne euklidske udaljenosti da biste dali veću težinu objektima koji su udaljeniji. Ova udaljenost se izračunava na sljedeći način:

  5. Udaljenost od gradskog bloka (udaljenost Manhattana).
  6. Ova udaljenost je jednostavno prosjek razlika u koordinatama. U većini slučajeva, ova mjera udaljenosti daje iste rezultate kao i obična euklidska udaljenost.

    Međutim, napominjemo da je za ovu mjeru smanjen utjecaj pojedinačnih velikih razlika (outliers) (pošto nisu na kvadrat). Udaljenost Manhattana se izračunava pomoću formule:

  7. Chebyshev distance.
  8. Ova udaljenost može biti korisna kada se želi definirati dva objekta kao "različita" ako se razlikuju u bilo kojoj jednoj koordinati (u bilo kojoj jednoj dimenziji). Čebiševljeva udaljenost se izračunava pomoću formule:

  9. Udaljenost snage.

    Ponekad se želi progresivno povećati ili smanjiti težinu povezanu s dimenzijom za koju su odgovarajući objekti vrlo različiti. To se može postići korištenjem udaljenosti po stepenu. Udaljenost snage se izračunava pomoću formule:

    gdje su r i p korisnički definirani parametri.

    Nekoliko primjera proračuna može pokazati kako ova mjera "funkcioniše":

    • Parametar p je odgovoran za postepeno vaganje razlika duž pojedinačnih koordinata.
    • Parametar r je odgovoran za progresivno mjerenje velikih udaljenosti između objekata.
    • Ako su oba parametra r i p jednaka dva, tada se ta udaljenost poklapa s euklidskom udaljenosti.
  10. Procenat neslaganja.
  11. Ova mjera se koristi kada su podaci kategorični. Ova udaljenost se izračunava po formuli:

Pravila povezivanja ili povezivanja

U prvom koraku, kada je svaki objekt zaseban klaster, udaljenosti između ovih objekata određuju se odabranom mjerom. Međutim, kada je više objekata povezano, postavlja se pitanje kako odrediti udaljenosti između klastera?

Drugim riječima, za dva klastera potrebno je pravilo udruživanja ili povezivanja. Ovdje postoje različite mogućnosti: na primjer, možete povezati dva klastera zajedno kada bilo koja dva objekta u dva klastera bliži prijatelj jedni prema drugima od odgovarajuće udaljenosti komunikacije.

Drugim riječima, koristite "pravilo najbližeg susjeda" da odredite udaljenost između klastera; ova metoda se naziva metodom jedne veze. Ovo pravilo gradi "vlaknaste" klastere, tj. klasteri "povezani zajedno" samo pojedinačnim elementima koji su slučajno najbliži jedan drugom.

Alternativno, možete koristiti susjede u klasterima koji su najudaljeniji jedan od drugog od svih ostalih parova objekata. Ova metoda se zove metoda pune veze. Postoje i mnoge druge metode za kombinovanje klastera slične onima o kojima se raspravlja.

  • Jedna veza (metoda najbližeg susjeda).
  • Kao što je gore opisano, u ovoj metodi, udaljenost između dva klastera određena je rastojanjem između dva najbliža objekta (najbližih susjeda) u različitim klasterima.

    Ovo pravilo bi trebalo u određenom smislu, nizaju objekte zajedno da formiraju klastere, a rezultirajući klasteri imaju tendenciju da budu predstavljeni dugim "lancima".

  • Puna veza (metoda najudaljenijih susjeda).
  • U ovoj metodi, udaljenosti između klastera su određene najvećom udaljenosti između bilo koja dva objekta u različitim klasterima (tj. "najudaljenijim susjedima").

    Ova metoda obično radi vrlo dobro kada objekti dolaze iz zapravo različitih "šumova".

    Ako klasteri imaju nešto izduženi oblik ili je njihov prirodni tip "lanac", onda je ova metoda neprikladna.

  • Neponderisani prosek u parovima.
  • U ovoj metodi, udaljenost između dva različita klastera izračunava se kao prosječna udaljenost između svih parova objekata u njima. Metoda je efikasna kada objekti zapravo formiraju različite "šume", ali jednako dobro radi u slučajevima proširenih ("lančanog" tipa) klastera.

    Imajte na umu da u svojoj knjizi Sneath i Sokal (1973) uvode skraćenicu UPGMA koja označava ovu metodu kao metodu neponderisane grupe parova koristeći aritmetičke proseke.

  • Ponderisani prosjek u parovima.
  • Metoda je identična metodi neponderisanog prosjeka u paru, osim što se veličina odgovarajućih klastera (tj. broj objekata koje sadrže) koristi kao težinski faktor u proračunima. Stoga predloženu metodu treba koristiti kada se očekuju nejednake veličine klastera.

    Knjiga Sneatha i Sokala (1973) uvodi skraćenicu WPGMA koja označava ovu metodu kao metodu ponderisane grupe u paru koristeći aritmetičke prosjeke.

  • Neponderirana metoda centroida.
  • U ovoj metodi, udaljenost između dva klastera se definira kao udaljenost između njihovih centara gravitacije.

    Sneath i Sokal (1973) koriste skraćenicu UPGMC kako bi označili ovu metodu kao metodu neponderisane grupe parova koristeći prosjek centroida.

  • Metoda ponderisanog centroida (medijan).
  • Ova metoda je identična prethodnoj, osim što izračunavanje koristi pondere da bi se uračunala razlika između veličina klastera (tj. broja objekata u njima).

    Stoga, ako postoje (ili se sumnja) značajne razlike u veličinama klastera, ova metoda je poželjnija od prethodne.

    Sneath i Sokal (1973) su koristili skraćenicu WPGMC kako bi je nazvali metodom ponderisane grupe parova koristeći prosjek centroida.

  • Wardova metoda.
  • Ova metoda se razlikuje od svih ostalih metoda jer koristi tehnike analize varijanse za procjenu udaljenosti između klastera. Metoda minimizira zbir kvadrata (SS) za bilo koja dva (hipotetička) klastera koja se mogu formirati u svakom koraku.

    Detalji se mogu naći u Ward (1963). Sve u svemu, čini se da je metoda vrlo učinkovita, ali ima tendenciju stvaranja malih klastera.

Kombinacija dva ulaza

Ova metoda je ranije razmatrana u smislu "objekata" koje je potrebno grupirati. U svim drugim vrstama analize, pitanje od interesa za istraživača obično se izražava u vidu zapažanja ili varijabli. Ispostavilo se da grupisanje, kako prema opservacijama tako i prema varijablama, može dovesti do prilično zanimljivih rezultata.

Na primjer, zamislite da medicinski istraživač prikuplja podatke o različitim karakteristikama (varijable) stanja (slučajeva) pacijenata koji pate od srčanih bolesti. Istraživač bi možda želio grupirati opažanja (pacijente) kako bi identificirao grupe pacijenata sa sličnim simptomima.

U isto vrijeme, istraživač može htjeti grupirati varijable kako bi identificirao grupe varijabli koje su povezane sa sličnim fizičkim uvjetima. Nakon ove rasprave o tome da li grupirati opažanja ili varijable, moglo bi se zapitati, zašto ne grupirati u oba smjera?

Modul Cluster Analysis sadrži efikasnu dvosmjernu rutinu spajanja koja vam omogućava upravo to. Međutim, dvosmjerno udruživanje se koristi (relativno rijetko) u okolnostima u kojima se očekuje da i zapažanja i varijable istovremeno doprinose otkrivanju smislenih klastera.

Dakle, vraćajući se na prethodni primjer, možemo pretpostaviti da medicinski istraživač treba da identifikuje klastere pacijenata koji su slični u odnosu na određene klastere karakteristika fizičkog stanja.

Poteškoće u tumačenju dobijenih rezultata proizlaze iz činjenice da sličnosti između različitih klastera mogu proizaći iz (ili biti uzrok) nekih razlika u podskupovima varijabli. Stoga su rezultirajući klasteri heterogene prirode.

Ovo u početku može izgledati malo maglovito; zapravo, u poređenju s drugim opisanim metodama klaster analize, dvosmjerno spajanje je vjerovatno najmanje korištena metoda. Međutim, neki istraživači vjeruju da nudi moćno sredstvo za istraživačku analizu podataka (za više detaljne informacije možda ćete želeti da se pozovete na Hartiganov opis ove metode (Hartigan, 1975).

K znači metoda

Ova metoda grupiranja značajno se razlikuje od takvih aglomerativnih metoda kao što su Unija (klasterizacija stabala) i Dvosmjerna unija. Pretpostavimo da već imate hipoteze o broju klastera (na osnovu zapažanja ili varijabli).

Možete reći sistemu da formira tačno tri klastera tako da budu što je moguće više različiti. To je upravo tip problema koji rješava K-means algoritam. IN opšti slučaj Metoda K znači konstruira tačno K različitih klastera koji se nalaze na najvećim mogućim udaljenostima jedan od drugog.

U primjeru fizičkog stanja, medicinski istraživač može imati "predosjećaj" iz svog kliničkog iskustva da njegovi pacijenti općenito spadaju u tri različite kategorije. Zatim, možda želi znati da li se njegova intuicija može brojčano potvrditi, odnosno da li analiza klastera K-means zapravo proizvodi tri klastera pacijenata kako se očekivalo?

Ako je to tako, onda su prosjeci raznih mjera fizički parametri za svaki klaster će dati kvantitativni način predstavljanja hipoteza istraživača (na primjer, pacijenti u klasteru 1 imaju visoki parametar 1, niži parametar 2, itd.).

Sa računske tačke gledišta, ovu metodu možete zamisliti kao obrnutu analizu varijanse.

Program počinje s K nasumično odabranih klastera, a zatim mijenja članstvo objekata u njima tako da:

  1. minimizirati varijabilnost unutar klastera,
  2. maksimizirati varijabilnost između klastera.

Ova metoda je slična obrnutoj ANOVA-i po tome što test značajnosti u ANOVA-i uspoređuje varijabilnost između grupe i unutar grupe u testiranju hipoteze da se srednje vrijednosti grupe razlikuju jedna od druge.

U grupisanju K-sredstava, program premješta objekte (tj. opservacije) iz jedne grupe (klastera) u drugu kako bi se dobio najznačajniji rezultat prilikom provođenja analize varijanse (ANOVA). Tipično, kada se dobiju rezultati analize klastera K-srednje vrednosti, mogu se izračunati srednje vrednosti za svaki klaster duž svake dimenzije kako bi se procenilo koliko se klasteri međusobno razlikuju.

U idealnom slučaju, trebalo bi da dobijete veoma različita sredstva za većinu, ako ne i za sva merenja koja se koriste u analizi. Vrijednosti F-statistike dobivene za svaku dimenziju su još jedan pokazatelj koliko dobro odgovarajuća dimenzija razlikuje klastere.

Izvor: "biometrija.tomsk.ru"

Klasifikacija objekata prema njihovim karakteristikama

Klaster analiza je skup višedimenzionalnih statističkih metoda za klasifikaciju objekata prema karakteristikama koje ih karakterišu, podjelu skupa objekata u homogene grupe koje su slične u definiranju kriterija i identifikaciju objekata određene grupe.

Klaster je grupa objekata identifikovanih kao rezultat analize klastera na osnovu date mere sličnosti ili razlika između objekata. Objekt – to su specifični objekti istraživanja koje je potrebno klasificirati. Objekti klasifikacije su, po pravilu, zapažanja. Na primjer, potrošači proizvoda, zemlje ili regije, proizvodi itd.

Iako je moguće provesti klaster analizu po varijablama. Klasifikacija objekata u multidimenzionalnoj klaster analizi odvija se prema više kriterijuma istovremeno, a to mogu biti i kvantitativne i kategorijalne varijable, u zavisnosti od metode klaster analize. Dakle, glavni cilj klaster analize je pronaći grupe sličnih objekata u uzorku.

Skup multivarijatnih statističkih metoda klasterske analize može se podijeliti na hijerarhijske metode (aglomerativne i razdjelne) i nehijerarhijske (metoda k-srednjih vrijednosti, dvostepena klasterska analiza).

Međutim, ne postoji opšteprihvaćena klasifikacija metoda, a metode klaster analize ponekad uključuju i metode za konstruisanje stabala odlučivanja, neuronske mreže, diskriminantnu analizu i logističku regresiju.

Opseg upotrebe klaster analize, zbog svoje svestranosti, veoma je širok. Klaster analiza se koristi u ekonomiji, marketingu, arheologiji, medicini, psihologiji, hemiji, biologiji, javnoj upravi, filologiji, antropologiji, sociologiji i drugim oblastima.

Evo nekoliko primjera korištenja klaster analize:

  • medicina – klasifikacija bolesti, njihovi simptomi, metode liječenja, klasifikacija grupa pacijenata;
  • marketing – zadaci optimizacije proizvodne linije kompanije, segmentiranje tržišta po grupama robe ili potrošača, identifikacija potencijalnih potrošača;
  • sociologija – podjela ispitanika u homogene grupe;
  • psihijatrija – tačna dijagnoza grupa simptoma je odlučujuća za uspješnu terapiju;
  • biologija - klasifikacija organizama po grupama;
  • ekonomija – klasifikacija subjekata Ruske Federacije prema investicionoj atraktivnosti.

Izvor: "statmethods.ru"

Razumijevanje klaster analize

Klaster analiza uključuje skup različitih klasifikacionih algoritama. Uobičajeno pitanje koje postavljaju istraživači u mnogim oblastima je kako organizirati promatrane podatke u vizualne strukture.

Na primjer, biolozi imaju za cilj klasificirati životinje u različite vrste kako bi smisleno opisali razlike među njima.

Zadatak klaster analize je podijeliti početni skup objekata u grupe sličnih objekata koji su bliski jedan drugom. Ove grupe se nazivaju klasteri.

Drugim riječima, klaster analiza je jedan od načina klasifikacije objekata prema njihovim karakteristikama. Poželjno je da rezultati klasifikacije imaju smislenu interpretaciju.

Rezultati dobijeni metodama klaster analize koriste se u raznim oblastima:

  1. U marketingu je to segmentacija konkurenata i potrošača.
  2. U psihijatriji je tačna dijagnoza simptoma kao što su paranoja, šizofrenija itd. presudna za uspješnu terapiju.
  3. U menadžmentu je važno klasifikovati dobavljače i identifikovati slične proizvodne situacije u kojima se javljaju nedostaci.
  4. U sociologiji je podjela ispitanika na homogene grupe.
  5. Kod portfolio ulaganja važno je grupisati se vrijednosne papire sličnošću u trendu profitabilnosti kako bi se na osnovu dobijenih informacija o berzi sačinio optimalan investicioni portfolio koji omogućava maksimiziranje profita od ulaganja uz dat stepen rizika.

Zapravo, klaster analiza se dobro dokazala u svim sferama ljudskog života. Generalno, kad god je potrebno klasifikovati veliku količinu informacija ove vrste i predstaviti ih u obliku pogodnom za dalju obradu, klaster analiza se pokazuje kao veoma korisna i efikasna.

Klaster analiza vam omogućava da uzmete u obzir prilično veliku količinu informacija i uvelike komprimirate velike količine socio-ekonomskih informacija, čineći ih kompaktnim i vizualnim.

Velika važnost klaster analiza se primenjuje na skupove vremenskih serija koje karakterišu ekonomski razvoj (na primer, opšti ekonomski i robni uslovi).

Ovdje možete istaknuti periode kada su vrijednosti odgovarajućih indikatora bile prilično bliske, a također možete odrediti grupe vremenskih serija čija je dinamika najsličnija. U zadacima socio-ekonomskog predviđanja, kombinacija klaster analize sa drugim metodama je vrlo obećavajuća. kvantitativne metode(na primjer, sa regresijskom analizom).

Prednosti i nedostaci

Klaster analiza omogućava objektivnu klasifikaciju svih objekata koji se odlikuju nizom karakteristika. Postoji niz prednosti koje se mogu izvući iz ovoga:

  • Dobijeni klasteri se mogu interpretirati, odnosno mogu opisati koje grupe zapravo postoje.
  • Pojedinačni klasteri se mogu odbaciti. Ovo je korisno u slučajevima kada su tokom prikupljanja podataka napravljene određene greške, zbog čega vrijednosti indikatora za pojedinačne objekte naglo odstupaju. Prilikom primjene klaster analize, takvi objekti spadaju u poseban klaster.
  • Za dalju analizu mogu se odabrati samo oni klasteri koji imaju karakteristike od interesa.

Kao i svaka druga metoda, klaster analiza ima određene nedostatke i ograničenja. posebno:

  1. sastav i broj klastera zavisi od izabranih kriterijuma particije,
  2. kada se izvorni niz podataka svede na kompaktniji oblik, može doći do određenih izobličenja,
  3. Pojedinačne karakteristike pojedinačnih objekata mogu se izgubiti zamjenom karakteristikama generaliziranih vrijednosti parametara klastera.

Metode

Trenutno je poznato više od stotinu različitih algoritama za grupisanje. Njihova raznolikost se objašnjava ne samo različitim računskim metodama, već i različitim konceptima koji su u osnovi klasteriranja. Preporuke za odabir jedne ili druge metode klasteriranja mogu se dati samo općenito, a glavni kriterij odabira je praktična korisnost rezultata.

Paket Statistica implementira sljedeće metode grupiranja:

  • Hijerarhijski algoritmi - grupiranje stabala. Hijerarhijski algoritmi su zasnovani na ideji sekvencijalnog grupisanja. U početnom koraku, svaki objekat se smatra zasebnim klasterom. U sljedećem koraku, neki od klastera koji su najbliži jedan drugom će se kombinirati u poseban klaster.
  • K-means metoda. Ova metoda se najčešće koristi. Spada u grupu tzv. referentnih metoda klaster analize. Broj klastera K određuje korisnik.
  • Kombinacija dva ulaza. Kada se koristi ova metoda, grupisanje se vrši istovremeno i po varijablama (kolone) i po opservacijama (redovi).

Dvosmjerna procedura udruživanja koristi se u slučajevima kada se može očekivati ​​da će istovremeno grupisanje između varijabli i opservacija proizvesti značajne rezultate.

Rezultati postupka su deskriptivna statistika za varijable i zapažanja, kao i dvodimenzionalni dijagram boja u kojem su vrijednosti podataka označene bojama. Na osnovu distribucije boja, možete dobiti ideju o homogenim grupama.

Normalizacija varijabli

Podjela početnog skupa objekata u klastere uključuje izračunavanje udaljenosti između objekata i odabir objekata čija je udaljenost najmanja od svih mogućih. Najčešće korištena je Euklidska (geometrijska) udaljenost koja nam je svima poznata. Ova metrika odgovara intuitivnim idejama o blizini objekata u prostoru (kao da su udaljenosti između objekata mjerene mjernom trakom).

Ali za datu metriku, na udaljenost između objekata mogu uvelike utjecati promjene skala (mjernih jedinica). Na primjer, ako se jedna od karakteristika izmjeri u milimetrima, a zatim se njena vrijednost pretvori u centimetre, euklidska udaljenost između objekata će se jako promijeniti. To će dovesti do činjenice da se rezultati klaster analize mogu značajno razlikovati od prethodnih.

Ako se varijable mjere u različitim mjernim jedinicama, tada je potrebna njihova preliminarna normalizacija, odnosno transformacija izvornih podataka koja ih pretvara u bezdimenzionalne veličine.

Normalizacija uvelike iskrivljuje geometriju originalnog prostora, što može promijeniti rezultate grupiranja. U paketu Statistica normalizacija bilo koje varijable x se izvodi pomoću formule:

Da biste to uradili, kliknite desnim tasterom miša na naziv varijable i izaberite redosled naredbi u meniju koji se otvori: Popuni/ Standardiziraj blok/ Standardiziraj kolone. Vrijednosti normalizirane varijable će postati jednake nuli, a varijansa će postati jednaka jedan.

K-means metoda u programu Statistica

Metoda K-means dijeli skup objekata na određeni broj K različitih klastera koji se nalaze na najvećoj mogućoj udaljenosti jedan od drugog. Tipično, kada se dobiju rezultati analize klastera K-srednje vrednosti, mogu se izračunati srednje vrednosti za svaki klaster duž svake dimenzije kako bi se procenilo koliko se klasteri međusobno razlikuju.

U idealnom slučaju, trebalo bi da dobijete veoma različita sredstva za većinu merenja koja se koriste u analizi. Vrijednosti F-statistike dobivene za svaku dimenziju su još jedan pokazatelj koliko dobro odgovarajuća dimenzija razlikuje klastere.

Kao primjer, razmotrite rezultate ankete 17 zaposlenih u jednom preduzeću o zadovoljstvu indikatorima kvaliteta njihove karijere. Tabela daje odgovore na anketna pitanja na skali od deset poena (1 je minimalni rezultat, 10 maksimalni).

Imena varijabli odgovaraju odgovorima na sljedeća pitanja:

  1. SLC – kombinacija ličnih i organizacionih ciljeva;
  2. OSO – osećaj pravičnosti u nagrađivanju;
  3. TBD - teritorijalna blizina kuće;
  4. OEB – osjećaj ekonomskog blagostanja;
  5. KR – rast karijere;
  6. JSR – želja za promjenom posla;
  7. RSD – osećaj društvenog blagostanja.


Koristeći ove podatke, potrebno je zaposlenike podijeliti u grupe i identificirati najefikasnije upravljačke poluge za svaku od njih. Istovremeno, razlike između grupa treba da budu očigledne, a unutar grupe ispitanici treba da budu što sličniji.

Danas većina socioloških istraživanja daje samo procenat glasova: prebrojava se glavni broj onih koji su odgovorili pozitivno, odnosno procenat onih koji su nezadovoljni, ali se ovo pitanje ne razmatra sistematski. Najčešće anketa ne pokazuje trend u situaciji.

Postupci klaster analize mogu se koristiti za identifikaciju, na osnovu podataka ankete, nekih stvarno postojećih odnosa između karakteristika i generisanje njihove tipologije na osnovu toga. Prisustvo bilo koje apriorne hipoteze sociologa pri radu sa procedurama klaster analize nije neophodan uslov.

U Statistici se klaster analiza izvodi na sljedeći način.

  1. Kreirajte datoteku sa podacima.
  2. Odaberite modul Statistika/ Multivarijabilne istraživačke tehnike/ Klaster analiza. Kliknite OK, što će rezultirati u dijaloškom okviru:

  3. U prozoru koji se pojavi odaberite metodu grupiranja K-means i kliknite na OK.
  4. U dijaloškom okviru koji se pojavi potrebno je postaviti sljedeće postavke:


    • Odaberite varijable pomoću dugmeta Varijable.
    • Odaberite objekte klasteriranja: to mogu biti varijable - stupci (Variables columns) ili zapažanja - redovi (Cases (Rows)). Prvo, hajde da se grupišemo po redovima (Case(rows)).
    • Odaberite broj klastera.
      Ovaj izbor korisnik vrši na osnovu vlastitih pretpostavki o broju grupa sličnih objekata.

      Prilikom odabira broja klastera vodite se sljedećim:

      1. Broj klastera, ako je moguće, ne bi trebao biti prevelik.
      2. Udaljenost na kojoj su objekti datog klastera spojeni bi, ako je moguće, trebala biti mnogo manja od udaljenosti na kojoj se nešto drugo pridruži ovom klasteru.
      Prilikom odabira broja klastera najčešće ih ima nekoliko istovremeno ispravne odluke. Zanima nas, na primjer, kako se uporede odgovori na anketna pitanja između običnih zaposlenika i menadžmenta preduzeća. Stoga biramo K=2. Za dalju segmentaciju, možete povećati broj klastera.
    • Zatim morate odabrati početnu podjelu objekata u klastere (Početni centri klastera). Paket Statistica nudi:
      1. izaberite opažanja sa maksimalnom udaljenosti između centara klastera;
      2. sortiranje udaljenosti i odabir opažanja u redovnim intervalima (podrazumevana postavka);
      3. uzmite prva opažanja kao centre i pričvrstite preostale objekte na njih.

      Prva opcija je pogodna za naše potrebe.

Mnogi algoritmi za grupisanje često „nametnu“ neprirodnu strukturu podacima i dezorijentišu istraživača. Stoga je imperativ primijeniti nekoliko algoritama klaster analize i na osnovu njih donijeti zaključke ukupna procjena rezultati algoritma

Rezultati analize se mogu pogledati u dijaloškom okviru koji se pojavljuje:

Ako odaberete karticu Graf srednjih vrijednosti, biće izgrađen graf koordinata centara klastera:


Svaka isprekidana linija u ovom grafikonu odgovara jednom od klastera:

  • Svaka podjela na horizontalnoj osi grafikona odgovara jednoj od varijabli uključenih u analizu.
  • Vertikalna os odgovara prosječnim vrijednostima varijabli za objekte uključene u svaki od klastera.

Može se primijetiti da postoje značajne razlike u odnosu dvije grupe ljudi prema svojim karijerama po gotovo svim pitanjima. Postoji potpuna jednoglasnost samo po jednom pitanju – osjećaju društvenog blagostanja (SSW), odnosno njegovom nedostatku (2,5 bodova od 10).

Može se pretpostaviti da:

  1. Klaster 1 prikazuje radnike,
  2. klaster 2 – liderstvo:
    • Menadžeri su zadovoljniji razvojem karijere (CG), kombinacijom ličnih i organizacionih ciljeva (CLO).
    • Oni imaju viši nivo percipirane ekonomske dobrobiti (SEW) i percipirane pravednosti u plaćama (SPE).
    • Oni su manje zabrinuti zbog teritorijalne blizine kuće (TPH) od radnika, vjerovatno zbog manjeg problema sa transportom.
    • Takođe, menadžeri imaju manje želje za promjenom posla (JSR).

Uprkos činjenici da su radnici podijeljeni u dvije kategorije, na većinu pitanja odgovaraju relativno podjednako. Drugim riječima, ako nešto ne odgovara opštoj grupi zaposlenih, isto ne odgovara višem menadžmentu i obrnuto.

Koordinacija rasporeda nam omogućava da izvučemo zaključke da se dobrobit jedne grupe odražava na dobrobit druge.

Klaster 1 nije zadovoljan teritorijalnom blizinom doma. Ova grupa je najveći deo radnika koji uglavnom dolaze u preduzeće iz različitih delova grada. Stoga je moguće predložiti glavnom menadžmentu da dio dobiti izdvoji za izgradnju stambenih objekata za zaposlene u kompaniji.

Postoje značajne razlike u stavu dvije grupe ljudi prema svojim karijerama:

  1. Oni zaposleni koji su zadovoljni svojim razvojem u karijeri, koji imaju visok nivo saglasnosti između svojih ličnih ciljeva i ciljeva organizacije, nemaju želju da promene posao i osećaju se zadovoljni rezultatima svog rada.
  2. Nasuprot tome, zaposleni koji žele da promene posao i koji su nezadovoljni rezultatima svog rada nisu zadovoljni navedenim pokazateljima.

Viši menadžment treba da obrati posebnu pažnju na trenutnu situaciju.

Rezultati analize varijanse za svaku karakteristiku se prikazuju klikom na dugme Analiza varijanse:

Izlazi:

  • zbir kvadrata odstupanja objekata od centara klastera (SS Within),
  • zbir kvadrata odstupanja između centara klastera (SS Between),
  • F-statističke vrijednosti,
  • nivoi značajnosti str.
Za naš primjer, nivoi značajnosti za dvije varijable su prilično veliki, što se objašnjava malim brojem zapažanja. U punoj verziji studije, koja se može naći u radu, hipoteza o jednakosti sredstava za klaster centre odbacuje se na nivoima značajnosti manjim od 0,01.

Dugme Sačuvaj klasifikacije i udaljenosti prikazuje brojeve objekata uključenih u svaki klaster i udaljenosti objekata do centra svakog klastera.

Sastav svakog klastera i udaljenost objekata od centra

U tabeli su prikazani brojevi posmatranja (CASE_NO), sastavni klasteri sa brojevima KLUSTERA i udaljenost od centra svakog klastera (DISTANCE).

Informacije o objektima koji pripadaju klasterima mogu se upisati u datoteku i koristiti u daljoj analizi. U ovom primjeru, poređenje rezultata dobijenih sa upitnicima pokazalo je da se klaster 1 sastoji uglavnom od običnih radnika, a klaster 2 od menadžera.

Dakle, može se primijetiti da se prilikom obrade rezultata ankete klaster analiza pokazala kao moćna metoda koja nam omogućava da izvučemo zaključke do kojih se ne može doći konstruiranjem histograma prosjeka ili izračunavanjem postotka ljudi zadovoljnih različitim pokazateljima. kvaliteta radnog života.

Grupiranje stabala je primjer hijerarhijskog algoritma, čiji je princip da se u klaster sekvencijalno kombinuju, prvo najbliži, a zatim sve udaljeniji elementi jedan od drugog. Većina ovih algoritama polazi od matrice sličnosti (udaljenosti), a svaki pojedinačni element se prvo smatra zasebnim klasterom.

Nakon učitavanja modula za analizu klastera i odabira Joining (stablo klastering), u prozoru za unos parametara klasteriranja možete promijeniti sljedeće parametre:

  1. Početni podaci (Input). Mogu biti u obliku matrice podataka koji se proučavaju (Raw data) i u obliku matrice udaljenosti (Distance matrix).
  2. Grupiranje zapažanja (Slučajevi (sirovi)) ili varijabli (Varijabla (kolone)) koje opisuju stanje objekta.
  3. Mjera udaljenosti. Ovdje možete birati između sljedećih mjera:
    • Euklidske udaljenosti,
    • Euklidske udaljenosti na kvadrat,
    • udaljenost gradskih blokova (udaljenost na Manhattanu, udaljenost od gradskog bloka (Manhattan)), metrika udaljenosti Čebičeva,
    • udaljenost snage (Power...;),
    • Procenat neslaganja.
  4. Metoda grupisanja (pravilo spajanja (povezivanja)).
    Ovdje su moguće sljedeće opcije:
    • pojedinačna veza (metoda najbližeg susjeda) (single Linkage),
    • puna veza(metoda najudaljenijih susjeda) (Potpuna veza),
    • neponderisani prosek grupe parova,
    • ponderisani prosjek grupe parova,
    • metoda neponderisanog centroida (neponderisani centar grupe parova),
    • ponderirana metoda centroida grupe parova (medijana),
    • Wardova metoda.

Kao rezultat grupiranja, konstruiše se horizontalni ili vertikalni dendrogram - graf na kojem se određuju udaljenosti između objekata i klastera kada se oni uzastopno kombinuju.

Struktura stabla grafa vam omogućava da definišete klastere u zavisnosti od izabranog praga - određene udaljenosti između klastera.

Osim toga, prikazuje se matrica udaljenosti između originalnih objekata (Matrica udaljenosti); prosječne i standardne devijacije za svaki izvorni objekt (Distiptive statistics). Za razmatrani primjer, izvršit ćemo klaster analizu varijabli sa zadanim postavkama. Rezultirajući dendrogram je prikazan na slici:


Vertikalna os dendrograma pokazuje udaljenosti između objekata i između objekata i klastera. Dakle, rastojanje između varijabli OEB i OSD je pet. U prvom koraku ove varijable se kombinuju u jedan klaster.

Horizontalni segmenti dendrograma se crtaju na nivoima koji odgovaraju vrijednostima graničnih udaljenosti odabranih za dati korak grupisanja.

Grafikon pokazuje da pitanje „želja za promjenom posla“ (WSW) čini poseban klaster. Općenito, želja da se ide bilo gdje posjećuje sve podjednako. Zatim, poseban klaster je pitanje teritorijalne blizine domu (TDP).

Po važnosti je na drugom mjestu, što potvrđuje zaključak o potrebi stambene izgradnje donesen na osnovu rezultata studije metodom K-srednje vrijednosti.

Percepcija ekonomskog blagostanja (SEW) i pravednosti plata (WFE) su kombinovani - ovo je blok ekonomskih pitanja. Karijera(KR) i kombinacija ličnih i organizacionih ciljeva (LOG) su takođe kombinovani.

Druge metode grupisanja, kao i izbor drugih tipova udaljenosti, ne dovode do značajnije promjene u dendrogramu.

rezultate

  1. Klaster analiza je moćan alat za istraživačku analizu podataka i statistička istraživanja u bilo kojoj predmetnoj oblasti.
  2. Program Statistica implementira i hijerarhijske i strukturne metode klaster analize. Prednosti ovog statističkog paketa proizlaze iz njihovih grafičkih mogućnosti. Dati su dvodimenzionalni i trodimenzionalni grafički prikazi nastalih klastera u prostoru proučavanih varijabli, kao i rezultati hijerarhijske procedure grupisanja objekata.
  3. Potrebno je primijeniti nekoliko algoritama klaster analize i izvući zaključke na osnovu ukupne procjene rezultata algoritama.
  4. Klaster analiza se može smatrati uspješnom ako se izvodi na različite načine, rezultati se porede i opšti obrasci, a pronađeni su stabilni klasteri bez obzira na metodu grupiranja.
  5. Klaster analiza nam omogućava da identifikujemo problematične situacije i naznačiti načine za njihovo rješavanje. Shodno tome, ova metoda neparametarske statistike može se smatrati sastavnim dijelom analize sistema.

Mnogi od nas su čuli frazu „klaster analiza“, ali ne razumiju svi šta to znači. Osim toga, zvuči više nego misteriozno! Zapravo, ovo je samo naziv metode podjele uzorka podataka u kategorije elemenata prema određenim kriterijima. Na primjer, klaster analiza vam omogućava da podijelite ljude u grupe sa visokim, srednjim i niskim samopoštovanjem. Jednostavno rečeno, klaster je vrsta objekata koji su slični na određeni način.

Klaster analiza: problemi u upotrebi

Nakon što ste odlučili da koristite ovu metodu u svom istraživanju, morate zapamtiti da klasteri identifikovani tokom studije mogu biti nestabilni. Stoga je, kao iu slučaju faktorske analize, potrebno provjeriti rezultate na drugoj grupi objekata ili nakon određenog vremenskog perioda izračunati grešku mjerenja. Štaviše, najbolje je koristiti klaster analizu na velikim uzorcima odabranim randomizacijom ili stratifikacijom, jer je to jedini način da se indukcijom izvede naučni zaključak. Najbolje se pokazao u testiranju hipoteza, umjesto da ih stvara od nule.

Hijerarhijska klaster analiza

Ako trebate brzo klasificirati nasumične elemente, možete započeti tretiranjem svakog od njih u početku kao zasebnog klastera. Ovo je suština jedne od najlakših vrsta klaster analize za razumijevanje. Koristeći ga, istraživač u drugoj fazi formira parove elemenata koji su slični u traženom atributu, a zatim ih povezuje potreban broj puta. Klasteri koji se nalaze na minimalnoj udaljenosti jedan od drugog određuju se integrativnim postupkom. Ovo se ponavlja sve dok se ne ispuni jedan od sljedećih kriterija:

  • dobijanje unapred planiranog broja klastera;
  • svaki od klastera sadrži potreban broj elemenata;
  • Svaka grupa ima potreban odnos heterogenosti i homogenosti unutar sebe.

Da bi se pravilno izračunala udaljenost između klastera, često se koriste sljedeće tehnike:

  • pojedinačna i potpuna veza;
  • Kingova prosečna veza;
  • centroid metoda;
  • prijem grupnih prosjeka.

Za evaluaciju rezultata grupiranja koriste se sljedeći kriteriji:

  • indeks jasnoće;
  • faktor particije;
  • obična, normalizovana i modifikovana entropija;
  • druga i treća Rubensova funkcionalnost.

Metode klaster analize

Najčešće se pri analizi uzorka objekata koristi metoda minimalne udaljenosti. Sastoji se od kombinovanja elemenata sa koeficijentom sličnosti koji je veći od vrednosti praga u klaster. Kada se koristi metoda lokalne udaljenosti, razlikuju se dva klastera: udaljenost između točaka prvog od njih je maksimalna, a druga minimalna. Centroidna metoda klasteriranja uključuje izračunavanje udaljenosti između prosječnih vrijednosti indikatora u grupama. A Word metoda se najracionalnije koristi za grupisanje klastera koji su slični po ispitivanom parametru.

Klaster analiza je

Dobar dan. Ja poštujem ljude koji su ljubitelji svog rada.

Maksim, moj prijatelj, pripada ovoj kategoriji. Konstantno radi sa brojevima, analizira ih i pravi odgovarajuće izvještaje.

Jučer smo zajedno ručali i skoro pola sata mi je pričao o klaster analizi – šta je to i u kojim slučajevima je njena upotreba opravdana i prikladna. Pa, šta sam ja?

Imam dobro pamćenje, pa ću vam sve ove podatke, inače, za koje sam već znao, dostaviti u originalnom i najinformativnijem obliku.

Klaster analiza je dizajnirana da podijeli skup objekata u homogene grupe (klastere ili klase). Ovo je problem višedimenzionalne klasifikacije podataka.

Postoji oko 100 različitih algoritama za grupisanje, ali najčešće se koriste hijerarhijska analiza klastera i k-means klasterizacija.

Gdje se koristi klaster analiza? U marketingu je to segmentacija konkurenata i potrošača.

U menadžmentu: podjela osoblja u grupe različitih nivoa motivacije, klasifikacija dobavljača, identificiranje sličnih proizvodnih situacija u kojima se javljaju nedostaci.

U medicini - klasifikacija simptoma, pacijenata, lijekova. U sociologiji je podjela ispitanika na homogene grupe. Zapravo, klaster analiza se dobro dokazala u svim sferama ljudskog života.

Ljepota ove metode je u tome što radi čak i kada ima malo podataka i kada nisu ispunjeni zahtjevi normalnosti distribucija slučajnih varijabli i drugi zahtjevi klasičnih metoda statističke analize.

Objasnimo suštinu klaster analize bez pribjegavanja strogoj terminologiji:
Recimo da ste sproveli anketu zaposlenih i želite da utvrdite kako najefikasnije upravljati osobljem.

Odnosno, želite podijeliti zaposlenike u grupe i istaknuti najefikasnije upravljačke poluge za svaku od njih. Istovremeno, razlike između grupa treba da budu očigledne, a unutar grupe ispitanici treba da budu što sličniji.

Za rješavanje problema predlaže se korištenje hijerarhijske klaster analize.

Kao rezultat, dobićemo stablo, gledajući u koje moramo odlučiti na koliko klasa (klastera) želimo podijeliti osoblje.

Pretpostavimo da smo odlučili podijeliti osoblje u tri grupe, pa ćemo za proučavanje ispitanika koji spadaju u svaki klaster dobiti tabelu otprilike sljedećeg sadržaja:


Objasnimo kako je formirana gornja tabela. Prva kolona sadrži broj klastera - grupe, za koju se podaci ogledaju u liniji.

Na primjer, prvi klaster je 80% muškaraca. 90% prvog klastera spada u starosnu kategoriju od 30 do 50 godina, a 12% ispitanika smatra da su beneficije veoma važne. I tako dalje.

Pokušajmo napraviti portrete ispitanika iz svakog klastera:

  1. Prvu grupu čine uglavnom zreli muškarci koji zauzimaju liderske pozicije. Ne zanima ih socijalni paket (MED, LGOTI, VRIJEME-slobodno vrijeme). Više vole da primaju dobru platu nego pomoć od poslodavca.
  2. Grupa dva, naprotiv, daje prednost socijalnom paketu. Sastoji se uglavnom od “starih” ljudi koji zauzimaju niske pozicije. Plata im je svakako bitna, ali tu su i drugi prioriteti.
  3. Treća grupa je „najmlađi“. Za razliku od prethodna dva, postoji očigledan interes za mogućnosti učenja i profesionalni razvoj. Ova kategorija zaposlenih ima dobre šanse da se uskoro pridruži prvoj grupi.

Dakle, pri planiranju kampanje za uvođenje efikasnih metoda upravljanja kadrovima, očigledno je da je u našoj situaciji moguće povećati socijalni paket druge grupe na štetu, na primjer, plata.

Ako govorimo o tome koje stručnjake treba poslati na obuku, svakako možemo preporučiti da obratite pažnju na treću grupu.

Izvor: http://www.nickart.spb.ru/analysis/cluster.php

Karakteristike klaster analize

Klaster je cijena sredstva tokom određenog vremenskog perioda tokom kojeg su izvršene transakcije. Rezultirajući obim kupovine i prodaje označen je brojem unutar klastera.

Traka bilo kojeg vremenskog okvira obično sadrži nekoliko klastera. Ovo vam omogućava da detaljno vidite obim kupovine, prodaje i njihov saldo u svakom pojedinačnom baru, na svakom nivou cijena.


Promjena cijene jednog sredstva neizbježno povlači lanac kretanja cijena u drugim instrumentima.

Pažnja!

U većini slučajeva, razumijevanje kretanja trenda javlja se već u trenutku kada se on ubrzano razvija, a ulazak na tržište duž trenda rizikuje da završi u korektivnom valu.

Za uspješne transakcije morate razumjeti trenutnu situaciju i moći predvidjeti buduća kretanja cijena. Ovo se može naučiti analizom klaster grafa.

Koristeći klaster analizu, možete vidjeti aktivnost učesnika na tržištu čak iu najmanjoj cjenovnoj liniji. Ovo je najpreciznija i najdetaljnija analiza, jer pokazuje tačku distribucije obima transakcija na svakom nivou cijene imovine.

Na tržištu postoji stalni sukob između interesa prodavača i kupaca. I svako najmanje kretanje cijene (kvačica) je pomak ka kompromisu – nivou cijena – koji trenutno odgovara objema stranama.

Ali tržište je dinamično, broj prodavača i kupaca se stalno mijenja. Ako su u jednom trenutku tržištem dominirali prodavci, onda će u sledećem trenutku najverovatnije biti kupaca.

Broj izvršenih transakcija na susednim nivoima cena takođe nije isti. Pa ipak, prvo se tržišna situacija ogleda u ukupnom obimu transakcija, a tek onda u cijeni.

Ako vidite akcije dominantnih učesnika na tržištu (prodavaca ili kupaca), onda možete predvidjeti samo kretanje cijene.

Da biste uspješno primijenili klaster analizu, prvo morate razumjeti što su klaster i delta.


Klaster je kretanje cijena koje je podijeljeno na nivoe na kojima su izvršene transakcije sa poznatim količinama. Delta prikazuje razliku između kupovine i prodaje u svakom klasteru.

Svaki klaster, ili grupa delta, omogućava vam da shvatite da li kupci ili prodavci dominiraju tržištem u datom trenutku.

Dovoljno je samo izračunati ukupnu deltu zbrajanjem prodaje i kupovine. Ako je delta negativna, onda je tržište preprodano i postoje suvišne transakcije prodaje. Kada je delta pozitivna, kupci jasno dominiraju tržištem.

Sama delta može imati normalnu ili kritičnu vrijednost. Vrijednost delta volumena iznad normalne u klasteru je označena crvenom bojom.

Ako je delta umjerena, onda to karakterizira ravno stanje na tržištu. Kod normalne delta vrijednosti, na tržištu se uočava kretanje trenda, ali kritična vrijednost je uvijek predznak preokreta cijene.

Forex trgovanje koristeći CA

Da biste postigli maksimalan profit, morate biti u mogućnosti da odredite prijelaz delte sa umjerenog nivoa na normalan. Zaista, u ovom slučaju možete primijetiti sam početak tranzicije sa ravnog na trend kretanja i moći ćete dobiti najveći profit.

Klaster grafikon je vizualniji; možete vidjeti značajne nivoe akumulacije i distribucije volumena, te izgraditi nivoe podrške i otpora. Ovo omogućava trgovcu da pronađe tačan ulaz u trgovinu.

Koristeći deltu, možete procijeniti prevlast prodaje ili kupovine na tržištu. Klaster analiza vam omogućava da posmatrate transakcije i pratite njihov obim unutar trake bilo kog TF-a.

Ovo je posebno važno kada se približavate značajnim nivoima podrške ili otpora. Klasterske prosudbe su ključ za razumijevanje tržišta.

Izvor: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Područja i karakteristike primjene klaster analize

Termin klaster analiza (prvi ga je skovao Tryon, 1939.) zapravo uključuje skup različitih klasifikacionih algoritama.

Uobičajeno pitanje koje postavljaju istraživači u mnogim oblastima je kako organizovati posmatrane podatke u vizuelne strukture, tj. proširiti taksonomije.

Prema modernom sistemu usvojenom u biologiji, ljudi pripadaju primatima, sisarima, amniotima, kralježnjacima i životinjama.

Imajte na umu da u ovoj klasifikaciji, što je viši nivo agregacije, to je manje sličnosti između članova odgovarajuće klase.

Ljudi imaju više sličnosti s drugim primatima (tj. majmunima) nego sa „udaljenim“ članovima porodice sisara (tj. psima) itd.

Imajte na umu da se prethodna diskusija odnosi na algoritme za grupisanje, ali ne spominje ništa o testiranju statističke značajnosti.

Zapravo, klaster analiza nije toliko obična statistička metoda koliko „skup“ različitih algoritama za „distribuciju objekata u klastere“.

Postoji stajalište da se, za razliku od mnogih drugih statističkih procedura, metode klaster analize koriste u većini slučajeva kada nemate nikakve apriorne hipoteze o klasama, ali ste još uvijek u deskriptivnoj fazi studije.

Pažnja!

Treba shvatiti da klaster analiza određuje “najvjerovatnije značajno rješenje”.

Stoga, testiranje statističke značajnosti ovdje nije stvarno primjenjivo, čak ni u slučajevima kada su p-nivoi poznati (kao u metodi K-means).

Tehnike grupisanja koriste se u raznim oblastima. Hartigan (1975) je dao odličan pregled mnogih objavljenih studija koje sadrže rezultate dobivene korištenjem metoda klaster analize.

Na primjer, u području medicine, grupiranje bolesti, tretmana bolesti ili simptoma bolesti dovodi do široko korištenih taksonomija.

U oblasti psihijatrije, pravilna dijagnoza klastera simptoma kao što su paranoja, šizofrenija itd. je ključna za uspješnu terapiju. U arheologiji, koristeći klaster analizu, istraživači pokušavaju uspostaviti taksonomije kamenog oruđa, pogrebnih predmeta itd.

Postoje široke primjene klaster analize u marketinškim istraživanjima. Općenito, kad god je potrebno klasificirati “gorove” informacija u grupe pogodne za dalju obradu, klaster analiza se pokazuje kao vrlo korisna i efikasna.

Grupiranje stabala

Primjer dat u odjeljku Glavna svrha objašnjava svrhu algoritma za grupisanje stabla.

Svrha ovog algoritma je grupirati objekte (kao što su životinje) u dovoljno velike klastere koristeći neku mjeru sličnosti ili udaljenosti između objekata. Tipičan rezultat takvog grupisanja je hijerarhijsko stablo.

Razmotrite horizontalni dijagram stabla. Dijagram počinje sa svakim objektom u klasi (na lijevoj strani dijagrama).

Sada zamislite da postepeno (u vrlo malim koracima) „opuštate“ svoj kriterij o tome koji su objekti jedinstveni, a koji nisu.

Drugim riječima, snižavate prag vezan za odluku o kombiniranju dva ili više objekata u jedan klaster.

Kao rezultat, povezujete sve više i više objekata zajedno i agregirate (kombinujete) sve više i više klastera koji se sastoje od sve više različitih elemenata.

Konačno, u posljednjem koraku, svi objekti se kombinuju zajedno. U ovim dijagramima, horizontalne ose predstavljaju udaljenost spajanja (u vertikalnim dijagramima stabla, vertikalne ose predstavljaju udaljenost spajanja).

Dakle, za svaki čvor u grafu (gdje se formira novi klaster), možete vidjeti vrijednost udaljenosti za koju su odgovarajući elementi povezani u novi pojedinačni klaster.

Kada podaci imaju jasnu "strukturu" u smislu klastera objekata koji su međusobno slični, tada će se ova struktura vjerovatno odražavati u hijerarhijskom stablu kroz različite grane.

Kao rezultat uspješne analize metodom spajanja, postaje moguće detektirati klastere (grane) i interpretirati ih.

Metoda ujedinjenja ili klastera stabla koristi se za formiranje klastera različitosti ili udaljenosti između objekata. Ove udaljenosti se mogu definirati u jednodimenzionalnom ili višedimenzionalnom prostoru.

Na primjer, ako biste grupirali vrste hrane u kafiću, mogli biste uzeti u obzir broj kalorija koje sadrži, cijenu, subjektivnu ocjenu ukusa itd.

Najdirektniji način za izračunavanje udaljenosti između objekata u višedimenzionalnom prostoru je izračunavanje euklidskih udaljenosti.

Ako imate dvodimenzionalni ili trodimenzionalni prostor, onda je ova mjera stvarna geometrijska udaljenost između objekata u prostoru (kao da su udaljenosti između objekata mjerene mjernom trakom).

Međutim, algoritam za udruživanje nije "briga" da li su udaljenosti "obezbeđene" za tu udaljenost stvarne ili neka druga izvedena mera udaljenosti, koja je značajnija za istraživača; a izazov za istraživače je odabrati pravu metodu za specifične primjene.

Euklidska udaljenost.Čini se da je ovo najčešći tip udaljenosti. To je jednostavno geometrijska udaljenost u višedimenzionalnom prostoru i izračunava se na sljedeći način:

Imajte na umu da se Euklidska udaljenost (i njen kvadrat) izračunavaju iz originalnih podataka, a ne standardiziranih podataka.

Ovo je uobičajen način za njegovo izračunavanje, koji ima određene prednosti (na primjer, udaljenost između dva objekta se ne mijenja kada se u analizu uvede novi objekt, koji može biti autlier).

Pažnja!

Međutim, na udaljenosti mogu u velikoj mjeri utjecati razlike između osa iz kojih se računaju udaljenosti. Na primjer, ako se jedna od osi mjeri u centimetrima, a zatim je pretvorite u milimetre (množenjem vrijednosti sa 10), tada će se promijeniti konačna euklidska udaljenost (ili kvadrat euklidske udaljenosti) izračunata iz koordinata uvelike, i kao rezultat toga, rezultati klaster analize mogu se znatno razlikovati od prethodnih.

Euklidska udaljenost na kvadrat. Ponekad ćete možda htjeti kvadrature standardne euklidske udaljenosti da biste dali veću težinu objektima koji su udaljeniji.

Ova udaljenost se izračunava na sljedeći način:

Udaljenost od gradskog bloka (udaljenost Manhattana). Ova udaljenost je jednostavno prosjek razlika u koordinatama.

U većini slučajeva, ova mjera udaljenosti daje iste rezultate kao i obična euklidska udaljenost.

Međutim, napominjemo da je za ovu mjeru smanjen utjecaj pojedinačnih velikih razlika (outliers) (pošto nisu na kvadrat). Udaljenost Manhattana se izračunava pomoću formule:

Chebyshev distance. Ova udaljenost može biti korisna kada se želi definirati dva objekta kao "različita" ako se razlikuju u bilo kojoj jednoj koordinati (u bilo kojoj jednoj dimenziji). Čebiševljeva udaljenost se izračunava pomoću formule:

Udaljenost snage. Ponekad se želi progresivno povećati ili smanjiti težinu povezanu s dimenzijom za koju su odgovarajući objekti vrlo različiti.

To se može postići korištenjem udaljenosti po stepenu. Udaljenost snage se izračunava pomoću formule:

gdje su r i p korisnički definirani parametri. Nekoliko primjera proračuna može pokazati kako ova mjera „funkcioniše“.

Parametar p je odgovoran za postepeno ponderisanje razlika duž pojedinačnih koordinata, parametar r je odgovoran za progresivno ponderisanje velikih udaljenosti između objekata. Ako su oba parametra r i p jednaka dva, tada se ta udaljenost poklapa s euklidskom udaljenosti.

Procenat neslaganja. Ova mjera se koristi kada su podaci kategorični. Ova udaljenost se izračunava po formuli:

Pravila povezivanja ili povezivanja

U prvom koraku, kada je svaki objekt zaseban klaster, udaljenosti između ovih objekata određuju se odabranom mjerom.

Međutim, kada je više objekata povezano, postavlja se pitanje kako odrediti udaljenosti između klastera?

Drugim riječima, za dva klastera potrebno je pravilo udruživanja ili povezivanja. Ovdje postoje različite mogućnosti: na primjer, možete povezati dva klastera zajedno kada su bilo koja dva objekta u dva klastera bliža jedan drugom od odgovarajuće udaljenosti veze.

Drugim riječima, koristite "pravilo najbližeg susjeda" da odredite udaljenost između klastera; ova metoda se naziva metodom jedne veze.

Ovo pravilo gradi "vlaknaste" klastere, tj. klasteri "povezani zajedno" samo pojedinačnim elementima koji su slučajno najbliži jedan drugom.

Alternativno, možete koristiti susjede u klasterima koji su najudaljeniji jedan od drugog od svih ostalih parova objekata. Ova metoda se zove metoda pune veze.

Postoje i mnoge druge metode za kombinovanje klastera slične onima o kojima se raspravlja.

Jedna veza (metoda najbližeg susjeda). Kao što je gore opisano, u ovoj metodi, udaljenost između dva klastera određena je rastojanjem između dva najbliža objekta (najbližih susjeda) u različitim klasterima.

Ovo pravilo mora, u određenom smislu, nizati objekte zajedno kako bi formirali klastere, a rezultirajući klasteri imaju tendenciju da budu predstavljeni dugim "lancima".

Puna veza (metoda najudaljenijih susjeda). U ovoj metodi, udaljenosti između klastera su određene najvećom udaljenosti između bilo koja dva objekta u različitim klasterima (tj. "najudaljenijim susjedima").

Neponderisani prosek u parovima. U ovoj metodi, udaljenost između dva različita klastera izračunava se kao prosječna udaljenost između svih parova objekata u njima.

Metoda je efikasna kada objekti zapravo formiraju različite "šume", ali jednako dobro radi u slučajevima proširenih ("lančanog" tipa) klastera.

Imajte na umu da u svojoj knjizi Sneath i Sokal (1973) uvode skraćenicu UPGMA koja označava ovu metodu kao metodu neponderisane grupe parova koristeći aritmetičke proseke.

Ponderisani prosjek u parovima. Metoda je identična metodi neponderisanog prosjeka u paru, osim što se veličina odgovarajućih klastera (tj. broj objekata koje sadrže) koristi kao težinski faktor u proračunima.

Stoga predloženu metodu treba koristiti (a ne prethodni) kada se pretpostavljaju nejednake veličine klastera.

Knjiga Sneatha i Sokala (1973) uvodi akronim WPGMA za označavanje ove metode kao metode ponderisane grupe parova koristeći aritmetičke prosjeke.

Neponderirana metoda centroida. U ovoj metodi, udaljenost između dva klastera se definira kao udaljenost između njihovih centara gravitacije.

Pažnja!

Sneath i Sokal (1973) koriste akronim UPGMC kako bi označili ovu metodu kao metodu neponderisane grupe parova koristeći prosjek centroida.

Metoda ponderisanog centroida (medijan). Ova metoda je identična prethodnoj, osim što se u proračunima koriste ponderi kako bi se uzela u obzir razlika između veličina klastera (tj. broj objekata u njima).

Stoga, ako postoje (ili se sumnja) značajne razlike u veličinama klastera, ova metoda je poželjnija od prethodne.

Sneath i Sokal (1973) su koristili skraćenicu WPGMC kako bi je nazvali metodom ponderisane grupe parova koristeći prosjek centroida.

Wardova metoda. Ova metoda se razlikuje od svih ostalih metoda jer koristi tehnike analize varijanse za procjenu udaljenosti između klastera.

Metoda minimizira zbir kvadrata (SS) za bilo koja dva (hipotetička) klastera koja se mogu formirati u svakom koraku.

Detalji se mogu naći u Ward (1963). Sve u svemu, čini se da je metoda vrlo učinkovita, ali ima tendenciju stvaranja malih klastera.

Ova metoda je ranije razmatrana u smislu "objekata" koje je potrebno grupirati. U svim drugim vrstama analize, pitanje od interesa za istraživača obično se izražava u vidu zapažanja ili varijabli.

Ispostavilo se da grupisanje, kako prema opservacijama tako i prema varijablama, može dovesti do prilično zanimljivih rezultata.

Na primjer, zamislite da medicinski istraživač prikuplja podatke o različitim karakteristikama (varijable) stanja (slučajeva) pacijenata koji pate od srčanih bolesti.

Istraživač bi možda želio grupirati opažanja (pacijente) kako bi identificirao grupe pacijenata sa sličnim simptomima.

U isto vrijeme, istraživač će možda htjeti grupirati varijable kako bi identificirao klastere varijabli koje su povezane sa sličnim fizičkim uvjetima.e

Nakon ove rasprave o tome da li grupirati opažanja ili varijable, moglo bi se zapitati, zašto ne grupirati u oba smjera?

Modul Cluster Analysis sadrži efikasnu dvosmjernu rutinu spajanja koja vam omogućava upravo to.

Međutim, dvosmjerno udruživanje se koristi (relativno rijetko) u okolnostima u kojima se očekuje da i zapažanja i varijable istovremeno doprinose otkrivanju smislenih klastera.

Dakle, vraćajući se na prethodni primjer, možemo pretpostaviti da medicinski istraživač treba da identifikuje klastere pacijenata koji su slični u odnosu na određene klastere karakteristika fizičkog stanja.

Poteškoće u tumačenju dobijenih rezultata proizlaze iz činjenice da sličnosti između različitih klastera mogu proizaći iz (ili biti uzrok) nekih razlika u podskupovima varijabli.

Stoga su rezultirajući klasteri heterogene prirode. Ovo u početku može izgledati malo maglovito; zapravo, u poređenju s drugim opisanim metodama klaster analize, dvosmjerno spajanje je vjerovatno najmanje korištena metoda.

Međutim, neki istraživači vjeruju da nudi moćno sredstvo za istraživačku analizu podataka (za više informacija pogledajte Hartiganov (1975) opis ove metode).

K znači metoda

Ova metoda grupiranja značajno se razlikuje od takvih aglomerativnih metoda kao što su Unija (klasterizacija stabala) i Dvosmjerna unija. Pretpostavimo da već imate hipoteze o broju klastera (na osnovu zapažanja ili varijabli).

Možete reći sistemu da formira tačno tri klastera tako da budu što je moguće više različiti.

To je upravo tip problema koji rješava K-means algoritam. Općenito, K-means metoda gradi tačno K različitih klastera koji se nalaze na najvećim mogućim udaljenostima jedan od drugog.

U primjeru fizičkog stanja, medicinski istraživač može imati "predosjećaj" iz svog kliničkog iskustva da njegovi pacijenti općenito spadaju u tri različite kategorije.

Pažnja!

Ako je to slučaj, onda će prosjeci različitih mjera fizičkih parametara za svaki klaster pružiti kvantitativni način predstavljanja hipoteza istraživača (npr. pacijenti u klasteru 1 imaju visok parametar 1, nizak parametar 2, itd.) .

Sa računske tačke gledišta, ovu metodu možete zamisliti kao obrnutu analizu varijanse. Program počinje s K nasumično odabranih klastera, a zatim mijenja članstvo objekata u njima tako da:

  1. minimizirati varijabilnost unutar klastera,
  2. maksimizirati varijabilnost između klastera.

Ova metoda je slična obrnutoj ANOVA-i po tome što test značajnosti u ANOVA-i uspoređuje varijabilnost između grupe i unutar grupe u testiranju hipoteze da se srednje vrijednosti grupe razlikuju jedna od druge.

U grupisanju K-sredstava, program premješta objekte (tj. opservacije) iz jedne grupe (klastera) u drugu kako bi se dobio najznačajniji rezultat prilikom provođenja analize varijanse (ANOVA).

Tipično, kada se dobiju rezultati analize klastera K-srednje vrednosti, mogu se izračunati srednje vrednosti za svaki klaster duž svake dimenzije kako bi se procenilo koliko se klasteri međusobno razlikuju.

U idealnom slučaju, trebalo bi da dobijete veoma različita sredstva za većinu, ako ne i za sva merenja koja se koriste u analizi.

Izvor: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Klasifikacija objekata prema njihovim karakteristikama

Klaster analiza je skup višedimenzionalnih statističkih metoda za klasifikaciju objekata prema karakteristikama koje ih karakterišu, podjelu skupa objekata u homogene grupe koje su slične u definiranju kriterija i identifikaciju objekata određene grupe.

Klaster je grupa objekata identifikovanih kao rezultat analize klastera na osnovu date mere sličnosti ili razlika između objekata.

Objekt – to su specifični objekti istraživanja koje je potrebno klasificirati. Objekti klasifikacije su, po pravilu, zapažanja. Na primjer, potrošači proizvoda, zemlje ili regije, proizvodi itd.

Iako je moguće provesti klaster analizu po varijablama. Klasifikacija objekata u multidimenzionalnoj klaster analizi odvija se prema više kriterijuma istovremeno.

To mogu biti ili kvantitativne ili kategoričke varijable, ovisno o metodi klaster analize. Dakle, glavni cilj klaster analize je pronaći grupe sličnih objekata u uzorku.

Skup multivarijatnih statističkih metoda klasterske analize može se podijeliti na hijerarhijske metode (aglomerativne i razdjelne) i nehijerarhijske (metoda k-srednjih vrijednosti, dvostepena klasterska analiza).

Međutim, ne postoji opšteprihvaćena klasifikacija metoda, a metode klaster analize ponekad uključuju i metode za konstruisanje stabala odlučivanja, neuronske mreže, diskriminantnu analizu i logističku regresiju.

Opseg upotrebe klaster analize, zbog svoje svestranosti, veoma je širok. Klaster analiza se koristi u ekonomiji, marketingu, arheologiji, medicini, psihologiji, hemiji, biologiji, javnoj upravi, filologiji, antropologiji, sociologiji i drugim oblastima.

Evo nekoliko primjera korištenja klaster analize:

  • medicina – klasifikacija bolesti, njihovi simptomi, metode liječenja, klasifikacija grupa pacijenata;
  • marketing – zadaci optimizacije proizvodne linije kompanije, segmentiranje tržišta po grupama robe ili potrošača, identifikacija potencijalnih potrošača;
  • sociologija – podjela ispitanika u homogene grupe;
  • psihijatrija – tačna dijagnoza grupa simptoma je odlučujuća za uspješnu terapiju;
  • biologija - klasifikacija organizama po grupama;
  • ekonomija – klasifikacija subjekata Ruske Federacije prema investicionoj atraktivnosti.

Izvor: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Razumijevanje klaster analize

Klaster analiza uključuje skup različitih klasifikacionih algoritama. Uobičajeno pitanje koje postavljaju istraživači u mnogim oblastima je kako organizirati promatrane podatke u vizualne strukture.

Na primjer, biolozi imaju za cilj klasificirati životinje u različite vrste kako bi smisleno opisali razlike među njima.

Zadatak klaster analize je podijeliti početni skup objekata u grupe sličnih objekata koji su bliski jedan drugom. Ove grupe se nazivaju klasteri.

Drugim riječima, klaster analiza je jedan od načina klasifikacije objekata prema njihovim karakteristikama. Poželjno je da rezultati klasifikacije imaju smislenu interpretaciju.

Rezultati dobijeni metodama klaster analize koriste se u raznim oblastima. U marketingu je to segmentacija konkurenata i potrošača.

U psihijatriji je tačna dijagnoza simptoma kao što su paranoja, šizofrenija itd. presudna za uspješnu terapiju.

U menadžmentu je važno klasifikovati dobavljače i identifikovati slične proizvodne situacije u kojima se javljaju nedostaci. U sociologiji je podjela ispitanika na homogene grupe. U portfolio ulaganju, važno je grupirati hartije od vrijednosti prema sličnosti u trendovima profitabilnosti kako bi se, na osnovu informacija dobijenih o berzi, stvorio optimalan investicijski portfolio koji vam omogućava da maksimizirate povrat ulaganja uz dat stepen rizika.

Generalno, kad god je potrebno klasifikovati veliku količinu informacija ove vrste i predstaviti ih u obliku pogodnom za dalju obradu, klaster analiza se pokazuje kao veoma korisna i efikasna.

Klaster analiza vam omogućava da uzmete u obzir prilično veliku količinu informacija i uvelike komprimirate velike količine socio-ekonomskih informacija, čineći ih kompaktnim i vizualnim.

Pažnja!

Klaster analiza je od velikog značaja u odnosu na skupove vremenskih serija koje karakterišu ekonomski razvoj (na primer, opšti ekonomski i robni uslovi).

Ovdje možete istaknuti periode kada su vrijednosti odgovarajućih indikatora bile prilično bliske, a također možete odrediti grupe vremenskih serija čija je dinamika najsličnija.

U zadacima socio-ekonomskog predviđanja, kombinacija klaster analize sa drugim kvantitativnim metodama (na primjer, regresionom analizom) je vrlo obećavajuća.

Prednosti i nedostaci

Klaster analiza omogućava objektivnu klasifikaciju svih objekata koji se odlikuju nizom karakteristika. Postoji niz prednosti koje se mogu izvući iz ovoga:

  1. Dobijeni klasteri se mogu interpretirati, odnosno mogu opisati koje grupe zapravo postoje.
  2. Pojedinačni klasteri se mogu odbaciti. Ovo je korisno u slučajevima kada su napravljene određene greške prilikom prikupljanja podataka, zbog čega vrijednosti indikatora za pojedinačne objekte naglo odstupaju. Prilikom primjene klaster analize, takvi objekti spadaju u poseban klaster.
  3. Za dalju analizu mogu se odabrati samo oni klasteri koji imaju karakteristike od interesa.

Kao i svaka druga metoda, klaster analiza ima određene nedostatke i ograničenja. Konkretno, sastav i broj klastera ovisi o odabranim kriterijima particije.

Kada se izvorni niz podataka svede na kompaktniji oblik, mogu nastati određena izobličenja, a pojedinačne karakteristike pojedinačnih objekata mogu se izgubiti zbog njihove zamjene karakteristikama generaliziranih vrijednosti parametara klastera.

Metode

Trenutno je poznato više od stotinu različitih algoritama za grupisanje. Njihova raznolikost se objašnjava ne samo različitim računskim metodama, već i različitim konceptima koji su u osnovi klasteriranja.

Sljedeće metode klasteriranja implementirane su u paketu Statistica.

  • Hijerarhijski algoritmi - grupiranje stabala. Hijerarhijski algoritmi su zasnovani na ideji sekvencijalnog grupisanja. U početnom koraku, svaki objekat se smatra zasebnim klasterom. U sljedećem koraku, neki od klastera koji su najbliži jedan drugom će se kombinirati u poseban klaster.
  • K-means metoda. Ova metoda se najčešće koristi. Spada u grupu tzv. referentnih metoda klaster analize. Broj klastera K određuje korisnik.
  • Kombinacija dva ulaza. Kada se koristi ova metoda, grupisanje se vrši istovremeno i po varijablama (kolone) i po opservacijama (redovi).

Dvosmjerna procedura udruživanja koristi se u slučajevima kada se može očekivati ​​da će istovremeno grupisanje između varijabli i opservacija proizvesti značajne rezultate.

Rezultati postupka su deskriptivna statistika za varijable i zapažanja, kao i dvodimenzionalni dijagram boja u kojem su vrijednosti podataka označene bojama.

Na osnovu distribucije boja, možete dobiti ideju o homogenim grupama.

Normalizacija varijabli

Podjela početnog skupa objekata u klastere uključuje izračunavanje udaljenosti između objekata i odabir objekata čija je udaljenost najmanja od svih mogućih.

Najčešće korištena je Euklidska (geometrijska) udaljenost koja nam je svima poznata. Ova metrika odgovara intuitivnim idejama o blizini objekata u prostoru (kao da su udaljenosti između objekata mjerene mjernom trakom).

Ali za datu metriku, na udaljenost između objekata mogu uvelike utjecati promjene skala (mjernih jedinica). Na primjer, ako se jedna od karakteristika izmjeri u milimetrima, a zatim se njena vrijednost pretvori u centimetre, euklidska udaljenost između objekata će se jako promijeniti. To će dovesti do činjenice da se rezultati klaster analize mogu značajno razlikovati od prethodnih.

Ako se varijable mjere u različitim mjernim jedinicama, tada je potrebna njihova preliminarna normalizacija, odnosno transformacija izvornih podataka koja ih pretvara u bezdimenzionalne veličine.

Normalizacija uvelike iskrivljuje geometriju originalnog prostora, što može promijeniti rezultate grupiranja

U paketu Statistica normalizacija bilo koje varijable x se izvodi pomoću formule:

Da biste to uradili, kliknite desnim tasterom miša na naziv varijable i izaberite redosled naredbi u meniju koji se otvori: Popuni/ Standardiziraj blok/ Standardiziraj kolone. Vrijednosti normalizirane varijable će postati jednake nuli, a varijansa će postati jednaka jedan.

K-means metoda u programu Statistica

Metoda K-means dijeli skup objekata na određeni broj K različitih klastera koji se nalaze na najvećoj mogućoj udaljenosti jedan od drugog.

Tipično, kada se dobiju rezultati analize klastera K-srednje vrednosti, mogu se izračunati srednje vrednosti za svaki klaster duž svake dimenzije kako bi se procenilo koliko se klasteri međusobno razlikuju.

U idealnom slučaju, trebalo bi da dobijete veoma različita sredstva za većinu merenja koja se koriste u analizi.

Vrijednosti F-statistike dobivene za svaku dimenziju su još jedan pokazatelj koliko dobro odgovarajuća dimenzija razlikuje klastere.

Kao primjer, razmotrite rezultate ankete 17 zaposlenih u jednom preduzeću o zadovoljstvu indikatorima kvaliteta njihove karijere. Tabela daje odgovore na anketna pitanja na skali od deset poena (1 je minimalni rezultat, 10 maksimalni).

Imena varijabli odgovaraju odgovorima na sljedeća pitanja:

  1. SLC – kombinacija ličnih i organizacionih ciljeva;
  2. OSO – osećaj pravičnosti u nagrađivanju;
  3. TBD - teritorijalna blizina kuće;
  4. OEB – osjećaj ekonomskog blagostanja;
  5. KR – rast karijere;
  6. JSR – želja za promjenom posla;
  7. RSD – osećaj društvenog blagostanja.

Koristeći ove podatke, potrebno je zaposlenike podijeliti u grupe i identificirati najefikasnije upravljačke poluge za svaku od njih.

Istovremeno, razlike između grupa treba da budu očigledne, a unutar grupe ispitanici treba da budu što sličniji.

Danas većina socioloških istraživanja daje samo procenat glasova: broji se najveći broj onih koji su odgovorili pozitivno, odnosno procenat onih koji su bili nezadovoljni, ali se ovo pitanje ne razmatra sistematski.

Najčešće anketa ne pokazuje trend u situaciji. U nekim slučajevima potrebno je brojati ne broj ljudi koji su „za“ ili „protiv“, već udaljenost, odnosno mjeru sličnosti, odnosno odrediti grupe ljudi koji razmišljaju približno na isti način.

Postupci klaster analize mogu se koristiti za identifikaciju, na osnovu podataka ankete, nekih stvarno postojećih odnosa između karakteristika i generisanje njihove tipologije na osnovu toga.

Pažnja!

Prisustvo bilo koje apriorne hipoteze sociologa pri radu sa procedurama klaster analize nije neophodan uslov.

U Statistici se klaster analiza izvodi na sljedeći način.

Prilikom odabira broja klastera vodite se sljedećim: broj klastera, ako je moguće, ne smije biti prevelik.

Udaljenost na kojoj su se objekti datog klastera ujedinili bi, ako je moguće, trebala biti mnogo manja od udaljenosti na kojoj se nešto drugo pridruži ovom klasteru.

Prilikom odabira broja klastera najčešće postoji nekoliko ispravnih rješenja u isto vrijeme.

Zanima nas, na primjer, kako se uporede odgovori na anketna pitanja između običnih zaposlenika i menadžmenta preduzeća. Stoga biramo K=2. Za dalju segmentaciju, možete povećati broj klastera.

  1. izaberite opažanja sa maksimalnom udaljenosti između centara klastera;
  2. sortiranje udaljenosti i odabir opažanja u redovnim intervalima (podrazumevana postavka);
  3. uzmite prva opažanja kao centre i pričvrstite preostale objekte na njih.

Za naše potrebe, opcija 1) je prikladna.

Mnogi algoritmi za grupisanje često „nametnu“ neprirodnu strukturu podacima i dezorijentišu istraživača. Stoga je izuzetno neophodno primijeniti nekoliko algoritama klaster analize i izvući zaključke na osnovu ukupne procjene rezultata algoritama.

Rezultati analize se mogu pogledati u dijaloškom okviru koji se pojavljuje:

Ako odaberete karticu Graf srednjih vrijednosti, biće izgrađen graf koordinata centara klastera:


Svaka isprekidana linija na ovom grafikonu odgovara jednom od klastera. Svaka podjela na horizontalnoj osi grafikona odgovara jednoj od varijabli uključenih u analizu.

Vertikalna os odgovara prosječnim vrijednostima varijabli za objekte uključene u svaki od klastera.

Može se primijetiti da postoje značajne razlike u odnosu dvije grupe ljudi prema svojim karijerama po gotovo svim pitanjima. Postoji potpuna jednoglasnost samo po jednom pitanju – osjećaju društvenog blagostanja (SSW), odnosno njegovom nedostatku (2,5 bodova od 10).

Možemo pretpostaviti da klaster 1 predstavlja radnike, a klaster 2 menadžment. Menadžeri su zadovoljniji razvojem karijere (CG), kombinacijom ličnih i organizacionih ciljeva (CLO).

Oni imaju viši nivo percipirane ekonomske dobrobiti (SEW) i percipirane pravednosti u plaćama (SPE).

Oni su manje zabrinuti zbog teritorijalne blizine kuće (TPH) od radnika, vjerovatno zbog manjeg problema sa transportom. Takođe, menadžeri imaju manje želje za promjenom posla (JSR).

Uprkos činjenici da su radnici podijeljeni u dvije kategorije, na većinu pitanja odgovaraju relativno podjednako. Drugim riječima, ako nešto ne odgovara opštoj grupi zaposlenih, isto ne odgovara višem menadžmentu i obrnuto.

Koordinacija rasporeda nam omogućava da izvučemo zaključke da se dobrobit jedne grupe odražava na dobrobit druge.

Klaster 1 nije zadovoljan teritorijalnom blizinom doma. Ova grupa je najveći deo radnika koji uglavnom dolaze u preduzeće iz različitih delova grada.

Stoga je moguće predložiti glavnom menadžmentu da dio dobiti izdvoji za izgradnju stambenih objekata za zaposlene u kompaniji.

Postoje značajne razlike u odnosu dvije grupe ljudi prema svojim karijerama. Oni zaposleni koji su zadovoljni svojim razvojem u karijeri, koji imaju visok nivo saglasnosti između svojih ličnih ciljeva i ciljeva organizacije, nemaju želju da promene posao i osećaju se zadovoljni rezultatima svog rada.

Nasuprot tome, zaposleni koji žele da promene posao i koji su nezadovoljni rezultatima svog rada nisu zadovoljni navedenim pokazateljima. Viši menadžment treba da obrati posebnu pažnju na trenutnu situaciju.

Rezultati analize varijanse za svaku karakteristiku se prikazuju klikom na dugme Analiza varijanse.

Prikazuju se zbir kvadrata odstupanja objekata od centara klastera (SS Within) i zbir kvadrata odstupanja između centara klastera (SS Between), F-statističke vrijednosti i p nivoa značajnosti.

Pažnja!

Za naš primjer, nivoi značajnosti za dvije varijable su prilično veliki, što se objašnjava malim brojem zapažanja. U punoj verziji studije, koja se može naći u radu, hipoteza o jednakosti sredstava za klaster centre odbacuje se na nivoima značajnosti manjim od 0,01.

Dugme Sačuvaj klasifikacije i udaljenosti prikazuje brojeve objekata uključenih u svaki klaster i udaljenosti objekata do centra svakog klastera.

U tabeli su prikazani brojevi posmatranja (CASE_NO), sastavni klasteri sa brojevima KLUSTERA i udaljenost od centra svakog klastera (DISTANCE).

Informacije o objektima koji pripadaju klasterima mogu se upisati u datoteku i koristiti u daljoj analizi. U ovom primjeru, poređenje rezultata dobijenih sa upitnicima pokazalo je da se klaster 1 sastoji uglavnom od običnih radnika, a klaster 2 od menadžera.

Dakle, može se primijetiti da se prilikom obrade rezultata ankete klaster analiza pokazala kao moćna metoda koja nam omogućava da izvučemo zaključke do kojih se ne može doći konstruiranjem histograma prosjeka ili izračunavanjem postotka ljudi zadovoljnih različitim pokazateljima. kvaliteta radnog života.

Grupiranje stabala je primjer hijerarhijskog algoritma, čiji je princip da se u klaster sekvencijalno kombinuju, prvo najbliži, a zatim sve udaljeniji elementi jedan od drugog.

Većina ovih algoritama polazi od matrice sličnosti (udaljenosti), a svaki pojedinačni element se prvo smatra zasebnim klasterom.

Nakon učitavanja modula za analizu klastera i odabira Joining (stablo klastering), u prozoru za unos parametara klasteriranja možete promijeniti sljedeće parametre:

  • Početni podaci (Input). Mogu biti u obliku matrice podataka koji se proučavaju (Raw data) i u obliku matrice udaljenosti (Distance matrix).
  • Grupiranje zapažanja (Slučajevi (sirovi)) ili varijabli (Varijabla (kolone)) koje opisuju stanje objekta.
  • Mjera udaljenosti. Ovdje možete odabrati sljedeće mjere: Euklidske udaljenosti, Euklidske udaljenosti na kvadrat, udaljenost gradskog bloka (Menhetn), metriku Čebičevljeve udaljenosti, Udaljenost snage ...), Procenat neslaganja.
  • Metoda grupisanja (pravilo spajanja (povezivanja)). Ovdje su moguće sljedeće opcije: Pojedinačna veza, Potpuna veza, Neponderisani prosjek grupe parova, Ponderirani prosjek grupe parova, neponderirani centar grupe parova, ponderirani centar grupe parova (medijan), Wardova metoda.

Kao rezultat grupiranja, konstruiše se horizontalni ili vertikalni dendrogram - graf na kojem se određuju udaljenosti između objekata i klastera kada se oni uzastopno kombinuju.

Struktura stabla grafa vam omogućava da definišete klastere u zavisnosti od izabranog praga - određene udaljenosti između klastera.

Osim toga, prikazuje se matrica udaljenosti između originalnih objekata (Matrica udaljenosti); prosječne i standardne devijacije za svaki izvorni objekt (Distiptive statistics).

Za razmatrani primjer, izvršit ćemo klaster analizu varijabli sa zadanim postavkama. Rezultirajući dendrogram je prikazan na slici.


Vertikalna os dendrograma pokazuje udaljenosti između objekata i između objekata i klastera. Dakle, rastojanje između varijabli OEB i OSD je pet. U prvom koraku ove varijable se kombinuju u jedan klaster.

Horizontalni segmenti dendrograma se crtaju na nivoima koji odgovaraju vrijednostima graničnih udaljenosti odabranih za dati korak grupisanja.

Grafikon pokazuje da pitanje „želja za promjenom posla“ (WSW) čini poseban klaster. Općenito, želja da se ide bilo gdje posjećuje sve podjednako. Zatim, poseban klaster je pitanje teritorijalne blizine domu (TDP).

Po važnosti je na drugom mjestu, što potvrđuje zaključak o potrebi stambene izgradnje donesen na osnovu rezultata studije metodom K-srednje vrijednosti.

Percepcija ekonomskog blagostanja (SEW) i pravednosti plata (WFE) su kombinovani - ovo je blok ekonomskih pitanja. Razvoj karijere (CR) i kombinacija ličnih i organizacionih ciljeva (LOG) su takođe kombinovani.

Druge metode grupisanja, kao i izbor drugih tipova udaljenosti, ne dovode do značajnije promjene u dendrogramu.

Rezultati:

  1. Klaster analiza je moćan alat za istraživačku analizu podataka i statistička istraživanja u bilo kojoj predmetnoj oblasti.
  2. Program Statistica implementira i hijerarhijske i strukturne metode klaster analize. Prednosti ovog statističkog paketa proizlaze iz njihovih grafičkih mogućnosti. Dati su dvodimenzionalni i trodimenzionalni grafički prikazi nastalih klastera u prostoru proučavanih varijabli, kao i rezultati hijerarhijske procedure grupisanja objekata.
  3. Potrebno je primijeniti nekoliko algoritama klaster analize i izvući zaključke na osnovu ukupne procjene rezultata algoritama.
  4. Klaster analiza se može smatrati uspješnom ako se izvodi na različite načine, ako se uporede rezultati i pronađu opći obrasci, te se pronađu stabilni klasteri bez obzira na metodu klasteriranja.
  5. Klaster analiza vam omogućava da identifikujete problematične situacije i odredite načine za njihovo rešavanje. Shodno tome, ova metoda neparametarske statistike može se smatrati sastavnim dijelom analize sistema.

Grupiranje zadataka u Data Miningu

Uvod u klaster analizu

Iz čitavog širokog spektra primjena klaster analize, na primjer, problemi socio-ekonomskog predviđanja.

Prilikom analize i predviđanja društveno-ekonomskih pojava, istraživač se vrlo često susreće sa višedimenzionalnošću njihovog opisa. To se dešava prilikom rješavanja problema segmentacije tržišta, građenja tipologije zemalja prema dovoljnim veliki broj indikatore, predviđanje tržišnih uslova za pojedinačna dobra, proučavanje i predviđanje ekonomske depresije i mnoge druge probleme.

Metode multivarijantne analize su najefikasnije kvantitativno sredstvo za proučavanje socio-ekonomskih procesa opisanih velikim brojem karakteristika. To uključuje klaster analizu, taksonomiju, prepoznavanje obrazaca i faktorsku analizu.

Klaster analiza najjasnije odražava karakteristike multivarijantne analize u klasifikaciji, faktorske analize - u proučavanju odnosa.

Ponekad se pristup klaster analize u literaturi naziva numerička taksonomija, numerička klasifikacija, samoučenje, prepoznavanje itd.

Klaster analiza je svoju prvu primjenu našla u sociologiji. Naziv klaster analiza dolazi od engleske riječi cluster - gomila, akumulacija. Prvi put 1939. godine, predmet klaster analize definisao je i opisao istraživač Trion. Osnovna svrha klaster analize je podijeliti skup objekata i karakteristika koje se proučavaju u grupe ili klastere koji su u odgovarajućem smislu homogeni. To znači da se rješava problem klasifikacije podataka i identifikacije odgovarajuće strukture u njima. Metode klaster analize mogu se koristiti u najrazličitijim slučajevima, čak iu slučajevima kada je riječ o jednostavnom grupisanju, u kojem se sve svodi na formiranje grupa na osnovu kvantitativne sličnosti.

Velika prednost klaster analize je da vam omogućava da podijelite objekte ne prema jednom parametru, već prema cijelom skupu karakteristika. Osim toga, klaster analiza, za razliku od većine matematičkih i statističkih metoda, ne nameće nikakva ograničenja na vrstu objekata koji se razmatraju i omogućava razmatranje raznih početnih podataka gotovo proizvoljne prirode. Ovo je od velike važnosti, na primjer, za predviđanje tržišne situacije, kada indikatori imaju raznoliku formu, što otežava korištenje tradicionalnih ekonometrijskih pristupa.

Klaster analiza vam omogućava da uzmete u obzir prilično veliku količinu informacija i dramatično smanjite i komprimirate velike količine socio-ekonomskih informacija, čineći ih kompaktnim i vizualnim.

Klaster analiza je važna u odnosu na skupove vremenskih serija koje karakterišu ekonomski razvoj (na primjer, opšti ekonomski i robni uslovi). Ovdje možete istaknuti periode kada su vrijednosti odgovarajućih indikatora bile prilično bliske, a također možete odrediti grupe vremenskih serija čija je dinamika najsličnija.

Klaster analiza se može koristiti iterativno. U ovom slučaju, istraživanje se provodi dok se ne postignu potrebni rezultati. Štaviše, svaki ciklus ovdje može pružiti informacije koje mogu uvelike promijeniti smjer i pristupe daljoj primjeni klaster analize. Ovaj proces se može predstaviti kao sistem povratnih informacija.

U zadacima socio-ekonomskog predviđanja, kombinacija klaster analize sa drugim kvantitativnim metodama (na primjer, regresionom analizom) je vrlo obećavajuća.

Kao i svaka druga metoda , klaster analiza ima određene nedostatke i ograničenja: Konkretno, broj klastera ovisi o odabranim kriterijima particije. Kada se izvorni niz podataka svede na kompaktniji oblik, može doći do određenih izobličenja, a pojedinačne karakteristike pojedinačnih objekata mogu se izgubiti zbog zamjene njihovih karakteristika generaliziranim vrijednostima parametara klastera. Prilikom klasifikacije objekata često se zanemaruje mogućnost nepostojanja vrijednosti klastera u razmatranom skupu.

U klaster analizi se smatra da:

a) odabrane karakteristike omogućavaju, u principu, željenu podelu na klastere;

b) mjerne jedinice (skala) su pravilno odabrane.

Izbor skale igra veliku ulogu. Tipično, podaci se normaliziraju oduzimanjem srednje vrijednosti i dijeljenjem sa standardnom devijacijom tako da je varijansa jednaka jedan.

1. Problem grupisanja

Zadatak grupisanja je da se, na osnovu podataka sadržanih u skupu X, podijelite mnoge objekte G on m (m– cijeli) klasteri (podskupovi) P 1Q 2 , …,Qm, tako da svaki objekt Gj pripadao jednom i samo jednom podskupu particije i da su objekti koji pripadaju istom klasteru bili slični, dok su objekti koji pripadaju različitim klasterima bili različiti.

Na primjer, neka G uključuje n zemalja, od kojih se svaka karakteriše BDP po glavi stanovnika ( F 1), broj M automobila na hiljadu stanovnika ( F 2), potrošnja električne energije po stanovniku ( F 3), potrošnja čelika po glavi stanovnika ( F 4) itd. Onda X 1(vektor mjerenja) je skup specificiranih karakteristika za prvu zemlju, X 2- za drugi, X 3 za treće itd. Cilj je kategorizirati zemlje prema stepenu razvoja.

Rješenje problema klaster analize su particije koje zadovoljavaju neki kriterij optimalnosti. Ovaj kriterijum može biti neka vrsta funkcionalne koja izražava nivoe poželjnosti različitih particija i grupisanja, što se naziva funkcija cilja. Na primjer, zbir kvadrata odstupanja unutar grupe može se uzeti kao ciljna funkcija:

Gdje x j- predstavlja mjere j-th objekt.

Za rješavanje problema klaster analize potrebno je definirati pojam sličnosti i heterogenosti.

Jasno je da objekti i -th i j-th bi spadao u jedan klaster kada je udaljenost (udaljenost) između tačaka X i I X j bio bi dovoljno mali i padao bi u različite klastere kada bi ova udaljenost bila dovoljno velika. Dakle, upadanje u jednu ili različite grupe objekata je određeno konceptom udaljenosti između X i I X j od Er, Gdje Er - R-dimenzionalni euklidski prostor. Nenegativna funkcija d(X i, X j) naziva se funkcija udaljenosti (metrika) ako:

A) d(Xi, X j)³ 0 , za sve X i I X j od Er

b) d(Xi, X j) = 0, ako i samo ako X i= X j

V) d(Xi , X j) = d(X j, X i)

G) d(Xi, X j)£ d(Xi, X k) + d(X k, X j), gdje je X j; Xi i X k- bilo koja tri vektora iz Er.

Značenje d(Xi, X j) Za Xi I X j se naziva rastojanje između Xi I X j i ekvivalentna je udaljenosti između Gi I Gj prema odabranim karakteristikama (F 1, F 2, F 3, ..., F p).

Najčešće korištene funkcije udaljenosti su:

1. Euklidska udaljenost d 2 (Xi , X j) =

2. l 1- norma d 1 (Xi , X j) =

3. Supremum je norma d ¥ (Xi , X j) = sup

k = 1, 2, ..., str

4. l str- norma d p ​​(Xi , X j) =

Euklidska metrika je najpopularnija. l 1 metriku je najlakše izračunati. Supremum norma se lako izračunava i uključuje proceduru naručivanja, a l p- norma pokriva funkcije udaljenosti 1, 2, 3,.

Neka je n dimenzija X 1, X 2,..., Xn predstavljen kao matrica podataka veličine str´ n:

Zatim udaljenost između parova vektora d(X i, X j) može se predstaviti kao simetrična matrica udaljenosti:

Koncept suprotan udaljenosti je koncept sličnosti između objekata G i . I Gj. Nenegativna realna funkcija S(X i; X j) = S i j naziva se mjera sličnosti ako:

1) 0 £ S(X i, X j)< 1 za X i ¹ X j

2) S( Xi, Xi) = 1

3) S( Xi, Xj) = S(Xj, X i )

Parovi vrijednosti mjere sličnosti mogu se kombinirati u matricu sličnosti:

Veličina Sij nazvan koeficijent sličnosti.

2. Metode grupisanja

Danas postoji dosta metoda klaster analize. Pogledajmo neke od njih (metode navedene u nastavku se obično nazivaju metodama minimalne varijance).

Neka X- matrica posmatranja: X = (X 1, X 2,..., X u) i kvadrat euklidske udaljenosti između X i I X j određena formulom:

1) Metoda potpune veze.

Suština ove metode je da dva objekta koji pripadaju istoj grupi (klasteru) imaju koeficijent sličnosti koji je manji od određene granične vrijednosti S. U smislu Euklidske udaljenosti d to znači da rastojanje između dve tačke (objekta) klastera ne bi trebalo da prelazi određenu vrednost pragah. dakle, hdefinira maksimalni dozvoljeni promjer podskupa koji formira klaster.

2) Metoda maksimalne lokalne udaljenosti.

Svaki objekat se tretira kao klaster jedne tačke. Objekti se grupišu prema sljedećem pravilu: dva klastera se kombinuju ako je maksimalna udaljenost između tačaka jednog klastera i tačaka drugog minimalna. Procedura se sastoji od n - 1 koraka i rezultat su particije koje se poklapaju sa svim mogućim particijama u prethodnoj metodi za bilo koje vrijednosti praga.

3) Wordov metod.

U ovoj metodi se kao ciljna funkcija koristi unutargrupni zbir kvadrata odstupanja, koji nije ništa drugo do zbir kvadrata udaljenosti između svake tačke (objekta) i prosjeka klastera koji sadrži ovaj objekt. Na svakom koraku se kombinuju dva klastera koji dovode do minimalnog povećanja ciljne funkcije, tj. unutar grupe zbir kvadrata. Ova metoda ima za cilj kombiniranje blisko lociranih klastera.

4) Centroid metoda.

Udaljenost između dva klastera definirana je kao euklidska udaljenost između centara (prosjeka) ovih klastera:

d 2ij =(` X –` Y) T (` X –` Y) Grupiranje se dešava u fazama u svakoj od njih n–1 koraci kombinuju dva klastera G I str vlasništvo minimalna vrijednost d 2 ij Ako n 1 mnogo više n 2, tada su centri sjedinjenja dva klastera blizu jedan drugom i karakteristike drugog klastera se praktično zanemaruju prilikom spajanja klastera. Ova metoda se ponekad naziva i metodom ponderisane grupe.

3. Algoritam sekvencijalnog grupisanja

Hajde da razmotrimo Ι = (Ι 1, Ι 2, … Ιn) poput mnogih klastera (I 1), (I 2),...(In). Odaberimo dva od njih, npr. Ι i I Ι j, koji su u nekom smislu bliži jedni drugima i spojit ćemo ih u jedan klaster. Novi skup klastera, koji se već sastoji od n -1 klastera, bit će:

(I 1), (I 2)…, i, Ι j ), …, (Ιn).

Ponavljajući proces, dobijamo uzastopne skupove klastera koji se sastoje od (n -2), (n -3), (n –4) itd. klasteri. Na kraju postupka, možete dobiti klaster koji se sastoji od n objekata i koji se podudara s originalnim skupom Ι = (Ι 1, Ι 2, … Ιn).

Kao meru udaljenosti uzimamo kvadrat euklidske metrike d i j 2. i izračunaj matricu D = (di j 2 ), gdje je di j 2- kvadrat udaljenosti između

Ι i i Ι j:

….

Ι n

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d2n2

….

d 3n 2

….

….

….

Ι n

Neka udaljenost između Ι i I Ι j će biti minimalno:

d i j 2 = min (d i j 2 , i¹ j). Formiramo uz pomoć Ι i I Ι j novi klaster

i, Ι j). Hajde da napravimo novi ((n-1), (n-1)) matrica udaljenosti

(Ι i, Ι j)

….

Ι n

(Ι i; Ι j)

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d 2 n

….

d 3n

(n -2) Redovi za posljednju matricu uzimaju se iz prethodne, a prvi red se izračunava iznova. Izračuni se mogu svesti na minimum ako možemo izraziti d i j 2 k ,k = 1, 2,…,n; (k¹ i¹ j) kroz elemente originalne matrice.

U početku se udaljenost određuje samo između jednoelementnih klastera, ali je potrebno odrediti udaljenosti između klastera koji sadrže više od jednog elementa. To se može učiniti na različite načine, a u zavisnosti od odabrane metode dobijamo algoritme klaster analize sa različitim svojstvima. Možete, na primjer, staviti udaljenost između klastera i+j i neki drugi klaster k, jednako aritmetičkoj sredini udaljenosti između klastera i I k i klasteri j I k:

d i+j,k = ½ (d i k + d j k).

Ali se može i definisati d i+j,k kao minimum od ove dvije udaljenosti:

d i+j,k = min (d i k + d j k).

Dakle, opisan je prvi korak aglomerativnog hijerarhijskog algoritma. Naredni koraci su slični.

Prilično široka klasa algoritama može se dobiti ako se sljedeća opća formula koristi za ponovno izračunavanje udaljenosti:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk), Gdje

A(w) = , akod ik£ djk

A(w) = , akod ik> djk

B(w) = , akod i k £ djk

B (w) =, Akod ik> djk

Gdje n i I n j- broj elemenata u klasterima i I j, A w– slobodan parametar, čiji je izbor određen određenim algoritmom. Na primjer, kada w = 1 dobivamo takozvani algoritam "prosječne veze", za koji formula za ponovno izračunavanje udaljenosti ima oblik:

d i+j,k =

U ovom slučaju, udaljenost između dva klastera u svakom koraku algoritma ispada da je jednaka aritmetičkoj sredini udaljenosti između svih parova elemenata tako da jedan element para pripada jednom klasteru, drugi drugom.

Vizuelno značenje parametra w postaje jasno ako stavimo w® ¥ . Formula za ponovno izračunavanje udaljenosti ima oblik:

d i+j,k =min (d i,kdjk)

Ovo će biti takozvani algoritam "najbližeg susjeda", koji vam omogućava da identificirate klastere bilo kojeg složenog oblika, pod uvjetom da su različiti dijelovi takvih klastera povezani lancima elemenata koji su bliski jedan drugom. U ovom slučaju, udaljenost između dva klastera u svakom koraku algoritma ispada da je jednaka udaljenosti između dva najbliža elementa koja pripadaju ova dva klastera.

Često se pretpostavlja da su date početne udaljenosti (razlike) između elemenata koji se grupišu. U nekim problemima to je zaista tačno. Međutim, specificiraju se samo objekti i njihove karakteristike, a na osnovu tih podataka se gradi matrica udaljenosti. U zavisnosti od toga da li se računaju udaljenosti između objekata ili između karakteristika objekata, koriste se različite metode.

U slučaju klaster analize objekata, najčešća mjera razlike je ili kvadrat euklidske udaljenosti

(Gdje x ih , x jh- vrijednosti h-ti znak za i th and j-th objekata, i m- broj karakteristika), ili sama Euklidska distanca. Ako se osobinama dodijele različite težine, tada se te težine mogu uzeti u obzir pri izračunavanju udaljenosti

Ponekad se kao mjera razlike koristi udaljenost, izračunata po formuli:

koje se nazivaju: "Hamming", "Manhattan" ili "city block" udaljenost.

Prirodna mjera sličnosti karakteristika objekata u mnogim zadacima je koeficijent korelacije između njih

Gdje m i , m j ,d ja,d j- prosječne i standardne devijacije za karakteristike i I j. Mjerilo razlike između karakteristika može biti vrijednost 1 - r. U nekim problemima predznak koeficijenta korelacije je beznačajan i zavisi samo od izbora mjerne jedinice. U ovom slučaju se koristi mjera razlike između karakteristika ô 1 - r i j ô

4. Broj klastera

Veoma važno pitanje je problem izbora potrebnog broja klastera. Ponekad možete odabrati m broja klastera a priori. Međutim, u opštem slučaju, ovaj broj se određuje u procesu dijeljenja skupa na klastere.

Istraživanje su proveli Fortier i Solomon i ustanovljeno je da se mora uzeti broj klastera da bi se postigla vjerovatnoća a da je najbolja particija pronađena. Dakle, optimalni broj rascjepa je funkcija datog razlomka b najbolje ili u nekom smislu prihvatljive particije u skupu svih mogućih. Što je veći udio, veća je ukupna disperzija b dozvoljene particije. Fortier i Solomon razvili su tabelu koja se može koristiti za pronalaženje potrebnog broja podjela. S(a , b ) zavisno od a I b (Gdje a je vjerovatnoća da se pronađe najbolja particija, b - udio najboljih particija u ukupan broj(particije) Štaviše, kao mjera heterogenosti, ne koristi se mjera disperzije, već mjera članstva koju su uveli Holzenger i Harman. Tabela vrijednosti S(a , b ) je dato u nastavku.

Tabela vrijednostiS(a , b )

b \ a

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Vrlo često je kriterijum za kombinovanje (broj klastera) promena odgovarajuće funkcije. Na primjer, zbir kvadrata odstupanja:

Proces grupisanja ovdje mora odgovarati uzastopnom minimalnom povećanju vrijednosti kriterija E. Prisustvo oštrog skoka vrijednosti E može se tumačiti kao karakteristika broja klastera koji objektivno postoje u populaciji koja se proučava.

Dakle, drugi način određivanja najboljeg broja klastera svodi se na identifikaciju skokova određenih faznim prijelazom iz jako vezanog u slabo vezano stanje objekata.

5. Dendogrami

Najpoznatija metoda za predstavljanje matrice udaljenosti ili sličnosti temelji se na ideji dendograma ili dijagrama stabla. Dendogram se može definirati kao grafički prikaz rezultata sekvencijalnog procesa grupiranja, koji se izvodi u terminima matrice udaljenosti. Koristeći dendogram, možete grafički ili geometrijski predstaviti proceduru grupiranja, pod uslovom da ova procedura radi samo sa elementima matrice udaljenosti ili sličnosti.

Postoji mnogo načina za konstruisanje dendograma. U dendogramu, objekti su locirani okomito na lijevoj strani, a rezultati grupiranja nalaze se na desnoj strani. Vrijednosti udaljenosti ili sličnosti koje odgovaraju strukturi novih klastera prikazane su duž horizontalne linije na vrhu dendograma.

Fig1

Slika 1 prikazuje jedan primjer dendograma. Slika 1 odgovara slučaju šest objekata ( n=6) I kkarakteristike (znakovi). Objekti A I WITH su najbliži i stoga su kombinovani u jedan klaster na nivou blizine od 0,9. ObjektiDI E spajanje na nivou 0.8. Sada imamo 4 klastera:

(A, C), (F), ( D, E), ( B) .

Tada se formiraju klasteri (A, C, F) I ( E, D, B) , što odgovara nivoima blizine od 0,7 i 0,6. Konačno, svi objekti se grupišu u jedan klaster na nivou od 0,5.

Tip dendograma zavisi od izbora mere sličnosti ili udaljenosti između objekata i klastera i metode grupisanja. Najvažnija stvar je izbor mjere sličnosti ili mjere udaljenosti između objekta i klastera.

Broj algoritama klaster analize je prevelik. Svi se mogu podijeliti na hijerarhijske i nehijerarhijske.

Hijerarhijski algoritmi su povezani sa konstrukcijom dendograma i dijele se na:

a) aglomerativni, karakteriziran uzastopnom kombinacijom početnih elemenata i odgovarajućim smanjenjem broja klastera;

b) djeljiv (djeljiv), u kojem se broj klastera povećava, počevši od jednog, što rezultira formiranjem niza grupa koje se cijepaju.

Algoritmi klaster analize danas imaju dobru softversku implementaciju, koja omogućava rješavanje problema najveće dimenzije.

6. Podaci

Klaster analiza se može primijeniti na intervalne podatke, frekvencije i binarne podatke. Važno je da varijable variraju na uporedivim skalama.

Heterogenost mjernih jedinica i rezultirajuća nemogućnost valjanog izražavanja vrijednosti različitih indikatora na istoj skali dovode do činjenice da se ispostavi da udaljenosti između tačaka koje odražavaju položaj objekata u prostoru njihovih svojstava ovise o proizvoljno odabranu skalu. Da bi se eliminisala heterogenost u mjerenju izvornih podataka, sve njihove vrijednosti su prethodno normalizirane, tj. izražavaju se kroz omjer ovih vrijednosti prema određenoj vrijednosti koja odražava određena svojstva datog indikatora. Normalizacija početnih podataka za klaster analizu ponekad se provodi dijeljenjem početnih vrijednosti standardnom devijacijom odgovarajućih indikatora. Drugi način je izračunavanje takozvanog standardizovanog doprinosa. Takođe se zove Z-doprinos.

Z -doprinos pokazuje koliko standardnih devijacija razdvaja dato zapažanje od srednje vrijednosti:

Gdje x i– značenje ovog zapažanja,- prosjek, S- standardna devijacija.

Prosjek za Z -doprinosi su nula, a standardna devijacija je 1.

Standardizacija omogućava poređenje zapažanja iz različitih distribucija. Ako je distribucija varijable normalna (ili blizu normalne) i srednja vrijednost i varijansa su poznati ili procijenjeni iz velikih uzoraka, tada Z -Ulaz za posmatranje daje konkretnije informacije o njegovoj lokaciji.

Imajte na umu da metode standardizacije znače prepoznavanje svih karakteristika kao ekvivalentnih sa stanovišta utvrđivanja sličnosti objekata koji se razmatraju. Već je napomenuto da se u odnosu na ekonomiju priznavanje ekvivalencije različitih indikatora ne čini uvijek opravdanim. Bilo bi poželjno, uz standardizaciju, svakom od indikatora dati težinu koja odražava njegov značaj u utvrđivanju sličnosti i razlika objekata.

U ovoj situaciji potrebno je pribjeći metodi određivanja težine pojedinačnih indikatora - anketi stručnjaka. Na primjer, kada se rješava problem klasifikacije zemalja prema stepenu ekonomskog razvoja, rezultati ankete 40 vodećih moskovskih stručnjaka o problemima razvijene države na desetostepenoj skali:

generalizovani pokazatelji društveno-ekonomskog razvoja – 9 bodova;

indikatori sektorske distribucije zaposlenog stanovništva – 7 bodova;

pokazatelji rasprostranjenosti najamnog rada – 6 bodova;

indikatori koji karakterišu ljudski element proizvodnih snaga – 6 bodova;

pokazatelji razvoja materijalnih proizvodnih snaga – 8 bodova;

indikator državnih rashoda – 4 boda;

„vojno-ekonomski“ pokazatelji – 3 boda;

socio-demografski pokazatelji – 4 boda.

Procjene stručnjaka bile su relativno stabilne.

Stručne procjene daju određenu osnovu za utvrđivanje značaja indikatora koji su uključeni u određenu grupu indikatora. Množenjem normaliziranih vrijednosti indikatora s koeficijentom koji odgovara prosječnom rezultatu procjene omogućava se izračunavanje udaljenosti između tačaka koje odražavaju položaj zemalja u višedimenzionalnom prostoru, uzimajući u obzir nejednaku težinu njihovih karakteristika.

Često se pri rješavanju takvih problema koristi ne jedan, već dva proračuna: prvi, u kojem se sve karakteristike smatraju ekvivalentnim, drugi, gdje im se daju različite težine u skladu s prosječnim vrijednostima stručnih procjena.

7. Primjena klaster analize

Pogledajmo neke primjene klaster analize.

1. Podjela zemalja na grupe prema stepenu razvoja.

Proučavano je 65 zemalja prema 31 indikatoru (nacionalni dohodak po stanovniku, procenat stanovništva zaposlenog u industriji, štednja po glavi stanovnika, procenat stanovništva zaposlenog u poljoprivredi, prosečan životni vek, broj automobila na hiljadu stanovnika, broj oružanih snaga na 1 milion stanovnika, učešće u BDP-u industrije u%, učešće u BDP-u poljoprivrede u%, itd.)

Svaka zemlja u ovom razmatranju djeluje kao objekt koji karakteriziraju određene vrijednosti od 31 indikatora. Shodno tome, mogu se predstaviti kao tačke u 31-dimenzionalnom prostoru. Takav prostor se obično naziva prostorom svojstava objekata koji se proučavaju. Poređenje udaljenosti između ovih tačaka će odražavati stepen blizine dotičnih zemalja, njihovu međusobnu sličnost. Društveno-ekonomsko značenje ovog shvatanja sličnosti znači da se zemlje smatraju sličnim što su manje razlike između istih indikatora kojima su opisane.

Prvi korak takve analize je identificiranje para nacionalnih ekonomija koje se uzimaju u obzir u matrici sličnosti, a udaljenost između kojih je najmanja. Ovo će očito biti najsličnije, slične ekonomije. U sljedećoj raspravi, obje ove zemlje se smatraju jednom grupom, jednim klasterom. U skladu s tim, originalna matrica se transformira tako da njeni elementi postaju udaljenosti između svih mogućih parova ne 65, već 64 objekta - 63 ekonomije i novopromijenjenog klastera - uvjetna zajednica dvije najsličnije zemlje. Iz originalne matrice sličnosti uklanjaju se redovi i kolone koji odgovaraju udaljenostima od para zemalja uključenih u spajanje do svih ostalih, ali se dodaju red i kolona koji sadrže udaljenost između klastera dobijenog tokom spajanja i drugih zemalja.

Pretpostavlja se da je udaljenost između novodobijenog klastera i zemalja jednaka prosjeku udaljenosti između ove druge i dvije zemlje koje čine novi klaster. Drugim rečima, kombinovana grupa zemalja posmatra se kao celina sa karakteristikama približno jednakim proseku karakteristika zemalja koje su u nju uključene.

Drugi korak analize je razmatranje ovako transformirane matrice sa 64 reda i stupca. Opet se identifikuje par ekonomija čija je udaljenost između njih najmanju vrijednost, i oni su, kao i u prvom slučaju, spojeni. U ovom slučaju, najmanja udaljenost može biti između para zemalja, ili između bilo koje zemlje i unije zemalja dobijenih u prethodnoj fazi.

Daljnji postupci su slični onima koji su gore opisani: u svakoj fazi, matrica se transformira tako da se iz nje isključuju dva stupca i dva reda koji sadrže udaljenost do objekata (parova zemalja ili asocijacija - klastera) okupljenih u prethodnoj fazi. ; isključeni redovi i kolone zamjenjuju se stupcem i redom koji sadrže udaljenosti od novih spojeva do preostalih objekata; tada se par najbližih objekata identifikuje u modifikovanoj matrici. Analiza se nastavlja sve dok se matrica potpuno ne iscrpi (odnosno dok se sve zemlje ne spoje u jednu cjelinu). Generalizirani rezultati matrične analize mogu se predstaviti u obliku stabla sličnosti (dendograma), sličnog gore opisanom, s jedinom razlikom što je drvo sličnosti, koje odražava relativnu blizinu svih 65 zemalja koje razmatramo, mnogo komplikovaniji od kola, u kojoj se pojavljuje samo pet nacionalnih ekonomija. Ovo stablo, prema broju objekata koji se porede, obuhvata 65 nivoa. Prvi (niži) nivo sadrži bodove koje odgovaraju svakoj zemlji posebno. Povezivanje ove dvije tačke na drugom nivou pokazuje par zemalja koje su najbliže po opštem tipu nacionalne ekonomije. Na trećem nivou bilježi se sljedeći sličan parni omjer zemalja (kao što je već spomenuto, ovaj omjer može sadržavati ili novi par zemalja, ili novu zemlju i već identificirani par sličnih zemalja). I tako do posljednjeg nivoa, na kojem sve proučavane zemlje djeluju kao jedan skup.

Kao rezultat primjene klaster analize dobijeno je sljedećih pet grupa zemalja:

· Afro-azijska grupa;

· Latinsko-azijska grupa;

· Latinsko-mediteranska grupa;

· grupa razvijenih kapitalističkih zemalja (bez SAD)

· SAD

Uvođenje novih indikatora mimo 31 indikatora koji se ovdje koristi, ili njihova zamjena drugim, prirodno dovodi do promjena u rezultatima klasifikacije zemalja.

2. Podjela zemalja prema kriteriju sličnosti kulture.

Kao što znate, marketing mora uzeti u obzir kulturu zemalja (običaje, tradiciju, itd.).

Klasterizacijom su dobijene sljedeće grupe zemalja:

· arapski;

· Srednje istočni;

· skandinavski;

· nemački govorni;

· Govori engleski;

· romanički evropski;

· Latinska Amerika;

· Daleki istok.

3. Izrada prognoze stanja na tržištu cinka.

Klaster analiza igra važnu ulogu u fazi redukcije ekonomsko-matematičkog modela tržišta robe, pomažući da se olakšaju i pojednostave računske procedure, osiguravajući veću kompaktnost dobijenih rezultata uz održavanje potrebne tačnosti. Upotreba klaster analize omogućava da se cjelokupni početni skup tržišnih indikatora podijeli u grupe (klasteri) prema odgovarajućim kriterijima, čime se olakšava odabir najreprezentativnijih indikatora.

Klaster analiza se široko koristi za modeliranje tržišnih uslova. U praksi se većina problema predviđanja oslanja na korištenje klaster analize.

Na primjer, zadatak izrade prognoze za tržište cinka.

Prvobitno je odabrano 30 ključnih indikatora globalnog tržišta cinka:

X 1 - vrijeme

Proizvodne brojke:

X 2 - u svijetu

X 4 - Evropa

X 5 - Kanada

X 6 - Japan

X 7 - Australija

Indikatori potrošnje:

X 8 - u svijetu

X 10 - Evropa

X 11 - Kanada

X 12 - Japan

X 13 - Australija

Rezerve cinka proizvođača:

X 14 - u svijetu

X 16 - Evropa

X 17 - druge zemlje

Potrošačke rezerve cinka:

X 18 - u SAD

X 19 - u Engleskoj

X 10 - u Japanu

Uvoz ruda i koncentrata cinka (hiljadu tona)

X 21 - u SAD

X 22 - u Japanu

X 23 - u Njemačkoj

Izvoz ruda i koncentrata cinka (hiljadu tona)

X 24 - iz Kanade

X 25 - iz Australije

Uvoz cinka (hiljadu tona)

X 26 - u SAD

X 27 - u Englesku

X 28 - u Njemačkoj

Izvoz cinka (hiljadu tona)

X 29 - iz Kanade

X 30 - iz Australije

Za određivanje specifičnih zavisnosti korišćen je aparat korelacione i regresione analize. Analiza odnosa je izvršena na osnovu matrice uparenih koeficijenata korelacije. Ovdje je prihvaćena hipoteza o normalnoj distribuciji analiziranih tržišnih indikatora.Jasno je da r ij nisu jedini mogući pokazatelji odnosa između korištenih indikatora. Potreba za korištenjem klaster analize u ovom zadatku je zbog činjenice da je broj indikatora koji utiču na cijenu cinka vrlo velik. Postoji potreba za njihovim smanjenjem iz niza sljedećih razloga:

a) nedostatak potpunih statističkih podataka o svim varijablama;

b) oštro kompliciranje računskih procedura kada se u model unosi veliki broj varijabli;

c) optimalna upotreba metoda regresione analize zahtijeva da broj posmatranih vrijednosti premaši broj varijabli za najmanje 6-8 puta;

d) želja da se u modelu koriste statistički nezavisne varijable, itd.

Vrlo je teško izvršiti takvu analizu direktno na relativno glomaznoj matrici koeficijenata korelacije. Koristeći klaster analizu, cijeli skup tržišnih varijabli može se podijeliti u grupe na način da su elementi svakog klastera međusobno snažno povezani, a predstavnici različitih grupa se odlikuju slabom korelacijom.

Za rješavanje ovog problema korišten je jedan od algoritama aglomerativne hijerarhijske analize klastera. Na svakom koraku, broj klastera se smanjuje za jedan zbog optimalne, u određenom smislu, kombinacije dvije grupe. Kriterijum za spajanje je promjena odgovarajuće funkcije. Kao takvu funkciju koristili smo vrijednosti suma kvadrata odstupanja izračunate pomoću sljedećih formula:

(j = 1, 2, …,m),

Gdje j- broj klastera, n- broj elemenata u klasteru.

r ij-koeficijent korelacije para.

Dakle, proces grupisanja mora odgovarati uzastopnom minimalnom povećanju vrijednosti kriterija E.

U prvoj fazi, početni niz podataka je predstavljen kao skup koji se sastoji od klastera, od kojih svaki sadrži jedan element. Proces grupisanja počinje kombinacijom takvog para klastera, što dovodi do minimalnog povećanja sume kvadrata odstupanja. To zahtijeva procjenu vrijednosti zbira kvadrata odstupanja za svaku od mogućih klaster asocijacije. U sljedećoj fazi uzimaju se u obzir vrijednosti zbira kvadrata odstupanja klasteri itd. Ovaj proces će u nekom koraku biti zaustavljen. Da biste to učinili, morate pratiti vrijednost zbira kvadrata odstupanja. Uzimajući u obzir niz rastućih vrijednosti, može se uočiti skok (jedan ili više) u njegovoj dinamici, što se može tumačiti kao karakteristika broja grupa koje „objektivno“ postoje u populaciji koja se proučava. U datom primjeru do skokova je došlo kada je broj klastera bio 7 i 5. Broj grupa ne treba dalje smanjivati, jer to dovodi do smanjenja kvalitete modela. Nakon dobijanja klastera, odabiru se varijable koje su najvažnije u ekonomskom smislu i koje su najbliže odabranom kriterijumu tržišne situacije – u ovom slučaju sa kotacijama cinka Londonske berze metala. Ovaj pristup nam omogućava da sačuvamo značajan dio informacija sadržanih u originalnom skupu početnih tržišnih indikatora.

10.1.1 Osnovni koncepti.

Neka se skup proučava objekata, od kojih je svaki karakteriziran odmereni znaci. Potrebno je ovu populaciju podijeliti na grupe koje su u određenom smislu homogene. Istovremeno, praktično nema apriornih informacija o prirodi distribucije -dimenzionalni vektor
unutar razreda.
Rezultirajuće grupe se obično nazivaju klasteri (taksoni, slike), metode za njihovo pronalaženje - klaster analiza(numerička taksonomija ili samoučeće prepoznavanje obrazaca).

Rješenje problema je određivanje prirodne stratifikacije rezultata opservacije u jasno definirane klastere koji se nalaze na određenoj udaljenosti jedan od drugog. (Može se ispostaviti da mnoga opažanja ne pokazuju prirodnu stratifikaciju u klastere, tj. da čine jedan klaster).

Uobičajeni oblik predstavljanja početnih podataka u problemima klaster analize je matrica

,

svaki red predstavlja rezultate mjerenja karakteristike koje se razmatraju u jednom od objekata.

Grupiranje namjenjen je podjeli skupa objekata u homogene grupe ( klasteri ili klase). Ako su uzorci podataka predstavljeni kao tačke u prostoru karakteristika, onda je problem grupisanje svodi se na definiciju "koncentracija tačaka".

Koncept klastera je preveden kao "klaster", "gomila". Sinonimi za termin "klastering" su "automatska klasifikacija", "nenadgledano učenje" i "taksonomija".

Svrha grupiranja je traženje postojećih struktura. Grupiranje je deskriptivna procedura, ne daje nikakve statističke zaključke, ali pruža priliku za provođenje istraživačke analize i proučavanje „strukture podataka“. Klase nisu unaprijed definirane, traže se najsličnije, homogene grupe. Klaster se može okarakterisati kao grupa objekata koji imaju zajednička svojstva.

Karakteristike klastera mogu se opisati kao dvije:

    unutrašnja homogenost;

    spoljna izolacija.

Klasteri mogu biti nepovezani ili isključivi (nepreklapajući, isključivi) i preklapajući. Šematski prikaz klastera koji se ne preklapaju i koji se ukrštaju dat je na Sl. 10.1.

Rice. 10.1 Razdvojeni i preklapajući klasteri

Termin "klaster analiza", koji je prvi uveo Tryon 1939. godine, kombinuje više od 100 različitih algoritama.

Za razliku od problema klasifikacije, klaster analiza ne zahtijeva apriorne pretpostavke o skupu podataka, ne nameće ograničenja na reprezentaciju objekata koji se proučavaju i omogućava vam da analizirate indikatore različitih vrsta podataka (podaci intervala, frekvencije, binarni podaci) . Mora se imati na umu da se varijable moraju mjeriti na uporedivim skalama.

10.1.2 Karakteristike klastera

Klaster ima sljedeće matematičke karakteristike: centar, radijus, standardnu ​​devijaciju, veličinu klastera.

Svaki populacijski objekat u klaster analizi se smatra tačkom u datom prostoru obeležja. Vrijednost svakog od atributa date jedinice služi kao njena koordinata u ovom prostoru.

Centar klastera je geometrijska sredina tačaka u prostoru varijabli.

Radijus klastera - maksimalna udaljenost tačaka od centra klastera.

Ako je nemoguće nedvosmisleno dodijeliti objekt jednom od dva klastera pomoću matematičkih postupaka, tada se takvi objekti nazivaju kontroverznim i otkriva se preklapanje klastera. Kontroverzni objekat je objekat koji se, na osnovu svoje sličnosti, može klasifikovati u nekoliko klastera.

Veličina klastera se može odrediti ili radijusom klastera ili standardnom devijacijom objekata za taj klaster. Objekt pripada klasteru ako je udaljenost od objekta do centra klastera manja od radijusa klastera. Ako je ovaj uvjet ispunjen za dva ili više klastera, objekt je sporan. Dvosmislenost ovog problema može riješiti stručnjak ili analitičar.

Povratak

×
Pridružite se zajednici parkvak.ru!
U kontaktu sa:
Već sam pretplaćen na zajednicu “parkvak.ru”