A klaszteranalízis egy statisztikai technika, amelynek segítségével meghatározzák, hogy a különféle egységek - például emberek, csoportok vagy társadalmak - hogyan csoportosíthatók közös tulajdonságaik miatt. Klaszterezésként is ismert, feltáró adatelemző eszköz, amelynek célja a különböző objektumok csoportokba rendezése oly módon, hogy amikor ugyanabba a csoportba tartoznak, akkor maximális asszociációs foka van, és ha nem tartoznak ugyanabba a csoportba, akkor az asszociációs szintük is minimális. Néhánytól eltérően statisztikai technikák, a klaszteranalízissel feltárt struktúrák nem igényelnek magyarázatot vagy értelmezést - felfedezi az adatok szerkezetét anélkül, hogy megmagyaráznák, miért léteznek.
Mi a klaszterezés?
A csoportosulás mindennapi életünk szinte minden területén létezik. Vegyünk például egy elemet egy élelmiszerboltban. Különböző típusú cikkeket mindig ugyanabban vagy a közelben helyezik el - hús, zöldség, szóda, gabonafélék, papír termékek stb. A kutatók gyakran ugyanazt akarják tenni az adatokkal és objektumokat vagy tárgyakat értelmező klaszterekbe csoportosítva.
Ha példát szeretnénk venni a társadalomtudományról, tegyük fel, hogy országokat nézünk ki és szeretnénk csoportosítani őket klaszterekbe olyan jellemzők alapján, mint például munkamegosztás, katonaság, technológia vagy képzett lakosság. Megállapítanánk, hogy Nagy-Britanniának, Japánnak, Franciaországnak, Németországnak és az Egyesült Államoknak hasonló tulajdonságai vannak, és össze vannak csoportosítva. Ugandát, Nicaraguát és Pakisztánt szintén különféle klaszterekbe csoportosítanák, mivel eltérő jellemzőkkel rendelkeznek, ideértve az alacsony vagyonszintet, az egyszerűbb munkamegosztást, a viszonylag instabil és demokratikus politikai intézményeket, valamint az alacsony technológiai képességeket fejlesztés.
A klaszterelemzést általában a kutatás feltáró szakaszában használják, amikor a kutatónak nincs ilyen előre megfogalmazott hipotézisek. Ez általában nem az egyetlen statisztikai módszer, amelyet inkább a projekt korai szakaszában végeznek az elemzés többi részének irányításához. Ezért a szignifikancia tesztelése általában nem releváns és nem is megfelelő.
A klaszterelemzésnek különféle típusai vannak. A két leggyakrabban használt eszköz a K-átcsoportosítás és a hierarchikus csoportosulás.
K jelentése klaszterezés
A K-eszköz csoportosítása az adatokban szereplő megfigyeléseket objektumokként kezeli, amelyeknek elhelyezkedése és távolsága egymástól van (vegye figyelembe, hogy a csoportosítás során alkalmazott távolságok gyakran nem képviselik a térbeli távolságokat). Osztja az objektumokat K kölcsönösen kizáró klaszterekbe, hogy az egyes klaszterekben lévő objektumok megegyezjenek a lehető legközelebb egymáshoz, ugyanakkor a lehető legtávolabb a többi klaszter objektumától. Az egyes klasztereket ezután jellemzi átlag vagy középpont.
Hierarchikus klaszterezés
A hierarchikus klaszterezés az adatok csoportosulásának különböző skálák és távolságok egyidejű vizsgálatának egyik módja. Ezt úgy hajtja végre, hogy különféle szintű fürt fát hoz létre. A K-klaszterrel ellentétben a fa nem egyetlen klaszterkészlet. Inkább a fa egy többszintű hierarchia, ahol az egyik szintű fürtök klaszterekként vannak összekapcsolva a következő magasabb szinten. A használt algoritmus minden egyes esettel vagy változóval elindul egy külön klaszterben, majd egyesíti a klasztereket, amíg csak egy marad. Ez lehetővé teszi a kutató számára, hogy eldöntse, hogy a klaszterezés milyen szintje a legmegfelelőbb kutatásának.
Klaszteranalízis elvégzése
A legtöbb statisztikai szoftverek klaszterelemzést végezhet. Az SPSS alkalmazásban válassza a lehetőséget elemez majd a menüből Osztályozza és klaszteranalízis. A SAS-ben a proc klaszter funkció használható.
Frissítette Nicki Lisa Cole, Ph. D.