Mi a korreláció a statisztikában?

A numerikus adatok néha párban jelennek meg. Talán a paleontológus a combcsont (a lábcsont) és a gömbcsont (karcsont) hosszát méri ugyanazon dinoszauruszfaj öt fosszilis anyagában. Érdemes lehet a karhosszokat a lábhosszaktól külön-külön mérlegelni, és kiszámítani olyan dolgokat, mint az átlag vagy a szórás. De mi van, ha a kutató kíváncsi, hogy van-e kapcsolat e két mérés között? Nem elég csupán a karokat a lábától külön-külön megnézni. Ehelyett a paleontológusnak párosítania kell a csontok hosszát minden csontvázhoz, és egy olyan területet kell használnia statisztika korrelációként ismert.

Mi az összefüggés? Tegyük fel, hogy a fenti példában a kutató megvizsgálta az adatokat, és elérte a nem túl meglepő eredményt Ennek eredményeként a hosszabb karú dinoszaurusz kövületek is hosszabb lábakkal rendelkeztek, a rövidebb karokkal rendelkező kövületek pedig rövidebb lábak. Az adatok szétszórt diagramja azt mutatta, hogy az adatpontok mind egyenes vonal közelében vannak csoportosítva. A kutató ekkor azt állítja, hogy erős egyenes kapcsolat van fenn, vagy

instagram viewer
korreláció, a karcsontok és a kövületek csontokjainak hossza között. Még több munka szükséges ahhoz, hogy elmondjam, mennyire erős a kapcsolat.

Összefüggések és szórt görbék

Mivel minden adatpont két számot képvisel, a kétdimenziós scatterplot nagy segítséget nyújt az adatok megjelenítésében. Tegyük fel, hogy valóban kezünk van a dinoszaurusz adataira, és az öt kövület a következő mérésekkel rendelkezik:

  1. Combcsont 50 cm, gerinc 41 cm
  2. Combcsont 57 cm, gerely 61 cm
  3. Combcsont 61 cm, gerely 71 cm
  4. Combcsont 66 cm, gerely 70 cm
  5. Combcsont 75 cm, gerely 82 cm

Az adatok scatterbotja, a combcsont mérésével vízszintes irányban és a combcsont mérésével függőleges irányban, a fenti grafikonhoz vezet. Minden pont az egyik csontváz mérését ábrázolja. Például a bal alsó pont megfelel az 1. csontváznak. A jobb felső sarokban lévő pont az 5. csontváz.

Minden bizonnyal úgy néz ki, hogy egyenes vonalot húzhatunk, amely nagyon közel áll az összes ponthoz. De hogyan tudjuk biztosan megmondani? A közelség a szemlélő szemében van. Honnan tudhatjuk, hogy a "közelség" definíciói valaki mással egyeznek? Van-e módja annak, hogy számszerűsítsük ezt a közelséget?

Korrelációs együttható

Annak objektív mérésére, hogy az adatok milyen közel állnak az egyenes vonalhoz, a korrelációs együttható jön vissza. Az korrelációs együttható, általában jelölve r, valós szám -1 és 1 között. Az értéke r egy képlet alapján méri a korreláció erősségét, kiküszöböli a szubjektivitást a folyamatban. Számos iránymutatást kell figyelembe venni, amikor értelmezi r.

  • Ha r = 0, akkor a pontok egy teljes zavar, és az adatok között nincs egyenes kapcsolat.
  • Ha r = -1 vagy r = 1, akkor az összes adatpont tökéletesen egyenesen áll egy vonalon.
  • Ha r a fenti szélsőségektől eltérő érték, akkor az eredmény egy egyenes kevésbé tökéletes illeszkedése. A valós adatkészletekben ez a leggyakoribb eredmény.
  • Ha r pozitív, akkor a vonal a pozitív lejtőn. Ha r negatív, akkor a vonal negatív lejtőn csökken.

A korrelációs együttható kiszámítása

A korrelációs együttható képlete r bonyolult, amint az itt látható. A képlet összetevői a numerikus adatok mindkét halmazának átlagai és szórása, valamint az adatpontok száma. A legtöbb gyakorlati alkalmazáshoz r unalmas kézzel számolni. Ha adatait bevittük egy számológépbe vagy egy táblázatkezelő programba a statisztikai parancsok, akkor általában van egy beépített függvény a számításhoz r.

A korreláció korlátozásai

Bár a korreláció hatékony eszköz, használatának van néhány korlátja:

  • A korreláció nem teljesen mond el mindent az adatokról. Az eszközök és a standard eltérések továbbra is fontosak.
  • Az adatokat egy bonyolultabb görbe írhatja le, mint egy egyenes, de ez nem jelenik meg a r.
  • A kimenetek erősen befolyásolják a korrelációs együtthatót. Ha adatainkban eltéréseket tapasztalunk, akkor vigyáznunk kell arra, hogy milyen következtetéseket vonunk le az értékből r.
  • Csak azért, mert két adatkészlet korrelál, ez nem azt jelenti, hogy az egyik az ok a másik.