A numerikus adatok néha párban jelennek meg. Talán a paleontológus a combcsont (a lábcsont) és a gömbcsont (karcsont) hosszát méri ugyanazon dinoszauruszfaj öt fosszilis anyagában. Érdemes lehet a karhosszokat a lábhosszaktól külön-külön mérlegelni, és kiszámítani olyan dolgokat, mint az átlag vagy a szórás. De mi van, ha a kutató kíváncsi, hogy van-e kapcsolat e két mérés között? Nem elég csupán a karokat a lábától külön-külön megnézni. Ehelyett a paleontológusnak párosítania kell a csontok hosszát minden csontvázhoz, és egy olyan területet kell használnia statisztika korrelációként ismert.
Mi az összefüggés? Tegyük fel, hogy a fenti példában a kutató megvizsgálta az adatokat, és elérte a nem túl meglepő eredményt Ennek eredményeként a hosszabb karú dinoszaurusz kövületek is hosszabb lábakkal rendelkeztek, a rövidebb karokkal rendelkező kövületek pedig rövidebb lábak. Az adatok szétszórt diagramja azt mutatta, hogy az adatpontok mind egyenes vonal közelében vannak csoportosítva. A kutató ekkor azt állítja, hogy erős egyenes kapcsolat van fenn, vagy
korreláció, a karcsontok és a kövületek csontokjainak hossza között. Még több munka szükséges ahhoz, hogy elmondjam, mennyire erős a kapcsolat.Összefüggések és szórt görbék
Mivel minden adatpont két számot képvisel, a kétdimenziós scatterplot nagy segítséget nyújt az adatok megjelenítésében. Tegyük fel, hogy valóban kezünk van a dinoszaurusz adataira, és az öt kövület a következő mérésekkel rendelkezik:
- Combcsont 50 cm, gerinc 41 cm
- Combcsont 57 cm, gerely 61 cm
- Combcsont 61 cm, gerely 71 cm
- Combcsont 66 cm, gerely 70 cm
- Combcsont 75 cm, gerely 82 cm
Az adatok scatterbotja, a combcsont mérésével vízszintes irányban és a combcsont mérésével függőleges irányban, a fenti grafikonhoz vezet. Minden pont az egyik csontváz mérését ábrázolja. Például a bal alsó pont megfelel az 1. csontváznak. A jobb felső sarokban lévő pont az 5. csontváz.
Minden bizonnyal úgy néz ki, hogy egyenes vonalot húzhatunk, amely nagyon közel áll az összes ponthoz. De hogyan tudjuk biztosan megmondani? A közelség a szemlélő szemében van. Honnan tudhatjuk, hogy a "közelség" definíciói valaki mással egyeznek? Van-e módja annak, hogy számszerűsítsük ezt a közelséget?
Korrelációs együttható
Annak objektív mérésére, hogy az adatok milyen közel állnak az egyenes vonalhoz, a korrelációs együttható jön vissza. Az korrelációs együttható, általában jelölve r, valós szám -1 és 1 között. Az értéke r egy képlet alapján méri a korreláció erősségét, kiküszöböli a szubjektivitást a folyamatban. Számos iránymutatást kell figyelembe venni, amikor értelmezi r.
- Ha r = 0, akkor a pontok egy teljes zavar, és az adatok között nincs egyenes kapcsolat.
- Ha r = -1 vagy r = 1, akkor az összes adatpont tökéletesen egyenesen áll egy vonalon.
- Ha r a fenti szélsőségektől eltérő érték, akkor az eredmény egy egyenes kevésbé tökéletes illeszkedése. A valós adatkészletekben ez a leggyakoribb eredmény.
- Ha r pozitív, akkor a vonal a pozitív lejtőn. Ha r negatív, akkor a vonal negatív lejtőn csökken.
A korrelációs együttható kiszámítása
A korrelációs együttható képlete r bonyolult, amint az itt látható. A képlet összetevői a numerikus adatok mindkét halmazának átlagai és szórása, valamint az adatpontok száma. A legtöbb gyakorlati alkalmazáshoz r unalmas kézzel számolni. Ha adatait bevittük egy számológépbe vagy egy táblázatkezelő programba a statisztikai parancsok, akkor általában van egy beépített függvény a számításhoz r.
A korreláció korlátozásai
Bár a korreláció hatékony eszköz, használatának van néhány korlátja:
- A korreláció nem teljesen mond el mindent az adatokról. Az eszközök és a standard eltérések továbbra is fontosak.
- Az adatokat egy bonyolultabb görbe írhatja le, mint egy egyenes, de ez nem jelenik meg a r.
- A kimenetek erősen befolyásolják a korrelációs együtthatót. Ha adatainkban eltéréseket tapasztalunk, akkor vigyáznunk kell arra, hogy milyen következtetéseket vonunk le az értékből r.
- Csak azért, mert két adatkészlet korrelál, ez nem azt jelenti, hogy az egyik az ok a másik.