Egy nap ebédelve egy fiatal nő egy nagy tál fagylaltot evett, és egy oktatótestület odament hozzá, és azt mondta: „Jobb lenne, ha óvatos, van egy magas statisztikaikorreláció a fagylalt és a fulladás között. ” Bizonyára összezavarodott pillantást vetett rá, ahogy még többet kidolgozott. "A legtöbb fagylalt eladással rendelkező napokban a legtöbb ember is elsüllyed."
Amikor elkészítette a fagylaltomat, a két kolléga megvitatta azt a tényt, hogy csak azért, mert az egyik változó statisztikailag kapcsolódik a másikhoz, ez még nem jelenti azt, hogy az egyik oka a másiknak. Időnként változó rejtőzik a háttérben. Ebben az esetben az év napja rejtőzik az adatokban. Több fagylaltot forgalmaznak forró nyári napokon, mint havas téli napokon. Több ember úszik nyáron, és ennélfogva többet elsüllyed nyáron, mint télen.
Vigyázni kell, mert a változókat lebukik
A fenti anekdotum kiváló példa arra, amit úgy nevezzünk, mint egy leselkedő változó. Amint a neve is sugallja, a leselkedő változó megkönnyíthetetlen és nehezen felismerhető. Amikor azt találjuk, hogy két numerikus adatkészlet szorosan korrelál, mindig fel kell kérdeznünk: „Lehet-e valami más, ami okozza ezt a kapcsolatot?”
Az alábbiakban bemutatunk egy erőteljes korrelációt, amelyet egy elbűvölő változó okoz:
- Az egy főre eső számítógépek átlagos száma egy országban és az ország átlagos várható élettartama.
- A tűzoltók száma és a tűz által okozott károk.
- Általános iskolai tanulók magassága és olvasási szintje.
Mindezen esetekben a változók közötti kapcsolat nagyon erős. Ezt általában a jelzi korrelációs együttható amelynek értéke közel 1 vagy -1. Nem számít, milyen közel van ez a korrelációs együttható 1-hez vagy -1-hez, ez a statisztika nem tudja megmutatni, hogy az egyik változó a másik változó oka.
Lurking változók észlelése
A jellegzetes jellegüknél fogva a leselkedő változókat nehéz felismerni. Az egyik stratégia, ha rendelkezésre áll, annak megvizsgálása, hogy mi történik az adatokkal az idő múlásával. Ez felfedheti a szezonális tendenciákat, például a fagylalt példát, amelyek eltűnnek az adatok összevonásakor. Egy másik módszer a nézés kiugró és próbálja meg meghatározni, mi különbözteti meg őket a többi adattól. Időnként ez utalást ad arra, hogy mi történik a színfalak mögött. A legjobb cselekvés az, ha proaktív; kérdésfeltevéseket és tervezési kísérleteket gondosan megkérdezni.
Miért számít?
Tegyük fel, hogy a nyitó forgatókönyvben egy jó szándékú, ám statisztikailag nem informált kongresszusi képviselő azt javasolta, hogy az összes fagylaltot megsemmisítsék a fulladás elkerülése érdekében. Egy ilyen törvényjavaslat a lakosság nagy részének kellemetlenségeket okozna, több társaságot csődbe kényszerítené és több ezer munkahelyet szüntetne meg, mivel az ország jégkrémiparát bezárnák. A legjobb szándékok ellenére ez a törvényjavaslat nem csökkentené a fulladásos halálesetek számát.
Ha ez a példa kissé túlságosan vonzónak tűnik, vegye figyelembe a következőt, amely valójában megtörtént. Az 1900-as évek elején az orvosok észrevették, hogy egyes csecsemők titokzatosan halnak meg alvásukban észlelt légzési problémák miatt. Ezt úgy hívták meg, hogy kiságy halálos, és ma SIDS néven ismert. Az egyik dolog, amely a SIDS-től meghaltakkal végzett boncolásokból kimaradt, a megnagyobbodott csecsemőmirigy, a mellkasban található mirigy. A SIDS csecsemőknél a megnövekedett thymus mirigyek összefüggéséből az orvosok feltételezték, hogy a rendellenesen nagy thymus nem megfelelő légzést és halált okozott.
A javasolt megoldás az volt, hogy a thymust nagy mennyiségű sugárzással zsugorítsák, vagy a mirigyt teljes mértékben eltávolítsák. Ezen eljárások magas halálozási arányt mutattak, és még több halálesethez vezettek. Szomorú, hogy ezeket a műveleteket nem kellett elvégezni. A későbbi kutatások kimutatták, hogy ezek az orvosok tévedett a feltételezéseikben, és hogy a csecsemőmirigy nem felelős a SIDSért.
A korreláció nem jelenti az okozati összefüggést
A fentieknek szünetet kell tennünk, amikor úgy gondoljuk, hogy a statisztikai bizonyítékokkal igazolják az olyan dolgokat, mint az orvosi rendszerek, jogszabályok és oktatási javaslatok. Fontos, hogy jó munkát végezzünk az adatok értelmezésében, különösen akkor, ha a korrelációval járó eredmények mások életét érintik.
Amikor valaki kijelenti: „A tanulmányok azt mutatják, hogy az A oka a B-nek, és néhány statisztika alátámasztja azt”, készen áll válasz: „A korreláció nem jelenti az okozati összefüggést.” Mindig vigyázzon arra, hogy mi vár a adat.