A paradoxon egy olyan állítás vagy jelenség, amely a felszínen ellentmondásosnak tűnik. A paradoxonok segítik az abszurdnak tűnő igazság felfedését a felszín alatt. A statisztika területén a Simpson paradoxonja bemutatja, hogy milyen problémák merülnek fel több csoportból származó adatok kombinálásával.
Az összes adatgal körültekintően kell eljárnunk. Honnan jött? Hogyan szerezték meg? És mit mond valójában? Ez mind jó kérdés, amelyet fel kell tennünk, amikor adatokat szolgáltatunk. A Simpson paradoxonjának nagyon meglepő esete azt mutatja, hogy néha az adatok valójában nem igaz.
A paradoxon áttekintése
Tegyük fel, hogy több csoportot figyelünk meg, és létrehozzunk egy kapcsolatot vagy korreláció e csoportok mindegyikére. Simpson paradoxona szerint az összes csoport összevonásakor és az adatok aggregált formájában történő megnézésekor az korábban észlelt összefüggés megfordíthatja önmagát. Ez leggyakrabban a nem befolyásoló változó csalások miatt, de néha az adatok numerikus értékei miatt.
Példa
Annak érdekében, hogy kissé jobban megértsük a Simpson paradoxonját, nézzük meg a következő példát. Egy bizonyos kórházban két sebész van. Az A sebész 100 betegen működik, és 95 túlél. A B sebész 80 betegnél működik, 72 pedig túlél. Fontosnak tartjuk, hogy ebben a kórházban műtétet végezzünk, és a műtéten keresztül éljünk. A két sebész közül a jobbat szeretnénk választani.
Megvizsgáljuk az adatokat és kiszámoljuk az A sebész betegeinek hány százalékát élte meg a műtétét, és összehasonlítottuk a B sebész betegeinek túlélési arányával.
- 100 betegből 95 túlélte az A sebészt, így 95/100 = 95% volt túlélő.
- A 80 beteg közül 72 túlélte a B sebészt, így 72/80 = 90% -uk maradt fenn.
Ezen elemzés alapján melyik sebészt kell választanunk kezelni? Úgy tűnik, hogy az A sebész a legbiztonságosabb. De ez igaz?
Mi lenne, ha további kutatást végezzünk az adatokkal kapcsolatban és azt találnánk, hogy az eredetileg a kórház gondolta két különféle típusú műtét, de az összes adatot összeszedte, hogy jelentést tegyenek mindegyikről sebészek. Nem minden műtét egyenlő, néhányat magas kockázatú sürgősségi műtétnek tartottak, míg mások rutinszerűbb jellegűek voltak, amelyeket előre megterveztek.
A 100 sebész által kezelt 100 beteg közül 50-nél magas a kockázata, ebből három meghalt. A másik 50 rutinnak tekintették, ebből kettő meghalt. Ez azt jelenti, hogy egy rutin műtét esetén az A sebész által kezelt beteg túlélési aránya 48/50 = 96%.
Most alaposabban megvizsgáljuk a B sebész adatait, és azt találjuk, hogy 80 beteg közül 40-nél magas a kockázata, ebből hét meghalt. A másik 40 rutinszerű volt, és csak egy halt meg. Ez azt jelenti, hogy a beteg 39/40 = 97,5% túlélési aránya van a B sebész által végzett rutin műtét során.
Most melyik sebész tűnik jobbnak? Ha a műtét rutinszerű, akkor a B sebész valójában a jobb sebész. Ha megvizsgáljuk az összes sebész által végzett műtétet, akkor A jobb. Ez meglehetősen ellentétes. Ebben az esetben a műtét típusának lappangó változója befolyásolja a sebészek összesített adatait.
Simpson paradoxonjának története
Simpson paradoxonját Edward Simpson elnevezése után kapta, aki ezt a paradoxont először a A Királyi Statisztikai Társaság lapja. Pearson és Yule egyaránt hasonló paradoxont észleltek fél évszázaddal korábban, mint Simpson, tehát a Simpson paradoxont néha Simpson-Yule effektusnak is nevezik.
A paradoxon számos széles körű alkalmazását alkalmazza olyan változatos területeken, mint a sportstatisztika és a munkanélküliségi adatok. Ha az adatokat összesítik, vigyázzon, hogy ez a paradoxon megjelenjen.