A standard eltérések (SD) becslése

A szórás és a távolság egyaránt a egy adatkészlet terjedése. Mindegyik szám önmagában megmondja, hogy az adatok milyen távolságra vannak egymástól, mivel mindkettő a variáció mértéke. Bár a. Között nincs kifejezett kapcsolat tartomány és szórás, van egy ökölszabály ami hasznos lehet e két statisztika összekapcsolásában. Ezt a kapcsolatot gyakran a szórás tartományának szabályának nevezik.

A tartomány-szabály szerint a minta szórása megközelítőleg egyenlő az adattartomány egynegyedével. Más szavakkals = (Maximális - minimum) / 4. Ez egy nagyon egyszerű formula, amelyet csak nagyon durvaként kell használni a szórás becslése.

Egy példa

A tartomány példájának működésére vonatkozó példát a következő példában tekintjük meg. Tegyük fel, hogy a 12, 12, 14, 15, 16, 18, 18, 20, 20, 25 adatértékekkel kezdjük. Ezeknek az értékeknek a átlagos 17-es és a szórás mintegy 4,1. Ha ehelyett adataink tartományát először 25-re számoljuk - 12 = 13, majd osztjuk ezt a számot négyvel. A szórás becslése szerint 13/4 = 3,25. Ez a szám viszonylag közel áll a valódi szóráshoz, és durva becsléshez jó.

instagram viewer

Miért működik?

Úgy tűnik, hogy a távolságszabály kissé furcsa. Miért működik? Nem tűnik teljesen önkényesnek, ha a tartományt négyre osztják? Miért nem osztanánk egy másik számmal? Valójában van valamilyen matematikai igazolás a színfalak mögött.

Emlékezzünk a haranggörbe és az a valószínűségei normál normál eloszlás. Az egyik jellemző az adatmennyiséggel kapcsolatos, amely egy bizonyos számú standard eltérésen belülre esik:

Az adatok körülbelül 68% -a egy átlagtól való eltérésen belül (magasabb vagy alacsonyabb) található.
Az adatok kb. 95% -a az átlagtól számított két eltéréssel (magasabb vagy alacsonyabb) található.
Körülbelül 99% az átlagtól számított három eltérés (magasabb vagy alacsonyabb) belül van.

A szám, amelyet használunk, 95% -kal függ. Azt mondhatjuk, hogy az átlag alatti két szórás és az átlag feletti két szórás közötti 95% -ot, az adatok 95% -át kapjuk. Így normális eloszlásunk szinte teljes egészében egy vonalszakaszon nyúlik ki, amely összesen négy standard eltérés hosszú.

Nem minden adat van elosztva és haranggörbe alakú. De a legtöbb adat elég jól viselkedett, hogy ha az átlagtól két standard eltérést távolítson el, az összes adatot elfogja. Becslések szerint és azt mondjuk, hogy négy standard eltérés megközelítőleg a tartomány nagysága, tehát a négyvel osztott tartomány a szórás durva megközelítése.

A tartomány szabálya

A tartomány-szabály számos beállításban hasznos. Először is, a szórás nagyon gyors becslése. A szórás megköveteli, hogy először keressük meg az átlagot, majd vonjuk le ezt az átlagot minden adatpontból, négyzetből a különbségeket, ezeket összeadva, ossza meg kevesebbel, mint az adatpontok száma, majd (végül) vigye a négyzetet gyökér. Másrészt, a tartományszabály csak egy kivonást és egy osztást igényel.

Más olyan helyek, ahol a tartomány-szabály hasznos, ha hiányos információk állnak rendelkezésre. Az olyan képletekhez, amelyek a minta méretének meghatározásához szükségesek, három információra van szükség: a kívánt hibahatár, az a bizalom szintje és a vizsgált populáció szórása. Sokszor lehetetlen tudni, hogy mi a lakosság szórás van. A tartományszabály segítségével megbecsülhetjük ezt a statisztikát, majd megtudhatjuk, milyen nagynak kell lennie a mintánkban.