Valójában nincs szabály, hogy hány osztálynak kell lennie. Van néhány dolog, amelyet figyelembe kell venni az osztályok számát illetően. Ha csak egy osztály lenne, akkor az összes adat ebbe az osztályba esne. Hisztogramunk egyszerűen egy téglalap, amelynek magasságát az adatkészletünkben szereplő elemek száma adja meg. Ez nem lenne nagyon hasznos, vagy hasznos hisztogram.
A másik végén sokféle osztály lehet. Ennek eredményeként sok rúd lenne, amelyek közül egyik sem valószínűleg túl magas. Nagyon nehéz lenne megkülönböztető tulajdonságokat meghatározni az adatokból az ilyen típusú hisztogram használatával.
E két szélsőség ellen védve van egy hüvelykujjszabály, amellyel meghatározhatjuk a hisztogram osztályok számát. Ha viszonylag kis adatkészlettel rendelkezik, általában csak körülbelül öt osztályt használunk. Ha az adatkészlet viszonylag nagy, akkor körülbelül 20 osztályt használunk.
Ismételje meg újra, hogy ez hüvelykujjszabály, nem abszolút statisztikai elv. Jó okok lehetnek az adatok osztályának eltérő száma számára. Látni fogunk erre egy példát az alábbiakban.
Mielőtt néhány példát megvizsgálnánk, meglátjuk, hogyan lehet meghatározni, hogy mi az osztály valójában. Ezt a folyamatot azzal kezdjük meg, hogy megtaláljuk a hatótávolság adatainkból. Más szavakkal, levonjuk a legalacsonyabb adatértéket a legmagasabb adatértékből.
Ha az adatkészlet viszonylag kicsi, akkor a tartományt osztjuk ötvel. Az hányados a hisztogramunk osztályainak szélessége. Valószínűleg meg kell tennünk néhány kerekítést ebben a folyamatban, ami azt jelenti, hogy az osztályok teljes száma nem lehet öt.
Ha az adatkészlet viszonylag nagy, akkor a tartományt 20-dal osztjuk. Csakúgy, mint korábban, ez az osztási probléma megadja nekünk az osztályok szélességét hisztogramunk számára. Ugyanakkor, amint azt korábban láttuk, kerekítésünk valamivel több, vagy valamivel kevesebb, mint 20 osztályt eredményezhet.
Bármelyik nagy vagy kicsi adathalmaz esetén az első osztályt egy olyan ponton indítjuk el, amely valamivel kevesebb, mint a legkisebb adat. Ezt úgy kell megtennünk, hogy az első adatérték az első osztályba essen. Más további osztályokat a szélesség határoz meg, amelyet a tartomány megosztásánál állítottak be. Tudjuk, hogy az utolsó osztályban vagyunk, amikor a legnagyobb adatértéket ez az osztály tartalmazza.
Példaként meghatározzuk a megfelelő osztályszélességet és osztályokat az adatkészlethez: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.
Látjuk, hogy a készletünkben 27 adatpont van. Ez egy viszonylag kicsi halmaz, tehát a tartományt ötre osztjuk. A tartomány 19,2 - 1,1 = 18,1. Elosztjuk a 18,1 / 5 = 3,62-et. Ez azt jelenti, hogy a 4-es osztályszélesség megfelelő lenne. A legkisebb adatértéke 1,1, tehát az első osztályt egy ennél alacsonyabb ponton indítjuk. Mivel adataink pozitív számokból állnak, ésszerű lenne az első osztályt 0-ról 4-re tenni.
Tegyük fel például, hogy egy feleletválasztós teszt van 35 kérdéssel, és a középiskolában 1000 hallgató teszteget. Hisztogramot szeretnénk létrehozni, amely megmutatja a teszten bizonyos pontszámokat elért hallgatók számát. Látjuk, hogy 35/5 = 7 és hogy 35/20 = 1,75. Annak ellenére, hogy az ujjszabályunk megadja nekünk a hisztogramhoz használt 2. vagy 7. szélességű osztály kiválasztását, jobb lehet, ha az 1. szélességű osztályok vannak. Ezek az osztályok megfelelnének minden olyan kérdésnek, amelyre a hallgató helyesen válaszolt a teszt során. Az első középpontja a 0, az utóbbi pedig a 35.