Bizalmi intervallumok az egyik része következtetési statisztikák. A téma alapvető gondolata az ismeretlen populáció értékének becslése paraméter statisztikai minta felhasználásával. Nem csak egy paraméter értékét tudjuk becsülni, hanem módszereinket adaptálhatjuk a két kapcsolódó paraméter közötti különbség becslésére is. Előfordulhat például, hogy meg akarjuk találni a különbséget a bizonyos szavazati törvényt támogató egyesült államokbeli férfi szavazó népesség arányában a női szavazó népességhez viszonyítva.
Látjuk, hogyan kell elvégezni az ilyen típusú számítást úgy, hogy egy konfidencia intervallumot építünk a két populációarány különbségére. A folyamat során megvizsgáljuk a kalkuláció mögött álló elmélet egy részét. Látni fogunk néhány hasonlóságot a konfidencia intervallum egyetlen populációarányra valamint a a két populáció közti különbség konfidencia intervalluma.
általánosságokban
Mielőtt megnéznénk az általunk használt speciális képletet, vizsgáljuk meg azt az általános keretet, amelybe az ilyen típusú konfidencia intervallum belefér. A megbízhatósági intervallum típusát, amelyet megvizsgálunk, a következő képlet ad:
Becslés +/- hibahatár
Számos megbízhatósági intervallum ilyen típusú. Két számot kell kiszámítanunk. Ezen értékek közül az első a paraméter becslése. A második érték a hibahatár. Ez a hibahatár annak a ténynek tulajdonítható, hogy van becslésünk. A megbízhatósági intervallum az ismeretlen paraméter lehetséges értékeinek sorozatával szolgál.
Körülmények
A számítás elvégzése előtt meg kell győződnie arról, hogy az összes feltétel teljesül-e. A két populációarány különbségére vonatkozó megbízhatósági intervallum megállapításához meg kell győződnünk arról, hogy a következő áll fenn:
- Van ketten egyszerű véletlenszerű minták nagy népességből. Itt a „nagy” azt jelenti, hogy a populáció legalább húszszor nagyobb, mint a minta. A minta méretét jelöli n1 és n2.
- Magánszemélyeinket egymástól függetlenül választottuk.
- Mindegyik mintánkban legalább tíz siker és tíz kudarc van.
Ha a lista utolsó eleme nem teljesül, akkor lehet, hogy megkerüljük ezt. Módosíthatjuk a plusz négy konfidencia intervallum építés és beszerzés robusztus eredmények. Előrehaladva feltételezzük, hogy a fenti feltételek teljesültek.
Minta és a lakosság aránya
Most készen állunk a bizalmi intervallum felépítésére. A népesség aránya közötti különbség becslésével kezdjük. A populáció mindkét arányát mintavételi arány alapján becsüljük meg. Ezek a mintaarányok olyan statisztikák, amelyeket úgy találunk meg, hogy az egyes mintákban megszerezzük a sikerek számát, majd elosztjuk a megfelelő minta méretével.
Az első népesség arányt a 10 jelöli p1. Ha a mintánk sikereinek száma ebből a populációból: k1, akkor mintánk aránya k1 / n1.
Ezt a statisztikát p̂-vel jelöljük1. Ezt a szimbólumot úgy olvassuk, mint "p1-e ", mert úgy néz ki, mint a p1 tetején kalap.
Hasonló módon kiszámolhatunk egy minta arányt a második populációnkból. A populáció paramétere: p2. Ha a mintánk sikereinek száma ebből a populációból: k2, és a minta aránya p̂2 = k2 / n2.
Ez a két statisztika a bizalmi intervallumunk első részévé válik. A becslés: p1 p̂1. A becslés: p2 p̂2. Tehát a különbség becslése p1 - p2 p̂1 - p̂2.
A mintavételi arány megoszlása a minta arányok különbségében
Ezután ki kell szereznünk a hibahatár képletét. Ehhez először megvizsgáljuk a következőket: mintavételi eloszlás p̂1 . Ez egy binomiális eloszlás, a siker valószínűségével p1 és n1 vizsgálatokban. Ennek az eloszlásnak az átlaga az arány p1. Az ilyen típusú véletlenszerű változó szórása: p1 (1 - p1 )/n1.
A p̂ mintavételi eloszlása2 hasonló a p̂éhoz1 . Egyszerűen változtassa meg az összes mutatót 1-ről 2-re, és binomiális eloszlást kapunk p átlaggal2 és varianciája p2 (1 - p2 )/n2.
Most szükségünk van néhány eredményre a matematikai statisztikákból a p̂ mintavételi eloszlásának meghatározásához1 - p̂2. Ennek az eloszlásnak az átlaga: p1 - p2. Mivel a varianciák összeadódnak, láthatjuk, hogy a mintavételi eloszlás varianciája p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. Az eloszlás szórása ennek a képletnek a négyzetgyöke.
Van néhány módosítás, amelyeket elvégeznünk kell. Az első az, hogy a p̂ szórásának képlete1 - p̂2 az ismeretlen paramétereket használja p1 és p2. Természetesen, ha tényleg tudnánk ezeket az értékeket, akkor ez egyáltalán nem lenne érdekes statisztikai probléma. Nem kellene megbecsülnünk a különbséget p1 és p2.. Ehelyett egyszerűen kiszámíthatjuk a pontos különbséget.
Ezt a problémát a szórás helyett a standard hiba kiszámításával lehet megoldani. Csak annyit kell tennünk, hogy a populáció arányát pótolni kell a minta arányaival. A standard hibákat a statisztikák helyett a paraméterek helyett számítják. A standard hiba akkor hasznos, mert hatékonyan becsüli meg a szórást. Ez számunkra azt jelenti, hogy nem kell többé tudnunk a paraméterek értékét p1 és p2. .Mivel ezek a mintaarányok ismertek, a standard hibát a következő kifejezés négyzetgyöke adja:
p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
A második elem, amelyet meg kell vizsgálnunk, a mintavételi elosztás sajátos formája. Kiderült, hogy normál eloszlást használhatunk a p̂ mintavételi eloszlásának közelítésére1 - p̂2. Ennek oka kissé technikai jellegű, de ezt a következő bekezdés ismerteti.
Mindkét p̂1 és p̂2 legyen binomiális mintavételi eloszlása. A binomiális eloszlások mindegyikét egy normál eloszlás meglehetősen jól megközelítheti. Így p̂1 - p̂2 egy véletlen változó. Két véletlenszerű változó lineáris kombinációjaként alakul ki. Ezek mindegyikét normál eloszlás közelíti. Ezért a p̂ mintavételi eloszlása1 - p̂2 szintén normálisan eloszlik.
Bizalmi intervallum képlet
Most már van mindent, amire szükségünk van a bizalmi intervallum összeállításához. A becslés (p̂1 - p̂2) és a hibahatár Z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Az az érték, amelyet megadunk Z * a bizalom szintje diktálja C. A. Általánosan használt értékek Z * 1,65 a 90% -os megbízhatóság és 1,96 a 95% -os megbízhatóság szempontjából. Ezek az értékek a Z * jelölje meg a normál normál eloszlás azon részét, ahol pontosan C Az eloszlás százaléka között van -z * és Z *.
Az alábbi képlet ad megbízhatósági intervallumot a két populációarány különbségére:
(p1 - p̂2) +/- Z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5