Bizalmi intervallumok felhasználható több népesség becslésére paraméterek. Az egyik típusú paraméter, amely felhasználásával becsülhető meg következtetési statisztikák a népesség aránya. Például érdemes tudni, hogy az Egyesült Államok lakosságának hány százaléka támogat egy adott jogszabályt. Az ilyen típusú kérdésekhez meg kell találnunk egy konfidencia intervallumot.
Ebben a cikkben meglátjuk, hogyan állíthatunk elő egy konfidencia intervallumot a népesség arányához, és megvizsgáljuk ennek hátterében álló néhány elméletet.
Általános keret
Először a nagy képet nézzük meg, még mielőtt áttekinnénk a részleteket. A megbízhatósági intervallum típusát, amelyet figyelembe veszünk, a következő formában van:
Becslés +/- hibahatár
Ez azt jelenti, hogy két számot kell meghatároznunk. Ezek az értékek a kívánt paraméter becslései, a hibahatárral együtt.
Körülmények
Bármely statisztikai vizsgálat vagy eljárás elvégzése előtt fontos ellenőrizni, hogy az összes feltétel teljesül-e. A lakosság arányának megbízhatósági intervallumához meg kell győződnünk arról, hogy az alábbiak érvényesek:
- Nekünk van egyszerű véletlenszerű minta méretű n egy nagy népességből
- Magánszemélyeinket egymástól függetlenül választottuk.
- Legalább 15 siker és 15 kudarc van a mintánkban.
Ha az utolsó elem nem teljesül, akkor előfordulhat, hogy a mintát kissé módosíthatjuk, és használhatjuk a plusz négy konfidencia intervallum. A következőkben feltételezzük, hogy a fenti feltételek teljesültek.
Minta- és lakossági arányok
A népesség arányának becslésével kezdjük. Ahogyan a minta átlagot használjuk a népesség átlagának becslésére, a minta arányát használjuk a népesség arányának becslésére. A populáció aránya ismeretlen paraméter. A minta aránya statisztika. Ezt a statisztikát úgy kapjuk meg, hogy megszámoljuk a mintánkban levő sikerek számát, majd elosztjuk a mintában szereplő egyének teljes számával.
A népesség arányát jelöli p és magától értetődő. A minta arányának jelölése valamivel inkább érintett. A minta arányát p̂-nek jelöljük, és ezt a szimbólumot "p-hat" -nak olvastam, mert úgy néz ki, mint a levél p tetején kalap.
Ez lesz a bizalom intervallumunk első része. P becslése p̂.
A mintavétel megoszlása a minta arányában
A hibahatár képletének meghatározásához meg kell gondolni a mintavételi eloszlás p̂. Tudnunk kell az átlagot, a szórást és az eloszlást, amelyen dolgozunk.
A p̂ mintavételi eloszlása egy binomiális eloszlás, a siker valószínűségével p és n vizsgálatokban. Az ilyen típusú véletlen változó átlaga: p és a szórás (p(1 - p)/n)0.5. Ennek két problémája van.
Az első probléma az, hogy a binomiális eloszlás nagyon bonyolult lehet. A tényezők jelenléte nagyon nagy számhoz vezethet. Ez az, ahol a feltételek segítenek nekünk. Amíg feltételeink teljesülnek, a binomiális eloszlást a normál normál eloszlással becsülhetjük meg.
A második probléma az, hogy a p̂ szórása használja p a meghatározásában. Az ismeretlen populációs paramétert ugyanazzal a paraméterrel kell becsülni, mint a hibahatárnál. Ez a körkörös érvelés olyan probléma, amelyet meg kell oldani.
Ennek a nehézségnek a kiútja az, hogy a szórást a hibával helyettesítse. A standard hibák statisztikán, és nem paramétereken alapulnak. A szórás becsléséhez egy standard hibát kell használni. Miért érdemes ezt a stratégiát az, hogy már nem kell ismernünk a paraméter értékét o.
Képlet
A standard hiba használatához kicseréljük az ismeretlen paramétert p a p̂ statisztikai adatokkal. Az eredmény a következő képlet egy megbízhatósági intervallumra a populáció arányában:
p̂ +/- Z * (p̂ (1 - p̂) /n)0.5.
Itt a Z * a bizalom szintje határozza meg C. Pontosan a normál normál eloszláshoz C A normál normál eloszlás százaléka -z * és Z *. Közös értékek a Z * tartalmazzák 1,655-et 90% -os megbízhatósággal és 1,96-ot 95% -os megbízhatósággal.
Példa
Lássuk, hogyan működik ez a módszer egy példával. Tegyük fel, hogy 95% -os bizalommal szeretnénk megismerni azt a megyében lévő választók százalékát, amely demokratikusnak bizonyul. Vetünk egy egyszerű véletlenszerű, 100 embert tartalmazó mintát ebben a megyében, és azt találjuk, hogy 64 ember azonosítja demokratát.
Látjuk, hogy az összes feltétel teljesül. A lakosság arányának becslése 64/100 = 0,64. Ez a p̂ minta aránya és ez a konfidencia-intervallum középpontja.
A hibahatár két részből áll. Az első az Z*. Mint mondtuk, a 95% -os bizalom érdekében a Z* = 1.96.
A hibahatár másik részét a következő képlet adja meg (p̂ (1 - p̂) /n)0.5. A p set = 0,64-et állítjuk be és kiszámítjuk = a standard hibát (0,64 (0,36) / 100)0.5 = 0.048.
Szorozzuk meg ezt a két számot, és 0,09408 hibát kapunk. A végeredmény:
0.64 +/- 0.09408,
vagy átírhatjuk ezt 54,592% -ról 73,408% -ra. Így 95% -kal biztosak vagyunk abban, hogy a demokraták valódi népességaránya valahol ezen százalékos tartományban van. Ez azt jelenti, hogy hosszú távon technikánk és képletünk fogja meghatározni az idő 95% -át.
Kapcsolódó ötletek
Számos ötlet és téma kapcsolódik ehhez a megbízhatósági intervallumhoz. Például elvégezhetnénk egy hipotézis tesztet a lakosság arányának függvényében. Össze tudjuk hasonlítani két különböző populáció két arányát is.