Példa két T minta-tesztre és konfidencia-intervallumra

A statisztikákban néha hasznos a problémák kidolgozott példáinak megtekintése. Ezek a példák segíthetnek nekünk a hasonló problémák kitalálásában. Ebben a cikkben végigvezetjük a következtetési statisztikák készítésének folyamatát két populációt érintő eredményre vonatkozóan. Nem csak azt fogjuk látni, hogyan kell a hipotézis teszt a két népesség közti különbségről a következőt is felépítjük: megbízhatósági intervallum erre a különbségre. Az általunk alkalmazott módszereket néha két mintás t-tesztnek és két mintás t-konfidencia intervallumnak nevezzük.

A probléma megállapítása

Tegyük fel, hogy ki akarjuk próbálni az iskolás gyerekek matematikai alkalmasságát. Az egyik kérdés, hogy felmerülhetünk-e, ha a magasabb fokozatú szintek magasabb átlagértékekkel rendelkeznek.

Egy 27 véletlenszerű, véletlenszerű minta alapján matematikai tesztet kapnak, a válaszokat pontozják, és az eredmények átlagban 75 pontot kapnak egy a minta szórása 3 pontból.

Egy 20 ötödik osztályos véletlenszerű mintának ugyanazt a matematikai tesztet kell kapnia, és a válaszokat pontozni kell. Az ötödik osztályosok átlagos pontszáma 84 pont, mintavétel szórása 5 pont.

instagram viewer

Tekintettel erre a forgatókönyvre, a következő kérdéseket tesszük fel:

  • Bizonyít-e bizonyítékot a mintaadatok arra, hogy az ötödik osztályosok populációjának átlagos tesztértéke meghaladja az összes harmadik osztályos népességének átlagos tesztpontját?
  • Mekkora a 95% -os megbízhatósági intervallum a harmadik és az ötödik osztályosok populációi közötti átlagos pontszámok közötti különbség szempontjából?

Feltételek és eljárás

Ki kell választanunk az alkalmazandó eljárást. Ennek során meg kell győződnünk arról, hogy teljesülnek-e az eljárás feltételei. Felkérjük a két népességösszeg összehasonlítását. Az ehhez felhasználható módszerek egy gyűjteményét a kétmintás t-eljárásoknál alkalmazzák.

Annak érdekében, hogy ezeket a t-eljárásokat két mintán lehessen használni, meg kell győződnünk arról, hogy a következő feltételek fennállnak:

  • Két egyszerű véletlenszerű mintánk van a két érdeklődő populációból.
  • Egyszerű véletlenszerű mintánk nem képezi a népesség több mint 5% -át.
  • A két minta egymástól független, és a vizsgált alanyok között nincs egyezés.
  • A változó általában eloszlik.
  • Mind a populáció átlaga, mind a szórás mindkét populáció esetében ismeretlen.

Látjuk, hogy e feltételek nagy része teljesül. Azt mondták nekünk, hogy egyszerű véletlenszerű mintáink vannak. Az általunk tanulmányozott népesség nagy, mivel több millió hallgató van ezekben a fokozatban.

Az a feltétel, amelyet nem tudunk automatikusan feltételezni, az a, ha a teszteredményeket rendesen eloszlik. Mivel elég nagy a mintánk, t-eljárásunk robusztussága miatt nincs szükségünk a változó normál eloszlására.

Mivel a feltételek teljesülnek, végezzünk egy pár előzetes számítást.

Szabványos hiba

A standard hiba a szórás becslése. Ehhez a statisztikához hozzáadjuk a minták szórásváltozását, majd vesszük a négyzetgyökét. Ez a következő képletet adja meg:

(s1 2 / n1 + s22 / n2)1/2

A fenti értékek felhasználásával láthatjuk, hogy a standard hiba értéke

(32 / 27+ 52 / 20)1/2 =(1 / 3 + 5 / 4 )1/2 = 1.2583

Szabadságfokok

A konzervatív közelítést alkalmazhatjuk fokú szabadság. Ez alábecsülheti a szabadságfokok számát, de sokkal könnyebb kiszámítani, mint a Welch képlete. A két mintaméret közül a kisebbet használjuk, majd kivonunk egyet ebből a számból.

Példánkban a kettő közül a kisebb a 20. Ez azt jelenti, hogy a szabadságfokok száma 20 - 1 = 19.

Hipotézis teszt

Próbáljuk kipróbálni azt a hipotézist, miszerint az ötödik osztályú diákok átlagos tesztértéke nagyobb, mint a harmadik osztályú diákok átlagos pontszáma. Legyen μ1 az ötödik osztályosok népességének átlaga. Hasonlóképpen hagyjuk μ-t2 az összes harmadik osztályos népességének átlagos pontszáma.

A hipotézisek a következők:

  • H0: μ1 - μ2 = 0
  • Hegy: μ1 - μ2 > 0

A teszt statisztika a minta átlagának különbsége, amelyet ezután elosztunk a standard hibával. Mivel a populáció szórásának becslésére minta-szórásokat alkalmazunk, a teszt statisztikája a t-eloszlásból származik.

A teszt statisztika értéke (84–75) / 1,2583. Ez körülbelül 7.15.

Most meghatározzuk, mi a p-érték e hipotézis teszthez. Megvizsgáljuk a tesztstatisztika értékét, és ahol ez egy 19-es szabadságfokú t-eloszláson helyezkedik el. Ehhez az eloszláshoz 4,2 x 10-es méretünk van-7 mint p-értékünk. (Ennek egyik módja a T.DIST.RT függvény használata az Excelben.)

Mivel ilyen kicsi p-értékünk van, elutasítjuk a nullhipotézist. A következtetés az, hogy az ötödik osztályosok átlagos tesztértéke magasabb, mint a harmadik osztályosok átlagos tesztértékei.

Megbízhatósági intervallum

Mivel megállapítottuk, hogy különbség van az átlagértékek között, most meghatározzuk a konfidencia intervallumot a két átlag közötti különbségre. Sok mindent megtalálunk, amire szükségünk van. A különbség megbízhatósági intervallumának becslésnek és hibahatárnak egyaránt tartalmaznia kell.

A két átlag különbségének becslése egyértelmű. Egyszerűen megtaláljuk a minta átlagának különbségét. A minta átlagának ez a különbsége becsli a populációs átlag különbségét.

Adataink szerint a minta átlagának különbsége 84 - 75 = 9.

A hibahatár kissé nehezebb kiszámítani. Ehhez meg kell szoroznunk a megfelelő statisztikát a standard hibával. A statisztikát, amelyre szükségünk van, egy táblázattal vagy egy statisztikai szoftverrel találjuk meg.

A konzervatív közelítést használva 19 szabadságfokunk van. 95% -os konfidencia intervallumon látjuk, hogy t* = 2.09. Használhatjuk a A T.INV funkció Excelen belüll kiszámolom ezt az értéket.

Most összerakunk mindent, és látjuk, hogy a hibahatár 2,09 x 1,2583, ami körülbelül 2,63. A konfidencia intervallum 9 ± 2,63. Az intervallum 6,37 és 11,63 pont között van az ötödik és a harmadik osztályos választott teszt során.