A lineáris regresszió egy statisztikai technika, amelyet arra használunk, hogy megismerjék a független (prediktív) változó és a függő (kritérium) változó közötti kapcsolatot. Ha egynél több független változó van az elemzésében, ezt többszörös lineáris regressziónak nevezzük. A regresszió általában lehetővé teszi a kutató számára, hogy feltegye a következő kérdést: „Mi a legjobb előrejelzője a… -nak?”
Tegyük fel például, hogy tanulmányoztuk a elhízottság, testtömeg-index (BMI) alapján mérve. Különösen azt akartuk megtudni, hogy az alábbi változók jelentősen megjósolják-e az ember BMI-jét: a gyorséttermek száma hetente elfogyasztott ételek, hetente nézett televíziós órák száma, hetente gyakorlott percek száma és a szülők BMI. A lineáris regresszió jó módszer lenne az elemzéshez.
A regressziós egyenlet
Ha egy független változóval regressziós elemzést végez, akkor a regressziós egyenlet Y = a + b * X, ahol Y a függõ változó, X a független változó, a a konstans (vagy elfogás), és b az a regressziós vonal meredeksége
. Tegyük fel például, hogy a GPA-t a legjobban az 1 + 0,02 * IQ regressziós egyenlet megjósolja. Ha egy hallgató IQ-ja 130, akkor a GPA értéke 3,6 (1 + 0,02 * 130 = 3,6).Amikor olyan regressziós elemzést végez, amelyben egynél több független változóval rendelkezik, a regressziós egyenlet Y = a + b1 * X1 + b2 * X2 +… + Bp * Xp. Például, ha több változót szeretnénk bevonni a GPA elemzésbe, például a motiváció és az önfegyelem mérőszámát, akkor ezt használnánk egyenlet.
R-négyzet
R-négyzet, más néven a meghatározási együttható, egy általánosan használt statisztika a regressziós egyenlet modell illesztésének értékelésére. Vagyis mennyire jó az összes független változó a függő változó előrejelzéséhez? Az R-négyzet értéke 0,0-tól 1,0-ig terjed, és szorozható 100-zal, hogy százalékot kapjon variancia magyarázható. Visszatérve például a GPA regressziós egyenletéhez, amelyben csak egy független változó (IQ) van... Tegyük fel, hogy Az egyenlet R-négyzete 0,4 volt. Értelmezhetjük azt úgy, hogy a GPA variancia 40% -át magyarázza IQ. Ha hozzáadjuk a másik két változót (motiváció és önfegyelem), az R-négyzet növekszik 0,6, ez azt jelenti, hogy az IQ, a motiváció és az önfegyelem együttesen magyarázza a GPA variancia 60% -át pontszámok.
A regressziós elemzéseket általában statisztikai szoftverekkel - például SPSS vagy SAS - végzik, így kiszámítják az R-négyzetet.
A regressziós együtthatók értelmezése (b)
A fenti egyenletekből származó b együtthatók a független és a függő változók közötti kapcsolat erősségét és irányát képviselik. Ha a GPA és az IQ egyenletet nézzük, akkor 1 + 0,02 * 130 = 3,6, 0,02 az IQ változó regressziós együtthatója. Ez azt mondja nekünk, hogy a kapcsolat iránya pozitív, így az IQ növekedésével a GPA is növekszik. Ha az egyenlet 1 - 0,02 * 130 = Y, akkor ez azt jelentené, hogy az IQ és a GPA közötti kapcsolat negatív volt.
Feltételezések
Számos feltételezés létezik az adatokkal kapcsolatban, amelyeket teljesíteni kell a lineáris regressziós elemzés elvégzéséhez:
- Linearitás: Feltételezzük, hogy a független és függő változók közötti kapcsolat lineáris. Bár ezt a feltételezést soha nem lehet teljes mértékben megerősíteni, a szórásgörbe a változóinak száma segíthet ebben a meghatározásban. Ha a kapcsolat görbülete van, akkor fontolóra veheti a változók átalakítását vagy a nemlineáris komponensek kifejezett engedélyezését.
- normalitás: Feltételezzük, hogy a maradékok változóinak normál eloszlása van. Vagyis az Y (a függő változó) értékének előrejelzésében szereplő hibákat úgy osztják el, hogy megközelítsék a normál görbét. Megnézheted hisztogram vagy normál valószínűségi diagramok, amelyek megvizsgálják a változók eloszlását és azok maradványértékét.
- Függetlenség: Feltételezzük, hogy az Y érték becslésében bekövetkező hibák függetlenek egymástól (nem összefüggésben vannak).
- homoszkedaszticitás: Feltételezzük, hogy a regressziós vonal körüli variancia a független változók összes értéke esetében azonos.
Forrás
- StatSoft: Elektronikus statisztikai tankönyv. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.