Adattisztítás a szociológia adatelemzéséhez

Az adattisztítás az adatelemzés kritikus része, különösen akkor, ha saját mennyiségi adatait gyűjti. Az adatok összegyűjtése után be kell írnia azokat egy számítógépes programba, például SAS, SPSS vagy Excel. Ennek a folyamatnak a során hiba történik, akár kézzel, akár számítógépes lapolvasóval történik. Nem számít, mennyire gondosan adagolták be az adatokat, a hibák elkerülhetetlenek. Ez a kódolás helytelenségét, az írott kódok helytelen olvasását, a feketedik jelek helytelen érzékelését, hiányzó adatokat jelentheti stb. Az adattisztítás a kódolási hibák észlelésének és kijavításának a folyamata.

Kétféle adattisztítás van, amelyet az adatkészletekhez végre kell hajtani. Lehetséges kódtisztítás és rendkívüli tisztítás. Mindkettő döntő jelentőségű az adatelemzési folyamatban, mivel ha figyelmen kívül hagyjuk, szinte mindig félrevezető kutatási eredményeket fog előállítani.

Lehetséges kódtisztítás

Bármely adott változónak van egy meghatározott választási lehetősége és kódja, amely megfelel az egyes választási lehetőségeknek. Például a változó

instagram viewer

nem három válaszválasztással és kóddal rendelkezik mindegyikhez: 1 férfi, 2 nő és 0, ha nincs válasz. Ha rendelkezik egy válaszadóval, amely erre a változóra 6-ot kódolt, egyértelmű, hogy hibát követett el, mivel ez nem lehetséges válaszkód. A lehetséges kódtisztítás annak ellenőrzése, hogy minden kérdésre csak a válaszválasztáshoz rendelt kódok (lehetséges kódok) jelennek meg az adatfájlban.

Néhány, az adatbevitelre rendelkezésre álló számítógépes program és statisztikai szoftvercsomag ellenőrzi az ilyen típusú hibákat az adatok bevitelekor. Itt a felhasználó meghatározza az egyes kérdésekre vonatkozó lehetséges kódokat az adatok bevitele előtt. Ezután, ha egy számot ad meg az előre meghatározott lehetőségeken kívül, hibaüzenet jelenik meg. Például, ha a felhasználó megkísérelt beírni a nemet, akkor a számítógép sípoló hangot ad, és elutasítja a kódot. Más számítógépes programokat úgy tervezték, hogy teszteljék a kitöltött adatfájlok illegális kódjait. Vagyis ha az adatbeviteli folyamat során nem ellenőrizték a fent leírt módon, akkor az adatok bevitele után ellenőrizheti a fájlok kódolási hibáit.

Ha nem számítógépes programot használ, amely az adatbeviteli folyamat során ellenőrzi a kódolási hibákat, néhány hibát egyszerűen úgy találhat meg, hogy megvizsgálja az adatok egyes elemeire adott válaszok eloszlását készlet. Például létrehozhat egy frekvencia táblát a változó számára nem és itt látná a 6-os számot, amelyet tévesen írtak be. Ezután megkeresheti ezt a bejegyzést az adatfájlban, és kijavíthatja.

Vészhelyzeti tisztítás

A második típusú adat A takarítást rendkívüli tisztításnak nevezzük, és egy kicsit bonyolultabb, mint a lehetséges kódtisztítás. Az adatok logikai felépítése bizonyos korlátokat szabhat bizonyos válaszadók válaszaira vagy bizonyos változókra. A rendkívüli tisztítás annak ellenőrzésének folyamata, hogy valójában csak azokban az esetekben rendelkeznek ilyen adatokkal, amelyeknek rendelkezniük kell egy adott változó adataival. Tegyük fel például, hogy van egy kérdőív, amelyben megkérdezi a válaszadókat, hányszor voltak terhes. Az összes női válaszadónak rendelkeznie kell az adatokban kódolt válaszokkal. A hímeknek azonban üresnek kell lenniük, vagy a válaszadás elmulasztásához speciális kóddal kell rendelkezniük. Ha az adatokban szereplő férfiak például 3 terhességgel vannak kódolva, akkor tudod, hogy van egy hiba, és ki kell javítani.

_Irodalom

_{Babbie, E. (2001). A társadalmi kutatás gyakorlata: 9. kiadás. Belmont, Kalifornia: Wadsworth Thomson.}