A távoli értékek olyan adatértékek, amelyek nagyban különböznek az adatkészlet többségétől. Ezek az értékek kívül esnek az adatokban megjelenő általános tendencián. Néhány nehézséget okoz egy adatsor gondos vizsgálata a külsõ részek keresése érdekében. Noha könnyű belátni, hogy esetleg stemplot használatával bizonyos értékek különböznek a többi adattól, mennyire különbözik az értéket külsõnek kell tekinteni? Megvizsgálunk egy konkrét mérést, amely objektív mércét ad nekünk arról, hogy mi jelent külsőséget.
Interquartilis tartomány
Az interquartilis tartomány ezt használhatjuk annak meghatározására, hogy egy szélsőséges érték valóban kívülálló-e. Az interkvartilis tartomány a öt szám összefoglaló adatkészlet, nevezetesen az első kvartilis és a harmadik kvartilis. Az intervartilis tartomány kiszámítása egyetlen aritmetikai műveletet foglal magában. Csak annyit kell tennünk, hogy megtaláljuk az interkvartilis tartományt, az, hogy kivonjuk az első kvartilt a harmadik kvartilisből. Az ebből eredő különbség megmutatja nekünk, mennyire eloszlik adataink középső fele.
A külsőségek meghatározása
Az interkvartilis tartomány (IQR) szorzásának 1,5-szörösével megkapjuk a módját annak meghatározására, hogy egy bizonyos érték túlmutat-e. Ha kivonjuk az 1,5x IQR-t az első kvartilisből, akkor az ezen számnál kisebb adatértékeket kiugrónak tekintjük. Hasonlóképpen, ha 1,5 x IQR-t adunk a harmadik kvartilishez, akkor az ezen számnál nagyobb adatértékeket kiugrónak tekintjük.
Erõs túlmutatók
Egyes túlmutatók rendkívüli eltérést mutatnak az adatkészlet többi részétől. Ezekben az esetekben megtehetjük a fentről lépéseket, megváltoztatva csak az IQR-vel szorozott számot, és meghatározva egy bizonyos típusú külsőt. Ha kivonjuk a 3,0 x IQR-t az első kvartilisből, akkor minden olyan pontot, amely ezen a szám alatt van, erős outliernek nevezzük. Ugyanígy, a 3,0 x IQR hozzáadása a harmadik kvartilishez lehetővé teszi számunkra, hogy az erősebb külső értékeket az ezen számot meghaladó pontok megfigyelésével definiáljuk.
Gyenge pontok
Az erős túlmutatók mellett létezik egy másik kategória a túlmutatók számára is. Ha egy adatérték túlmenõ, de nem erõs, akkor azt mondjuk, hogy az érték gyenge. Néhány példát vizsgálva megvizsgáljuk ezeket a fogalmakat.
1. példa
Először tegyük fel, hogy megvan a {1, 2, 2, 3, 3, 4, 5, 5, 9} adatkészlet. A 9-es szám minden bizonnyal úgy néz ki, mintha ez kívülálló lehet. Ez sokkal nagyobb, mint bármely más érték a készlet többi részénél. A fenti módszereket használjuk annak objektív meghatározására, hogy a 9 kívül esik-e. Az első kvartilis 2 és a harmadik kvartilis 5, ami azt jelenti, hogy az interkvartilis tartomány 3. Az interkvartilis tartományt megszorozzuk 1,5-sel, így 4,5-et kapunk, majd ezt a számot hozzáadjuk a harmadik kvartilishez. Az eredmény, 9,5, nagyobb, mint bármelyik adatérték. Ezért nincs túlmutat.
2. példa
Most ugyanolyan adatkészletet tekintünk, mint korábban, azzal a kivétellel, hogy a legnagyobb érték inkább 10, hanem 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Az első kvartilis, a harmadik kvartilis és az intervartilis tartomány megegyezik az 1. példával. Ha 1,5 x IQR = 4,5-et adunk a harmadik kvartilishez, akkor az összeg 9,5. Mivel a 10-nél nagyobb, mint 9,5, úgy tekintik kívülállónak.
A 10 erős vagy gyenge külső? Ehhez 3 x IQR = 9-et kell vizsgálnunk. Amikor hozzáadunk 9-et a harmadik kvartilishez, 14 összeggel járunk. Mivel a 10 nem haladja meg a 14-et, ez nem egy erőteljes távolság. Így azt a következtetést vonhatjuk le, hogy a 10 gyenge külsõ.
A túlmutatók azonosításának okai
Mindig figyelmen kívül kell hagynunk a távoli személyeket. Időnként hibát okoznak. Más esetekben a túllépés egy korábban ismeretlen jelenség jelenlétére utal. Egy másik ok, hogy szorgalmaznunk kell a túlmutatók ellenőrzésében, az összes ok miatt leíró statisztika amelyek érzékenyek a túlmutatókra. Az átlag, szórás és korrelációs együtthatója párosított adatok csak néhány ilyen típusú statisztika.