U statistici, outlier ili "outlier" je podatak koji jako odstupa od bilo kojeg drugog podatka u uzorku ili skupu datuma (skup datuma naziva se podacima). Često, isticanje u skupu datuma može poslužiti kao upozorenje statističaru na abnormalnost ili eksperimentalnu grešku u izvršenim mjerenjima, što bi moglo dovesti do toga da statističar ukloni izdvojenost iz skupa podataka. Ako statističar ukloni isticanje iz skupa podataka, zaključci izvedeni iz studije mogu biti vrlo različiti. Stoga je poznavanje načina izračunavanja i analize odstupanja vrlo važno kako bi se osiguralo ispravno razumijevanje statističkog skupa podataka.
Korak
Korak 1. Naučite kako prepoznati potencijalno izvanredne datume
Prije nego što odlučimo hoćemo li ukloniti izvanredne datume iz skupa datuma ili ne, naravno moramo identificirati koji datumi imaju potencijal da postanu izvanredni. Općenito, outlier je podatak koji jako odstupa od ostalih datuma u jednom skupu datuma - drugim riječima, outlier je "izvan" drugih datuma. Obično je lako otkriti odstupanja u tablici podataka ili (posebno) grafikonu. Ako je jedan skup datuma vizualno opisan grafikonom, vanjski datum će se činiti "vrlo udaljenim" od ostalih datuma. Na primjer, ako većina datuma u skupu datuma tvori ravnu liniju, vanjski datum neće se razumno tumačiti kao da tvori tu liniju.
Pogledajmo skup datuma koji predstavljaju temperature 12 različitih objekata u prostoriji. Ako 11 objekata ima temperaturu od oko 70 Fahrenheita (21 stepen Celzijusa), ali 12. objekt, pećnica, ima temperaturu od 300 Fahrenheita (150 stepeni Celzijusa), odmah se može vidjeti da će temperatura u pećnici vrlo vjerojatno biti a outlier
Korak 2. Rasporedite datume u skup datuma od najniže do najviše
Prvi korak za izračunavanje odstupanja u skupu podataka je pronalaženje medijane (srednje vrijednosti) tog skupa podataka. Ovaj zadatak postaje vrlo jednostavan ako su datumi u skupu datuma raspoređeni od najmanjeg do najvećeg. Dakle, prije nego nastavite, rasporedite datume u jedan takav skup podataka.
Nastavimo gornji primjer. Ovo je naš skup datuma koji predstavljaju temperature nekoliko objekata u prostoriji: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ako datume postavimo od najniže do najviše, redoslijed datuma postaje: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Korak 3. Izračunajte medijanu skupa podataka
Medijan skupa datuma je podatak u kojem je druga polovica datuma iznad tog datuma, a preostala polovina ispod njega - u osnovi, taj datum je podatak koji je u "sredini" skupa podataka. Ako je broj datuma u skupu datuma neparan, vrlo ga je lako pronaći - medijana je datum koji ima isti broj iznad i ispod njega. Međutim, ako je broj datuma u skupu datuma paran, tada, jer se niti jedan podatak ne uklapa u sredinu, 2 točke u sredini se prosječno izračunavaju kako bi se našla medijana. Treba napomenuti da se pri izračunavanju odstupanja medijani obično dodjeljuje varijabla Q2-ni jer je Q2 između Q1 i Q3, donjeg i gornjeg kvartila, o čemu ćemo kasnije govoriti.
- Ne treba se miješati sa skupom datuma gdje je broj datuma paran-prosjek od 2 srednje tačke često će vratiti broj koji nije u samom skupu datuma-to je u redu. Međutim, ako su 2 srednja datuma isti broj, prosjek će, naravno, također biti isti broj, što je također u redu.
- U gornjem primjeru imamo 12 datuma. Dva srednja datuma su 6. i 7. datum-70 i 71. Dakle, medijana našeg skupa datuma je prosjek ova 2 broja: ((70 + 71) / 2), = 70.5.
Korak 4. Izračunajte donji kvartil
Ova vrijednost, kojoj dajemo varijablu Q1, je datum koji predstavlja 25 posto (ili četvrtinu) datuma. Drugim riječima, to je podatak koji prepolovljava datume koji su ispod medijane. Ako je broj datuma ispod medijane paran, morate ponovo prosječiti 2 točke u sredini da biste pronašli Q1, baš kao što biste pronašli samu medijanu.
U našem primjeru postoji 6 datuma koji leže iznad medijane i 6 datuma koji leže ispod medijane. To znači da ćemo za pronalaženje donjeg kvartila morati prosječiti 2 datuma na sredini 6 datuma ispod medijane. Treći i četvrti datum od 6 datuma ispod medijane su 70. Dakle, prosjek je ((70 + 70) / 2), = 70. 70 postaje naš Q1.
Korak 5. Izračunajte gornji kvartil
Ova vrijednost, kojoj dajemo varijablu Q3, je datum na kojem se nalazi 25 posto datuma u skupu datuma. Pronalaženje Q3 je približno isto kao i pronalaženje Q1, samo što u ovom slučaju gledamo datume iznad medijane, a ne ispod medijane.
Nastavljajući naš gornji primjer, 2 tačke u sredini od 6 tačaka iznad medijane su 71 i 72. Prosjek ove 2 tačke je ((71 + 72)/2), = 71, 5. 71, 5 je naš Q3.
Korak 6. Pronađite međukvartilnu udaljenost
Sada kada smo pronašli Q1 i Q3, moramo izračunati udaljenost između ove dvije varijable. Udaljenost od Q1 do Q3 nalazi se oduzimanjem Q1 od Q3. Vrijednosti koje dobijete za međukvartilne udaljenosti vrlo su važne za definiranje granica ne-vanjskih datuma u vašem skupu datuma.
- U našem primjeru naše vrijednosti Q1 i Q3 su 70 i 71, 5. Da bismo pronašli međukvartilnu udaljenost, oduzimamo Q3 - Q1 = 71,5 - 70 = 1, 5.
- Treba napomenuti da je to također istina čak i ako su Q1, Q3 ili oboje negativni brojevi. Na primjer, ako je naša vrijednost Q1 -70, naša ispravna međukvartilna udaljenost bila bi 71,5 -(-70) = 141, 5.
Korak 7. Pronađite „unutrašnju ogradu“u skupu datuma
Odstupanja se utvrđuju provjerom da li datum pada unutar granica brojeva koji se nazivaju „unutrašnja ograda“i „vanjska ograda“. Referentni podatak koji pada izvan unutarnje ograde skupa datuma naziva se "manji vanjski podatak", dok se datum koji pada izvan vanjske ograde naziva "veliki vanjski dio". Da biste pronašli unutarnju ogradu u svom skupu podataka, najprije pomnožite međukvartilnu udaljenost s 1, 5. Zatim dodajte rezultat s Q3 i također ga oduzmite od Q1. Dvije vrijednosti koje dobijete su unutrašnje granice ograde vašeg skupa podataka.
-
U našem primjeru, interkvartilna udaljenost je (71,5 - 70) ili 1,5. Pomnožite 1,5 sa 1,5 što rezultira s 2,25. Dodamo ovaj broj u Q3 i oduzimamo Q1 po ovom broju kako bismo pronašli granice unutarnje ograde na sljedeći način:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Dakle, granice naše unutrašnje ograde su 67, 75 i 73, 75.
-
U našem skupu podataka, samo temperatura pećnice, 300 Fahrenheita - je izvan ovih granica, pa je ovaj podatak manji odstupanje. Međutim, još uvijek nismo izračunali je li ova temperatura veliki odstupanje, stoga nemojte žuriti sa zaključcima dok ne izvršimo naše proračune.
Korak 8. Pronađite „vanjsku ogradu“u skupu datuma
To se radi na isti način kao i pronalaženje unutarnje ograde, samo što se međukvartilna udaljenost množi s 3 umjesto s 1,5. Rezultat se tada dodaje u Q3 i oduzima od Q1 kako bi se pronašle gornje i donje granice vanjske ograde.
-
U našem primjeru, množenjem međukvartilne udaljenosti sa 3 dobije se (1, 5 x 3) ili 4, 5. Granice vanjske ograde nalazimo na isti način kao i prije:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Granice vanjske ograde su 65.5 i 76.
-
Datumi koji leže izvan granica vanjske ograde nazivaju se veliki odstupnici. U ovom primjeru, temperatura pećnice, 300 Fahrenheita, jasno je izvan vanjske ograde, pa je ovaj podatak "definitivno" veliki odstupanje.
Korak 9. Pomoću kvalitativnog prosuđivanja odredite treba li „odbaciti“vanjski datum ili ne
Korištenjem gore opisane metode, može se utvrditi je li podatak manji podatak, glavni datum ili uopće nije izdvojen. Međutim, nemojte pogriješiti - pronalaženje datuma kao vanjske vrijednosti samo označava taj datum kao „kandidata“za uklanjanje iz skupa datuma, a ne kao datum koji „treba“odbaciti. "Razlog" koji uzrokuje odstupanje vanjskog datuma od drugih datuma u skupu datuma vrlo je važan u određivanju da li ga treba odbaciti ili ne. Općenito, odstupanje uzrokovano pogreškom u mjerenju, snimanju ili eksperimentalnom planiranju, na primjer-može se odbaciti. S druge strane, odstupanja koja nisu uzrokovana greškom i koja ukazuju na nove informacije ili trendove koji nisu prethodno predviđeni obično se "ne" odbacuju.
- Drugi kriterij koji treba razmotriti je ima li isticanje veliki utjecaj na srednju vrijednost datumskog skupa, tj. Da li ga vanjski faktor zbunjuje ili čini da izgleda pogrešno. Ovo je vrlo važno uzeti u obzir ako namjeravate izvući zaključke iz prosjeka vašeg skupa podataka.
-
Proučimo naš primjer. U ovom primjeru, budući da se čini "vrlo" nevjerojatnim da je pećnica dosegla 300 Fahrenheita zahvaljujući nepredvidivim prirodnim silama, možemo sa gotovo sigurnošću zaključiti da je pećnica slučajno ostavljena uključena, što je rezultiralo nenormalnošću visoke temperature. Također, ako ne uklonimo isticanja, naša zadana srednja vrijednost je (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheita (32 stepena Celzijusa)), dok je prosjek ako uklonimo isticanje (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheita (21 stepen Celzijusa).
Budući da su ti ispadi uzrokovani ljudskom greškom i zato što bi bilo netočno reći da prosječna sobna temperatura doseže gotovo 90 Fahrenheita (32 stepena Celzijusa), bolje je da odaberemo „bacanje“naših vanjskih vrijednosti
Korak 10. Znajte važnost (ponekad) održavanja odstupanja
Iako bi neke odstupanja trebalo ukloniti iz skupa datuma jer uzrokuju pogreške i/ili čine rezultate netočnim ili pogrešnim, neke odstupanja treba zadržati. Na primjer, ako se čini da je izdvajanje prirodno stečeno (to jest nije rezultat greške) i/ili daje novu perspektivu na fenomen koji se proučava, izdvajanje se ne smije ukloniti iz skupa datuma. Naučna istraživanja obično su vrlo osjetljiva situacija kada su u pitanju isticanja - pogrešno uklanjanje isticanja može značiti odbacivanje informacija koje ukazuju na novi trend ili otkriće.