Čišćenje podataka

Ozren Polašek
Jan 10, 2021
5 min read

Priprema i pred-analiza podataka jedan je od zahtjevnijih koraka statističke analize i znanstvenog rada. Cilj mu je stvaranje vjerodostojnog seta podataka koji će biti korišten u analizi. Potreba za ovim korakom u istraživanjima dolazi iz činjenice da je nemoguće provesti mjerenje i prikupljanje podataka bez nastanka pogrešaka.

Prikupljanje podataka

Prilikom svakog mjerenja, potrebno je procijeniti rizik tj. opseg pogreške mjerenja. Niti jedno mjerenje u stvarnom svijetu nije savršeno, pa tako niti jedno prikupljanje podataka ne može biti savršeno. Jedan od glavnim pristupa procjeni kvalitete mjerenje su ponavljana mjerenja. Ona nam omogućuju razumijevanje obrazaca pogrešaka u mjerenjima. U najjednostavnijem smislu, ukoliko ponavljano mjerenje na istom ispitaniku dovede do istog ili sličnog rezultata, onda je test ponovljiv, a izgledno i precizan. Ako ponavljano mjerenje istog ispitanika daje raznolike rezultate, test proglašavamo nepreciznim, tj. manje preciznim. U samoj pripremi istraživanja, potrebno je pravilno procijeniti opseg pogreške mjerenja, koja će imati znatan učinak na provedbu istraživanja i rezultate. Ukoliko neko mjerenje ima visoku razinu pogreške tj. nisku razinu preciznosti, bit će potrebno provesti korake kako bi se taj učinak smanjio, poput povećanja veličine uzorka ili nekog drugog način kojim ćemo pokušati povećati preciznost. Najčešće korišteni pristup u ovom slučaju je izračun prosjeka nekoliko mjerenja, ukoliko je takvo što moguće provesti.

Unos podataka u računalo danas više nije toliko veliki problem zbog sve veće povezanosti uređaja, ali u slučaju da je neke podatke potrebno unijeti ručno, ovaj korak može biti rizik za pogrešku. Pogreške nastaju zbog niza mogućih učinaka, od krivo unesenih podataka u papirnatu anketu, nemogućnosti čitanja podatka, krivog shvaćanja ili krivo unesenog podatka prilikom upisa.

Čišćenje podataka

Čišćenje podataka sastavni je pred-korak statističke analize, a služi nam za prepoznavanje mogućih pogrešaka i njihovo uklanjanje. Problem nastaje jer podatke dobivamo iz stvarnog svijeta, u kojem postoje višestruki poznati i nepoznati učinci koji dovode do pojave pogrešaka.

Podaci mogu biti nepotpuni (nedostaju, neka mjerenja nije moguće provesti), neprecizni (sadržavaju pogreške i nemoguće vrijednosti) ili nedosljedni (sadržavaju logičke nedosljednosti). Bilo koji od ovih mehanizama može dovesti do pojave pogreške, koja će kasnije dovesti do krivih zaključaka u analizi, i zato ih je potrebno spriječiti ili ispraviti. Jedan od zanimljivijih pristupa u analizi naziva se GIGO (garbae in, garbage out), a označava nužnost dobre kvalitete početnih podataka. Naime, ako su ulazni podaci loši, nikakva količina napredne analize u kasnijim stadijima neće ih moći nadomjestiti. U tom svjetlu, fokus ispravne analize ponekad niti nije na veličini uzorka, već na kvaliteti mjerenja, jer nekoliko ispravnih mjerenja može ukazati na pojavu jasnog obrasca, dok golema količina loših podataka može samo govoriti u prilog problemu.

Pri tome je potrebno provesti najmanje dva temeljna oblika pred-analize, koji su provjera raspona vrijednosti svake varijable te provjera logičke konzistencije podataka. Prvi se odnosi na provjeru svih unesenih vrijednosti te njihovu usporedbu s očekivanim vrijednostima. Na primjer, u stupcu za visinu moguće je naći podatke od 130 cm do 240 cm, tako da pojava podatka od 628 cm jednoznačno ukazuje na pogrešku. Ovakvu vrijednost potrebno je provjeriti, a u idealnom slučaju ponovo provesti mjerenje, kako bismo bili sigurni zašto je nastala takva pogreška te je na ispravan način uklonili. Isti proces potrebno je provesti i za kategorijske varijable. U slučaju kodiranja spola vrijednostima 1 za muško te 2 za žensko, pojava broja 9 označava nemogući unos, koji je također potrebno provjeriti. Drugi korak analize je provjera horizontalne konzistencije podataka, koja nam dodatno govori o kvaliteti seta podataka. Ovakva pogreška nastaje prilikom nejednakog pomaka stupaca ili redaka te povezivanja dijela podataka s krivim identitetima. U ovakvoj pogrešci moguća je pojava nelogičnih zapisa, u kojima se na primjer, kod žene pojavljuje podataka o karcinom prostate, koji je anatomski i biološki nemoguć. Ovaj način provjere podataka nešto je zahtjevniji, jer je potrebno definirati pravila koja su nemoguća te ih provjeriti jedno po jedno.

Semantička složenost

Prilikom analize gotovih podataka, potrebno je jasno znati koje vrijednosti neko polje može poprimiti. Na primjer, pojava vrijednosti 0 u polju telefonskog broja mogla bi označiti da ta osoba ne posjeduje telefon, da posjeduje telefon ali ne zna broj, da posjeduje telefon i ne želi dati broj, da je bilo nemoguće očitati broj zbog pogrešaka u navođenju u pisanoj anketi. U ovoj situaciji nije moguće nastaviti analizu, jer ne možemo jednoznačno kodirati stvarni uzrok. Stoga je uz svaki set podataka potrebno izraditi rječnik podataka (data dictionary), koji opisuje prirodu svake varijable te označava očekivani raspon numeričkih varijabli ili šifre kojima se označavaju kategorije za takvu vrstu varijabli. Izrada rječnika podataka predstavlja sastavni korak pripreme podataka, a posebno je korisna u uvjetima korištenja istog seta podataka nakon duže vremena ili u razmjeni podataka s drugim istraživačima.

Noćne more čišćenja podataka

Neke varijable koje prikupljamo u istraživanjima su posebno zahtjevne za prikupljanje i unos. Ovo se ponajprije odnosi na unos podatka o korištenim lijekovima. Iako se ovo može činiti naizgled jednostavnim podatkom, moguć je niz problema u njegovom prikupljanju i analizi. Ponajprije se ovo odnosi na bilježenje vrste lijeka (generičko ime, kombinacije molekula), količine lijeka (doza, učestalost i obrazac uzimanja lijeka), višestruke terapija i kombinacije lijekova te konačno i suradljivost bolesnika na ispravan način korištenja lijeka. Stoga je potrebno pažljivo definirati koju razinu preciznosti je potrebno postići, kako bi se u istraživanju koristili čim ispravniji podaci.

Koliko podataka može nedostajati u analizi?

Na ovo pitanje nije lako dati odgovor, no uvijek stremimo čim manjem broju nepostojećih ili praznih polja. Pri tome ne postoji jasna numerička smjernica, ali u slučaju velikog broja nepostojećih vrijednosti potrebno je razmisliti o ponovnom mjerenju ili povećanju veličine uzorka, kako bi se omogućilo prikupljanje dovoljnog seta podataka. Ako nije moguće ponoviti mjerenje ili povećati uzorak, moguće je statističkim putem nadoknaditi nepostojeće vrijednosti. Ova metoda naziva se nadomještanje podataka ili imputacija, i predstavlja pristup koji se temelji na pretpostavci da je iz preostalih, cjelovitih podataka moguće nadomjestiti one podatke koji nedostaju. Dakle, ovaj pristup zasniva se na ideji postojanja veza između pojedinih podataka ili skupina podataka, na temelju kojih je moguće prepoznati obrasce prema kojima se neki podaci pojavljuju povezano. Ako je moguće prepoznati takve obrasce, moguće je nadomjestiti nepostojeće podatke i time osigurati cjeloviti set podataka. Ovaj pristup na smatra se varanjem ili izmišljanjem, ali ga je potrebno provesti na pravi način i jasno opisati u konačnoj verziji rezultata. Postoje četiri stupnjevita pristupa nadomještanja podataka. Prvi je zamjena praznih polja prosjekom. U ovom slučaju, unos prosjeka ne dovodi do znatnije promjene rezultata za bilo koju analiziranu varijablu. Druga razina je uvjetni prosjek, u kojem je moguće unijeti prosjeke za pojedine podskupine, poput odvojenih prosjeka za muškarce i žene. Treća razina je modeliranje uz pomoć drugih varijabli, u kojem tražimo obrasce povezanosti na temelju kojih izračunavamo najizgledniju vrijednost praznog polja. Konačno, najveća razina je modeliranje sa slučajnom sastavnicom, u kojem je moguće u nadomještanje uključiti i očekivanu razinu pogreške, kako bi rezultat bio čim sličniji stvarnom rezultatu.

Čišćenje podataka

Recent Posts

Comments