Pomembni so tudi tisti, ki se v raziskavi niso oglasili

Strokovnjaki so poudarili, da je vzorec reprezentativen, statističarka Ana Kolar pa opozarja na manjkajoče podatke.

Objavljeno
07. maj 2020 06.00
Posodobljeno
07. maj 2020 06.00
Vsi priznavajo, da je bilo z raziskavo o prekuženosti s koronavirusom opravljeno veliko delo, ki so ga morali raziskovalci opraviti zelo hitro. FOTO: Reuters
Ljubljana – »Ne le, da je bil vzorec dovolj velik, ampak tudi število 3000 je bilo zelo dobro izbrano. Točno to številko smo potrebovali,« je ob včerajšnji predstavitvi raziskave o prekuženosti z novim koronavirusom dejal prof. dr. Blaž Zupan s fakultete za računalništvo. Očitki, da je bil vzorec premajhen, kljub obrazložitvam ne pojenjajo. Statističarka dr. Ana Kolar pa opozarja, da ni problem velikost vzorca, temveč kombinacija velikosti vzorca in zasnove študijskega načrta ter dejstvo, da nimamo nobenih uporabnih podatkov o tistih, ki v raziskavi niso želeli sodelovati.

Podvojitev vzorca bi po Zupanovih navedbah pomenila še enkrat več dela, še enkrat več časa in še enkrat več sredstev. Kot kažejo ugotovitve strokovnjakov, ki so sodelovali v raziskavi, bi s pol ali še enkrat večjim vzorcem dobili enake rezultate. Za vzorec 3000 ljudi so zbrali 300 točk, okoli njih pa deset ljudi, pri katerih so prav tako upoštevali stratifikacijo po spolu, starosti in geografskih značilnostih. Zupan je dodal: »Mislim, da je vzorec popolnoma reprezentativen in dejansko ni bil voden glede kakršnih koli značilnosti, ki bi to raziskavo naredile pristransko.«

Vabilo na raziskavo so ljudem poslali po pošti, saj drugače zaradi upoštevanja vseh pravil varstva osebnih podatkov in GDPR ni šlo. Vodja raziskave prof. dr. Mario Poljak z inštituta za mikrobiologijo in imunologijo je dejal, da je bilo prav to ključno, da je bil odziv na raziskavo manj kot 50-odstoten. Zakaj je 448 pozvanih zavrnilo sodelovanje, niso ugotavljali, s 1146 niso prišli v stik, 38 pa jih ni bilo na naslovu, kamor so pošiljali pošto.
 

So manjkajoči pomembni?


Odziv v anketah je običajno od 40 do 60-odstoten. Tako ta raziskava v tem ne odstopa in je dejansko odziv zelo dober, če upoštevamo, da raziskava ni zaključena in bodo ljudje v njej sodelovali pravzaprav pol leta.

image
Pomanjkljivost raziskave je, da ni uporabnih podatkov o tistih, ki v njej niso želeli sodelovati, meni dr. Ana Kolar. FOTO: osebni arhiv


Statističarka dr. Ana Kolar, ki je doktorirala pod mentorstvom harvardskega profesorja dr. Donalda B. Rubina, in je, kot piše v življenjepisu, zadnja leta delovala na Finskem, med drugim predavala tudi na univerzi v Helsinkih, trenutno pa deluje na širšem območju Azije, kljub temu opozarja, da bi morali v raziskavi upoštevati vse, ki so jih v vzorec izbrali: »Reprezentativen vzorec je 3000 enot. Ne vemo, kaj je razlog, da se vsi ljudje niso odzvali. Če je razlog, da so imeli simptome, ki so povezani z virusom in niso hoteli biti prepoznani iz kakršnega koli razloga, pa so rekli, da raje ne bodo del raziskave, imamo težavo. Ker izgubljamo ravno tiste, ki bi jih res hoteli imeti. To je samo eden od možnih primerov.«

Kolarjeva števila ljudi, torej 3000 ali nenazadnje tudi 1368 ljudi, kolikor se jih je odzvalo, ne problematizira in priznava, da je bila raziskava veliko delo. Opozarja pa, da zdaj, ko ne vemo, zakaj nekateri niso hoteli sodelovati, tudi ne moremo z gotovostjo trditi, da so zbrani podatki reprezentativni: »Če bi lahko naredili analizo manjkajočih podatkov v smislu, da bi lahko zaključili, da so manjkajoči podatki popolnoma naključne narave, bi lahko z večjo zanesljivostjo rekli, da so zbrani podatki reprezentativni.«
 

Podobno tudi drugod


Podobni raziskavi, ki so jih izvedli v Avstriji in Islandiji, prav tako nista imeli velikega odziva, na Islandiji je bil le 33-odstoten, v Avstriji 51-odstoten. Ne vemo pa, kako so v delu analize podatkov ravnali z manjkajočimi podatki, torej tistimi posamezniki, ki se povabilu niso odzvali. Kolarjeva vztraja, da je način dela, pri katerem se manjkajoči podatki popolnoma ignorirajo, kar pomeni, da ni vzpostavljenega nobenega mehanizma, s pomočjo katerega bi lahko razumeli izvor manjkajočih podatkov, v nasprotju z znanostjo statističnih metodologij: »Sploh je to pomembno, če se bodo na podlagi teh rezultatov izvajali neki ukrepi.«