Težave za Sledilnik: zakaj NIJZ nima vseh podatkov v strojno berljivi obliki?

Koronavirus 14. Okt 202206:48 1 komentar
SLEDILNIK
Uroš Kokol, N1

Sledilnik covid-19 že od začetka epidemije objavlja podatke o širjenju koronavirusa. Skupina prostovoljcev skrbi, da so podatki pregledni, natančni in uporabni, ne le za javnost in novinarje, ampak tudi za tuje baze podatkov, kot sta Univerza Johns Hopkins in Our world in data. Toda podatki, ki jih pridobivajo iz baz javnega NIJZ, so zapisani v obliki, ki prostovoljcem Sledilnika povzroča težave.

Število okužb s koronavirusom, število hospitaliziranih, širjenje virusa v občinah, analize odpadnih voda, podatki o cepljenih po starosti in drugih kategorijah, pa tudi vpliv cepljenja na zmanjšanje verjetnosti hospitalizacije … Vse to so podatki, ki jih – vsak dan znova že od začetka epidemije – na svoji strani javnosti namenja ekipa Sledilnika.

Za spletno stran Sledilnika skrbi ekipa prostovoljcev. Podatke dobivajo iz javnih baz, večino od ministrstva za zdravje in Nacionalnega inštituta za javno zdravje (NIJZ). Sledilnik pa je – čeprav ne gre za državno institucijo, ampak prostovoljni projekt – vir, iz katerega nato črpajo mednarodne baze, kakršna je spletna stran ourworldindata.org.

Ekipi Sledilnika težave povzročajo nekateri podatki NIJZ, ki jih kljub večkratnim prošnjam inštitut ne objavlja v strojno berljivi obliki. Kaj to pomeni? “Strojna berljivost najbolj enostavno pomeni, da so podatki v obliki številk – torej običajno v tabeli ali kakšni podobni datoteki – in ne v obliki na primer slike,” pojasnjuje Maja Založnik iz Sledilnika. “Če dobimo podatke recimo v Excelu ali .csv datoteki, je z njimi preprosto delati analize in grafe,” pojasnjuje. “Če so podatki objavljeni samo v grafični obliki (kar velja za nekatere objave NIJZ), pa je izjemno zapleteno dobiti iz njih podatke v številčni obliki (jih torej pretvoriti v strojno berljive podatke), s katerimi lahko potem delamo analize in grafe.”

Taka je med drugim situacija s podatki o cepljenjih – na spletni strani cepimose.si, ki jo upravlja NIJZ, so objavljeni grafi o cepljenjih, ki se vsakodnevno posodabljajo. Kot je videti spodaj, so podatki, v tem primeru po starostnih razredih cepljenih, v grafičnih prikazih. Ko se čeznje zapeljemo z miško, pa dobimo tudi številčne podatke. Da bi informacijo s spletne strani cepimose.si prenesli na spletno stran Sledilnika, morajo njegovi avtorji spisati poseben program za pretvarjanje podatkov. Kot nam pojasni Maja Založnik, program naučijo, da se – kot bi to počel s premikanjem računalniške miške – pomika po grafikah in prebira podatke ter jih pretvarja v obliko, ki jo programi Sledilnika lahko preberejo in nato izrišejo svoje grafe.

N1

Gre za tehniko tako imenovanega web scrapinga, v dobesednem prevodu pomeni, da podatke “postrgajo” in pretvorijo v strojno berljive ter jih uporabijo v prikazih Sledilnika, od tam pa so na voljo tudi mednarodni javnosti prek institucij, kot sta Univerza Johns Hopkins in Our world in data.

Potem ko avtorji Sledilnika napišejo program za web scraping, ta uspešno pretvarja podatke iz ene oblike v drugo, a le do takrat, ko se kaj spremeni na strani NIJZ. “Ogromno dodatnega dela terja, da web scraper popravimo, da bi pravilno zajemal nove podatke,” pravi Maja Založnik. “Pri zadnji spremembi nam tega še ni uspelo narediti. Malo zato, ker so bili dopusti, malo pa tudi zato, ker človek izgubi motivacijo, da se mora ukvarjati s takšnim delom, ko pa ti podatki v strojno berljivi obliki že obstajajo, samo dostopa do njih nimamo,” je razočarana članica Sledilnika.

Bo pomagala ministrica?

“Naša prva prioriteta je zagotavljati dostopne in točne podatke o pandemiji covida-19 prebivalcem Slovenije in ostalim deležnikom oziroma odjemalcem, med katerimi je tudi Sledilnik, zato na NIJZ stremimo k temu, da podatke zagotavljamo vsem, ne zgolj določenim zainteresiranim javnostim. Na NIJZ smo vedno pripravljeni sodelovati z ostalimi deležniki v želji in z namenom, da poiščemo najboljše razpoložljive možne rešitve in izmenjamo dobre prakse in izkušnje,” pravijo pri NIJZ. Zakaj torej doslej še niso omogočili podatkov v obliki, ki bi ustrezala tudi Sledilniku?

“Na NIJZ stremimo k temu, da prikaz podatkov in njihovo analizo prilagajamo potrebam, delovnim procesom in novim spoznanjem, vendar moramo pri tem upoštevati tudi to, da ima NIJZ oziroma Center za nalezljive bolezni NIJZ omejene kadrovske razpoložljivosti, in dejstvo, da se na Centru za nalezljive bolezni strokovnjaki ukvarjajo tudi z drugimi nalezljivimi boleznimi in strokovnimi področji, ki se nanašajo na nalezljive bolezni,” pojasnjujejo.

Dejstvo je, da je NIJZ od začetka epidemije do danes doživel digitalni preporod, glede na to, kako je delal pred epidemijo. “Na dan, ko smo razglasili epidemijo, je NIJZ funkcioniral tako kot v 19. stoletju. Listke so si nosili med sabo. V času, ko je bilo treba reagirati, omrežja nismo imeli na razpolago,” je takratno stanje opisal nekdanji predsednik vlade Janez Janša.

Da bo večina podatkov, tudi prej omenjeni o cepljenju, na voljo v strojno berljivi obliki kmalu, del že prihodnji teden, zdaj pravijo pri NIJZ. “Prikaz podatkov o poteku pandemije covida-19 v Sloveniji predstavlja napredek na področju obveščanja javnosti v času pandemije covida-19 v Sloveniji, zagotovo pa je ta proces treba stalno nadgrajevati z ustrezno kadrovsko, tehnično in finančno podporo,” pojasnjujejo.

O tej problematiki smo povprašali tudi Službo vlade za digitalno preobrazbo, ki jo vodi ministrica Emilija Stojmenova Duh.  “Na Službi vlade za digitalno preobrazbo smo že v kontaktu tako z NIJZ kot Sledilnikom in skupaj iščemo rešitve za izzive, s katerimi se pri sodelovanju soočajo,” obljubljajo.

Spremljajte N1 na družbenih omrežjih FacebookInstagram in Twitter

Naložite si našo aplikacijo: na voljo za android in za iOS.

Kakšno je tvoje mnenje o tem?

Sodeluj v razpravi ali preberi komentarje