Ne gre za to, da bi ti Pitija, ki si jo nakrmil z množico številk, izpljunila sliko prihodnosti

Saška Mojsilović, izvedenka za velike zbirke podatkov.

Objavljeno
19. september 2014 14.48
Ali Žerdin, Sobotna priloga
Ali Žerdin, Sobotna priloga
Saška Mojsilović je leta 1997 doktorirala na beograjski univerzi, od leta 2000 pa dela za IBM. Ukvarja se z velikimi podatkovnimi zbirkami, čemur v modernem jeziku rečemo Big Data. Od letošnjega leta se ponaša z nazivom IBM Fellow, ki ga korporacija vsako leto podeli peščici najuspešnejših prebojnikov.

Moj prvi računalnik je bil brez trdega diska. Drugi je imel 30 MB spomina. Kaj pa vaš prvi računalnik?

Začela sem s spectrumom. Pa računalnikom commodore 64.

In kako so se ti stroji razlikovali od IBM-ovega superračunalnika Watson?

No, razlika je seveda velikanska. Res pa je, da koncept umetne inteligence, ki je povezan s superračunalnikom Watson, ni nov. Že v osemdesetih so razvijali koncept umetne inteligence.

Kaj je Big Data? Kaj so velike podatkovne zbirke? Kako bi to razložili babici?

Naj poskusim. Svet okrog nas je obkrožen s signali. Glasba je signal. Signal je telefonski klic. Ko prižgemo luč, pošljemo signal upravljavcu električnega omrežja. Signal je, ko nekaj kupimo na internetu ali ko uporabimo kreditno kartico. Merjenje vremenskih pojavov je merjenje nekih signalov. Od nekdaj smo obkroženi s signali in vedno bomo. Vendar lahko danes signale posnamemo, digitaliziramo in skladiščimo. Dostopni so v obliki, s katero lahko nakrmimo računalnik. Signal se je s tem spremenil v digitalni podatek. Računalnik lahko to analizira. To je možno že nekaj časa. Zdaj pa smo na točki, ko so cene prenosa podatkov nizke, ko lahko prenašamo velike količine podatkov, ko je skladiščenje podatkov poceni, računalniki so zmogljivi … Skoraj vse oblike signalov so danes digitalizirane in skladiščene in prvič v zgodovini lahko vse te množice podatkov z računalnikom tudi obdelamo. Internet, video, podatki o telefonskih klicih, potrošniških transakcijah, zdravstveni podatki, novice, literatura, znanstvene publikacije, ekonomski, meteorološki podatki, geodetski podatki, borza, vladni dokumenti … vse je na dosegu roke. Po teh podatkih lahko kopljemo. To nepregledno množico podatkov lahko analiziramo. Podatke lahko povezujemo med seboj. V zbirkah podatkov iščemo določene vzorce, trende ... In temu rečemo Big Data.

Zveni kot Big Brother, Veliki brat. Komu je to namenjeno? Velikemu biznisu, Wall Streetu, velikim obveščevalnim agencijam?

Ravno nasprotno. Vsaka tehnologija je lahko uporabljena na dober ali slab način. Iz jedrske energije lahko nastane elektrika ali bomba. Internet lahko poveže ljudi, lahko pa je kanal za širjenje otroške pornografije ali prizorišče tatvin identitet.

Tehnologija sama po sebi je nepristranska. Od uporabnika in družbe je odvisno, ali bo iz tega nastalo nekaj dobrega. In pri Big Data obstaja ogromen potencial za ustvarjanje dobrega. Skratka, ne gre samo za Wall Street. Ti tehnološki trendi bodo imeli učinek na vse segmente skupnosti, na nevladne organizacije, javni sektor, zdravstvo, okolje, izobraževanje. Ker je veliko podatkov dostopnih javnosti, jih lahko uporablja vsakdo. Orodja za procesuiranje velikih podatkovnih zbirk so odprtokodna.

Ste lahko bolj konkretni?

Danes lahko kopljemo po digitalizirani medicinski literaturi, raziskujemo elektronske zapise zdravstvenih podatkov, kar nam omogoča boljšo zdravstveno obravnavo. Terapije lahko prilagodimo posamezniku in iščemo primerjalno najuspešnejše prakse. Raziskujemo lahko zaporedja zapisov v genomu, da bi ozdravili raka.

IMB, denimo, je sprožil pobudo, ki ji pravimo Pametnejša mesta. Gre za to, da združimo vse mogoče podatke o nekem kraju: od podatkov, ki jih zaznavajo senzorji, do podatkov mestnih oblasti, mobilnih telefonov, družbenih omrežij, kamer …, da bi izboljšali življenje ljudi. Lahko optimiziramo prometne povezave in zmanjšamo zastoje. Podatki o gibanju telefonskih signalov nam povedo, kako se gibljejo potniki. To nam omogoča optimizirati prometna omrežja, krajša potovalni čas, čas čakanja … Podatke o mobilnosti ljudi lahko uporabimo kot pomoč pri urbanizmu, načrtovanju infrastrukture, investicijah v transport.

Gre pri analizi velikih podatkovnih zbirk za razlago preteklih dogodkov ali za napoved prihodnosti?

Za oboje gre. No, bistveno je, da začnemo z razumevanjem, razlago. Vedno je prvi korak analiza podatkov. Kaj se skriva v njih? Kaj si ob pomoči analiziranih podatkov lahko razložimo? Potem moramo ugotoviti, ali lahko opazimo kakšne vzorce, trende, nenormalnosti, poudarke. Sledi nekakšen povzetek. Ta raven je še vedno zelo opisna.

Naj kot primer navedem podatke o uporabi energije. Za določeno območje pregledamo vzorce uporabe energije. Ugotovimo, koliko energije je porabljeno na dan, od kod prihajajo uporabniki, kakšni so dnevni viški porabe energije, kakšni so sezonski viški ... To omogoča oblikovanje boljših cenovnih mehanizmov pa tudi optimizacijo uporabe in varčevanja z energijo. Ko enkrat razumeš podatke, ko razumeš fenomen, ki ga preučuješ, lahko ugotoviš tudi, ali je razumevanje podatkov dovolj dobro, da ti to omogoča napovedi.

Če imaš dovolj podatkov o letnih porabah energije, lahko napoveš tudi povpraševanje v prihodnosti. Napoveš lahko, ali bo energije premalo, in načrtuješ rezervne scenarije. Napoved prihodnosti je le del analize podatkov in znanosti o podatkih.

Hkrati pa modelov napovedovanja prihodnosti ne moremo zgraditi v vseh primerih. Včasih niso dostopni vsi potrebni podatki. Včasih kakovost podatkov ni zadostna. Včasih je problem preveč kompleksen.

Ste nekakšni preroki nove dobe?

Ne. To želim poudariti. Pri napovedni analitiki ne gre za prerokbe. Tista črna škatla, v kateri potekajo operacije analize podatkov, niso Delfe. Ne gre za to, da bi ti Pitija, ki si jo nakrmil z množico številk, izpljunila sliko prihodnosti.

Kolumnist Sobotne priloge Jože P. Damijan je zadnjič zapisal, da bistveno bolj zaupa vremenskim napovedim kot napovedim gibanj gospodarskih trendov. Pa še na vremenske napovedi se letos ne more zanesti.

So dobre in so slabe napovedi. Napoved je lahko natanko tako zanesljiva, kot so zanesljivi podatki, na katerih temelji analiza. Hkrati je pomemben tudi model, ki pomaga pri analizi. Če je model, ki ga je postavil podatkovni znanstvenik, dober, bo tudi napoved boljša. Če je model slab, bo napoved manj zanesljiva.

Napoved ne pomeni, da v excelovo tabelo vstaviš cifre in izračunaš povprečje. Algoritmi, ki jih uporabljamo za napovedne analize, so zelo kompleksni. Več let ali desetletij razvoja je potrebnih. Ker je razprava o napovedih trendov danes popularna, obstajajo tudi ljudje, ki iščejo bližnjice. In delajo škodo. Tudi brez tega prihaja do napačne uporabe modelov in napačne interpretacije podatkov. Gre tudi za etiko. Pri podatkovni znanosti je odgovornost ogromna. Zavest o odgovornosti sicer obstaja. Hkrati pa je povpraševanje po podatkovnih znanstvenikih vedno večje.

Ali lahko analiza velikih podatkov spreminja družbo?

Znanost premika stvari naprej. Sem znanstvenica in v to verjamem, čeprav le nekatera odkritja vodijo v preboje in do družbenih sprememb.

Učinki vseh mogočih dostopnih podatkov in velike računalniške moči so že velikanski. Poglejte družbene učinke interneta. Ko danes merimo čas, govorimo o obdobju pred internetom in po internetu.

Množice podatkov danes spreminjajo posel, spreminjajo naša življenja. Ne gre več le za vizije. Gre za stvari, ki se dogajajo. V 18. stoletju smo imeli paro, v 19. elektriko. V 21. stoletju so to podatki. Podatki so naša nova surovina. So surovina nove ekonomije.

Kje se začne Big Data?

Težko je določiti mejo. Recimo, da je zbirka podatkov, s katero upravlja Facebook, Big Data. Facebook vsak dan požre 500 terabajtov novih podatkov. Spodoben osebni računalnik ima danes en terabajt spomina. Walmart vsako uro upravlja s podatki o transakcijah enega milijona potrošnikov. Te uvozijo v podatkovno bazo, ki vsebuje prek 2560 terabajtov podatkov.

Kaj to pomeni v svetovnem merilu?

V tem trenutku milijarda povezanih elektronskih naprav na Zemlji vsak dan generira 2,5 milijona terabajtov podatkov. Lani so na planetu nastali štirje zetabajti podatkov. Analitiki družbe IDS napovedujejo, da bo leta 2020 na svetu nastalo 40 zetabajtov podatkov.

Lahko to prevedete v jezik, ki bo razumljiv človeku, ki ni prišel iz digitalnega vesolja?

Vse informacije, shranjene v knjigah ameriške Kongresne knjižnice, obsegajo okrog 15 terabajtov podatkov. Terabajtom sledijo petabajti in exabajti. Potem so zetabajti. Čez šest let naj bi tako vsako leto nastalo za 660 milijard Kongresnih knjižnic podatkov.

Preučevali ste odločitve ameriških zakonodajalcev. Glede na pretekla glasovanja članov ameriškega kongresa ste skušali napovedati, kolikšna je možnost, da bi bil neki zakonski osnutek sprejet.

Razumeti smo skušali, kako učinkovit model lahko razvijemo, ko preučujemo in napovedujemo obnašanje zakonodajalcev. Pri odločitvah članov ameriškega kongresa so na voljo zelo kakovostni podatki o tem, kako glasujejo pri določenem zakonu. Na voljo so besedila zakonov. Model, ki smo ga razvili, je bil kar zanesljiv. Z 92-odstotno natančnostjo smo napovedali, kakšen bo izid glasovanja. Algoritem naj bi nam odgovoril na vprašanje, kolikšna je verjetnost, da bi določen osnutek v kongresu dejansko postal zakon.

Torej ste morali najprej narediti nekakšne osebnostne profile članov kongresa?

Poznali smo vsa njegova pretekla glasovanja. To nam je omogočilo razumevanje, kakšno je stališče kongresnika glede tega ali onega vprašanja. Predpostavka je, da lahko iz preteklih glasovanj rekonstruiramo, kakšen je njihov pogled na svet. Poznali pa smo tudi podatke o tem, ali so bili kongresniki med podpisniki nekega zakonskega predloga. V ameriškem kongresu osebo, ki vloži neki zakonski predlog, imenujejo sponzor. Preostale, ki se podpišejo pod predlog, pa imenujejo kosponzor. Iz podatkov o kosponzorstvu lahko sestavimo socialno omrežje. Kosponzorstvo je namreč dober indikator, da neki kongresnik zelo močno podpira določeno idejo, podatki o vseh kosponzorstvih pa nam omogočajo, da ugotovimo, kako je kongres strukturiran glede na te močne podpore različnim pobudam. Podatki nam omogočajo, da sestavimo dve različni omrežji. Za vsakogar v zakonodajni oblasti torej vemo, kam je umeščen v omrežju glasovalnih koalicij in kam je umeščen v omrežju sponzorskih koalicij.

Kolikšno količino podatkov ste uporabili pri tej analizi?

V kongresu sedi 535 članov. Vedeli smo, kako so glasovali oziroma delovali kot kosponzorji pri 700 zakonodajnih predlogih.

In seveda, poznali ste vsa besedila zakonov.

Pri tej analizi je šlo za vprašanje kompleksnega omrežja v resničnem življenju. To omrežje ljudi se ukvarja z nekakšnim omrežjem idej, omrežjem zakonskih osnutkov, ki so si včasih zelo podobni, drugič so zelo različni. Z računalniško analizo besedil lahko v zakonskih osnutkih najdemo strukture ideje, ključne teme, ključne deskriptorje. Ti dve omrežji, omrežje članov kongresa in omrežje osnutkov, sta med seboj povezani. Podatek »za« oziroma »proti« je povezovalni element dveh omrežij, dveh struktur. To je koncept algoritma.

Recimo, da bi bil del zakonskega osnutka napisan drugače. Torej lahko vsaj za silo napoveste, kakšen bi bil izid glasovanja, če bi imeli člani kongresa na voljo dve različici – recimo mehkejši ali bolj trd zakonski osnutek.

Drži. To je nekaj, kar bomo najbrž naredili v prihodnosti. Kaj bi se zgodilo, denimo, če bi dele osnutka črtali ali nekaj napisali na novo. Nas pa čaka še veliko dela. Gre predvsem za izboljšanje semantične analize besedila. Superračunalnik Watson ima programsko opremo, ki mu omogoča, da predstavi argumente »za« in »proti«. Argumentacija, ki jo je sposoben ob pomoči vseh mogočih enciklopedij, znanstvenih članov in drugih podatkov razviti stroj, temelji na vedno boljšem razumevanju semantike.

Zakonodajno vejo oblasti ste torej že analizirali. Kaj pa sodno vejo oblasti? Bi bil stroj lahko sodnik? Recimo, da bi stroj napolnili z vsemi mogočimi zakoni, sodbami, ki so bile izrečene v preteklosti, dokazi, izjavami prič ... Kaj bi rekel superračunalnik? Je Oscar Pistorius kriv ali nedolžen?

Na vprašanje, ali bi stroj lahko sodil, ne morem odgovoriti z »da« ali »ne«. Vedeti pa je treba, da je vprašanje pravičnosti še bistveno bolj kompleksno. Pri vprašanju pravičnosti je izjemno veliko nians.

Torej je zakone, sodno prakso, dokaze ali izjave prič težko prevesti v računalniški jezik, ki mora biti na koncu sestavljen iz ničel in enic.

Drži. Kar pa ne pomeni, da stroj ne more biti v pomoč. Pomaga lahko kot zelo dober katalog izvedenih dokazov, sploh če je izvedenih dokazov veliko. A kot rečeno, v tem trenutku stroj človeka ne more nadomestiti pri tako kompleksnih vprašanjih, kot je pravičnost.