Zoubin Ghahramani: Podatki so naravnost eksplodirali

Profesor na univerzi Cambridge pojasnjuje, kako bi ustvarili orodja za avtomatično računalniško obdelavo kompleksnih podatkov.

Objavljeno
15. oktober 2014 17.09
Lidija Pavlovčič, Znanost
Lidija Pavlovčič, Znanost

»Statistiki se ponavadi burno odzovejo, ko jim predstavim projekt samodejnega statistika. Nekateri so navdušeni, drugi pa so prepričani, da je to zaton njihovega poklica, ker bodo računalniški programi opravili njihovo delo.« Tako na kratko je računalniški znanstvenik Zoubin Ghahramani povzel običajne odzive statistične stroke.

Podobne reakcije statistikov smo slišali tudi na njegovem predavanju na združenih mednarodnih konferencah o znanstvenih spoznanjih (Discovery Science) in o teoriji algoritmičnega učenja (Algoritmic Learning Theory).

Organiziral ju je odsek Instituta Jožef Stefan za tehnologijo znanja prejšnji teden na Bledu. Skupne konference se je udeležilo 120 raziskovalcev, ki se ukvarjajo z razvojem in analizo računalniških algoritmov za strojno učenje in podatkovno rudarjenje ter njihovo uporabo za odkrivanje znanstvenih spoznanj.

Največ pozornosti na konferenci je pritegnil prav Zoubin Ghahramani, profesor na univerzi Cambridge, s predavanjem o »gradnji« avtomatskega statistika, ki bi s pomočjo novih računalniških programov znal analizirati čedalje bolj kompleksne podatke.

Vaše predavanje o razvoju računalniških algoritmov in vzpostavitvi samodejne statistike je zvenelo precej provokativno. Kaže, da ste načeli vprašanje o novi vlogi statistikov. Skrbi jih, ali bodo sploh še potrebni, če bodo računalniki sami delali analize.

Zagotovo sem izzval takšne reakcije. Ko statistikom predstavim tako imenovanega samodejnega oziroma računalniškega statistika, se ponavadi odzovejo na dva načina. Ali izražajo naklonjenost, navdušenje in vznemirjenost zaradi takega razvoja statistike, popolno nasprotje tega pa je izrazito odklonilen odnos. Nekateri čutijo to kot grožnjo njihovemu sedanjemu načinu dela in slutnjo, da bo njihov poklic postal odvečen. Vendar nikakor ne nameravamo odvzeti dela statistikom ali podatkovnim znanstvenikom, skušamo samo ustvariti orodja, ki bi izboljšala učinkovitost njihovega dela.

Znano je, da so številne dejavnosti povezane z velikanskimi količinami podatkov. Zbirajo jih podjetja in vlade, prav tako znanstveniki in posamezniki za lastne potrebe. Vsi si prizadevajo, da bi iz ogromnega števila podatkov izluščili pomen in ga razumeli, zato morajo pogosto najemati specialiste za obdelavo. Teh pa ni dovolj na trgu, zato mi poskušamo ustvariti orodja, s katerimi bi lahko zagotovili avtomatično računalniško obdelavo določenih podatkov tako, da bi bile analize razumljive.

Kakšna zveza je med algoritmičnim učenjem in znanstvenimi spoznanji?

Znanstveniki, ki se ukvarjajo z znanstvenimi spoznanji, želijo avtomatično odkrivati stvari iz podatkov, znanstveniki algoritmičnega učenja pa si prizadevajo z matematiko razumeti, kako delujejo stroji za učenje (learning machines). Ambiciozen cilj računalničarjev je, da sami z računalniki odkrivajo nove stvari, drugi pa hočejo matematično razumeti, kako se to zgodi. Zato je dobro, da konferenci Discovery Science in Algoritmic Learning Theory potekata skupaj. Gre namreč za dve ravni pogleda na isti problem.

Ali to pomeni, da se računalniški znanstveniki in statistiki približujejo drug drugemu?

Tako je. Naš čas je zdaj zelo vznemirljiv, ker so podatki naravnost eksplodirali. Povsod smo namreč obdani z velikansko količino kompleksnih podatkov, zato tudi narašča zanimanje za znanost o podatkih. Prav tako je več strokovnih krogov, ki pomagajo pri razumevanju podatkov. Če si računalniška in statistična znanstvena skupnost nasprotujeta v pogledih, je to zato, ker je ozadje njunega nastanka in delovanja različno. Statistiki imajo namreč precej daljšo zgodovino kot računalničarji, pa tudi definicija statistike govori o tem, da je to veda o razumevanju podatkov.

Kaj so cilji projekta avtomatičnega statistika?

Naš cilj je omogočiti dostop do analiz podatkov večjemu številu ljudi. Naj to predstavim z analogijo: v starih časih smo letalsko vozovnico kupili tako, da smo šli na potovalno agencijo. Tam je uslužbenec pogledal v računalnik in povedal, kaj je na voljo za polet iz kraja A v kraj B. Zdaj imamo spletna orodja, ki nam samodejno pomagajo, da sami rezerviramo polet. To je seveda veliko bolj uporaben in lažji način kot nekdanji.

V znanosti o podatkih gre sicer za drugačen problem, vendar je podoben opisani analogiji. Številni znanstveniki zbirajo podatke, biologi denimo o genih, medicinski znanstveniki o boleznih, finančniki o trgih in gospodarstvu. Namesto da bi prosili za pomoč računalniške specialiste za obdelavo zbranih podatkov, lahko zdaj uporabijo naše orodje, ki je dostopno na spletu, in tako dobijo analizo za osnovno razumevanje o dogajanju. Če rabijo bolj poglobljene analize, pa v naslednjem koraku še vedno lahko najamejo podatkovne specialiste.

Ali to pomeni, da bi z novimi algoritemskimi orodji farmacevtska industrija na primer lahko hitreje analizirala kompleksne podatke, ki jih potrebuje za razvoj novega zdravila za neko bolezen?

Zagotovo je to mogoče. Veliko znanstvenikov vključno s farmacevtskimi pri svojem delu analizira orjaške količine podatkov. Posebej v biologiji ali v personalizirani medicini so naša orodja za razumevanje podatkov bolj uporabna tudi zato, ker so samodejne analize cenejše in tako lahko hitreje napredujejo znanstvena odkritja, ki pomagajo ljudem. Naš sistem ni tak, da bi pomagal samo določeni panogi, recimo medicini, financam ali prometu na spletu, ampak je narejen tako, da obravnava vse podatke samo kot številke. Pomaga pri odgovoru na nekatera vprašanja. Denimo: kakšne vzorce lahko zanesljivo odkrijemo iz teh številk? Ali lahko te vzorce uporabimo v tekstovnih poročilih in analizah kot dokaze znanstvene ugotovitve?

V katero smer se bo razvijala statistika?

Čeprav nisem statistik, ampak računalniški znanstvenik, zato statistiki včasih ne marajo mojega dela, ker me gledajo kot »avtsajderja«, lahko kljub temu razložim, zakaj je računalniška znanost pomembna za statistiko. Po tradicionalnem gledanju so statistiki eksperti, ki pomagajo pri iskanju rešitev za neki problem, računalniški znanstveniki pa so izurjeni za pripravo takih programov, da bodo zadeve tekle samodejno. Zato mi nismo tipični statistiki, ampak samo želimo avtomatizirati delo statistikov. Zelo spoštujem statistiko in vem, da ne bo lahko avtomatizirati tega področja v prihodnjih desetih ali petnajstih letih, zato bi radi dosegli samo večjo učinkovitost dela statistikov že zdaj.

Čeprav naj bi delo statistikov do neke stopnje avtomatizirali, bo še vedno treba zbirati podatke, kar pa zahteva delo ljudi, ne samo računalnikov.

Podatkov ne zbirajo samo ljudje. Na primer družba Facebook zbira podatke o več kot milijardi ljudi vsak dan, toda vse to je računalniško zbiranje podatkov. Splet je namreč velikanski zbiratelj podatkov. Tudi podatki o vremenu se zbirajo samodejno prek senzorjev in merilnih naprav. V znanosti je namreč veliko računalnikov samo za zbiranje podatkov. Danes ni več starega načina, ko si je znanstvenik podatke zapisoval v beležko.

Bi lahko razložili bistvo vašega projekta avtomatičnega statistika?

Večji cilj projekta je, da bi postal sistem umetne inteligence za znanost o podatkih. Projekt bo trajal veliko let. Potem ko sem idejo gojil v glavi skoraj desetletje, smo se skupaj s še petimi kolegi lotili projekta šele pred letom in pol, glavnina poteka na Cambridgeu v sodelovanju z Massachusetts Institute of Tecnology (MIT).

Kdo projekt financira in s kolikšnim vložkom?

Finančni vir je donacija Googla. Podaril nam je 750.000 dolarjev za tri leta, vendar ne bo imel nobenih intelektualnih pravic pri projektu. Google je namreč močno zainteresiran za napredek računalniškega učenja in razumevanja podatkov. Microsoft, Amazon in Google od takih raziskav nimajo neposrednih koristi, imajo pa posredne, zato podpirajo znanstvene raziskave na univerzah.