Cilj: strojno razumevanje besedil

Dr. Simon Krek, vodja projekta Elexis: Nove jezikoslovne teoretske uvide in praktične aplikacije je omogočila šele sistematična analiza velike količine besedil

Objavljeno
21. februar 2018 17.49
OLYMPUS DIGITAL CAMERA
Mojca Vizjak Pavšič
Mojca Vizjak Pavšič
»Zanesljivo in natančno razumevanje besed in njihove uporabe je odločilnega pomena v sodobni informacijski družbi,« poudarja dr. Simon Krek, raziskovalec v Laboratoriju za umetno inteligenco na Institutu Jožef Stefan, vodja Centra za jezikovne vire in tehnologije pri Univerzi v Ljubljani in vodja novega raziskovalnega projekta European Lexicographic Infrastructure (ELEXIS), ki ga finančno podpira evropski program za raziskave in inovacije Obzorje 2020.

Raziskovalne cilje tega obsežnega štiriletnega projekta, ki bo trajal do leta 2022 in je vreden 4,99 milijona evrov, so predstavili pretekli teden na tridnevnem uvodnem srečanju v ljubljanskem hotelu Slon, kjer so se zbrali predstavniki vseh 17 sodelujočih ustanov iz 14 evropskih držav in Izraela. Poleg Instituta Jožef Stefan kot nosilne ustanove v projektu sodelujejo tudi Inštitut za nizozemski jezik, Univerza Sapienza v Rimu, Irska nacionalna univerza v Galwayu, Avstrijska akademija znanosti, Beograjski center za digitalno humanistiko, Madžarska akademija znanosti, Inštitut za bolgarski jezik, češko podjetje Lexical Computing, Nova univerza v Lizboni, Inštitut za računalniško jezikoslovje v Pisi, Združenje za danski jezik in literaturo, Univerza v Københavnu , podjetje KDictionaries iz Izraela, Univerza v Trieru, Inštitut za estonski jezik in Španska kraljeva akademija. O projektu smo se pogovarjali z njegovim vodjo dr. Simonom Krekom.

Katere cilje ste si zastavili v projektu Elexis?

Če skušam v nekaj besedah pojasniti namen tega obsežnega in tehnološko izredno zahtevnega mednarodnega projekta, bi dejal, da je naš skupni cilj povezati semantične informacije, ki jih vsebujejo slovarji in podobni viri, ter vse to povezati prek skupnih konceptov v velikansko semantično mrežo, ki bo prosto dostopna v oblaku t. i. Linguistic Linked Open Data (LLOD). Poleg tega nameravamo oblikovati standarde in rešitve za sodobno leksikografsko infrastrukturo za vse evropske jezike ter promovirati kulturo odprtih podatkov, pri čemer bomo uporabili najbolj napredne tehnologije umetne inteligence, strojnega učenja, tekstovnega rudarjenja in semantične tehnologije.

Je z vidika uporabnikov pomemben predvsem razvoj večjezičnih slovarjev, ki bodo na spletu prosto dostopni?

Bistveno je, da povežemo vse slovarske podatke, iz enojezičnih in dvojezičnih ali večjezičnih virov, in to ne samo za sodobni jezik, tudi zgodovinski, etimološki in podobni slovarji bodo pripomogli pri povezovanju. Naš končni cilj pa je strojno razumevanje besedil. Če hočemo v semantično mrežo dodati pomenske podatke o slovenščini, bomo torej potrebovali dostop do čim več slovarjev, od SSKJ, dvojezičnih in vseh drugih. To pa je koristno tudi za leksikografijo, saj povezanost prinese neskončno večje možnosti za hitrejšo in boljšo izdelavo vseh vrst slovarjev. Ne nazadnje projekt omogoča tudi brezplačno raziskovalno rabo orodja Sketch Engine, ki ga pri svojem delu uporablja večina leksikografov.

Ob tem ko rešujete povsem tehnične probleme korpusnega jezikoslovja, spoznavate tudi, kot je dejal eden od predavateljev na srečanju, kako deluje jezik, kar je tesno povezano z najbolj temeljnimi psihološkimi vprašanji in iskanjem odgovorov na vprašanje, kako deluje duševnost.

Drži. Gre za jezikoslovno-filozofski vidik, ki je na teoretski ravni zelo zanimiv, tako kot je zanimiva, denimo, fizika osnovnih delcev, vendar je za nas osnovni cilj vedno razvoj konkretnih aplikacij. Zraven pa tako rekoč po nujnosti ugotavljamo oziroma skušamo odkriti tudi odgovore na ta temeljna vprašanja, kako delujeta duševnost in jezik.

V eni od razprav o korpusnih metodah ugotavljate, da obstaja velik prepad med strukturalizmom kot osrednjo jezikovno teorijo 20. stoletja in sodobnimi pristopi. Tako je Noam Chomsky vztrajno zavračal smiselnost analiz obsežnih količin besedil, ki jih je obravnaval kot nezanimive v primerjavi z jezikovno intuicijo naravnega govorca. Kakšno je vaše stališče?

Vzporedno s strukturalizmom, katerega začetnik je znameniti jezikoslovec Ferdinand de Saussure, v zadnjih desetletjih pa je njegov najvidnejši predstavnik Noam Chomsky, so se razvijale tudi jezikoslovne smeri, ki so opozarjale na nezadostnost prevladujoče jezikoslovne paradigme in na teoretske uvide, ki jih je omogočila šele sistematična analiza velikih količin besedil.

Gre za dva zelo različna pristopa k vprašanju, kako vstopiti v človekovo glavo in raziskovati jezik. V skladu s prvim pristopom raziskujemo jezikovne produkte, se pravi govor, pisano besedo in sploh vse, kar lahko zapišemo. To je empirični pristop, v okviru katerega pravimo: o jeziku ne moremo reči nič več, kot lahko vidimo v obliki realnih podatkov, ki jih proizvajajo ljudje. Medtem ko drugi pristop pravi, da imamo vrojeno neko jezikovno zmožnost, ki se razvije v prvih letih življenja in omogoča, da je vsak od nas tako rekoč sposoben pogledati v svojo glavo in nekaj povedati o jeziku. V tem smislu gre pravzaprav za razliko med empirizmom in racionalizmom, ki je prisotna v filozofiji vse od njenega nastanka do danes.

Vse, kar delamo v okviru projekta Elexis, je povsem jasno na empirični strani, čeprav je tudi druga, strukturalistična stran zanimiva, vendar je dejansko med obema prepad in ta trenutek niti ne vidim, da bi se med njima gradil kakšen most. Vidim samo, da gre za prehod od neke teorije, ki je bila v 20. stoletju izrazito prevladujoča, v razvoj empiričnih jezikovnih modelov.

Je s tem povezana tudi dilema, ki jo je eden od predavateljev opisal kot možno proti verjetnemu?

Da, pri našem raziskovalnem delu smo ves čas odkrivali in vemo zdaj že dovolj dobro, da jezik deluje kot kontinuum in da je napačno, če o njem razmišljamo v kakršnihkoli trdih kategorijah, ko bi na primer rekli, da obstaja samo ena pomenska delitev oziroma da je možna samo določena slovnična struktura. Vse to ne drži.

Vsak jezikovni pojav je namreč samo verjeten. Rečemo sicer lahko, da je verjetnost velika, lahko je celo stoodstotna, če smo v neko jezikovno dejstvo popolnoma prepričani, vendar za večino jezikovnih pojavov velja samo določen odstotek verjetnosti.

Ko govorimo o možnem, pa gre za binarni odnos, ko rečemo, da nekaj je mogoče oziroma ni mogoče, ta stavek lahko tvorimo ali ga ne moremo tvoriti. Tako dobimo binarne odgovore, ki pa so praviloma slabi.