Vsaj 21 evropskim jezikom grozi digitalno izumrtje

Če ne bomo pravočasno ukrepali, se bo med jeziki brez digitalne prihodnosti znašla tudi slovenščina.

Objavljeno
27. september 2012 15.05
G. P., Znanost
G. P., Znanost

V novi študiji strokovnjaki za jezikovne tehnologije ugotavljajo, da večini evropskih jezikov grozi digitalno izumrtje. Študija je bila izvedena v okviru evropske mreže odličnosti META-NET, ki jo sestavlja 60 raziskovalnih centrov v 34 državah; iz Slovenije v njej sodeluje skupina raziskovalcev Laboratorija za umetno inteligenco Instituta Jožef Stefan. 

Več kot 200 strokovnjakov je v študiji, ki je predstavljena v seriji 30 belih knjig projekta META-NET (na voljo je v tiskani in spletni obliki), za vsakega od jezikov ocenjevalo podporo jezikovnim tehnologijam na štirih področjih: strojno prevajanje, govorne tehnologije, procesiranje pisnega jezika in dostopnost jezikovnih virov.

Skupaj 21 od 30 jezikov (70 odstotkov) so strokovnjaki vsaj na enem od področij uvrstili v najnižjo kategorijo z »neobstoječo ali nizko podporo«. Nekaj jezikov, na primer islandščina, latvijščina, litovščina in malteščina, pa je dobilo najnižjo oceno v vseh kategorijah. Na drugi strani lestvice je bila le angleščina ocenjena kot jezik z »dobro podporo«, medtem ko noben jezik ni dobil ocene »odlična podpora«. Angleščini sledijo nizozemščina, francoščina, nemščina, italijanščina in španščina kot jeziki s »povprečno podporo«, jeziki kot baskovščina, bolgarščina, katalonščina, grščina, madžarščina, poljščina in tudi slovenščina pa so bili ocenjeni z »delno podporo«, kar jih uvršča v niz ogroženih jezikov.

Alarmantni rezultati

»Rezultati študije so alarmantni. Večina evropskih jezikov je 'digitalno' slabo opremljenih, nekateri so popolnoma zapostavljeni. V tem smislu preživetje mnogo jezikov pravzaprav še ni zagotovljeno,« pravi profesor Hans Uszkoreit, koordinator mreže META-NET, znanstveni direktor DFKI (Nemški raziskovalni center za umetno inteligenco) in sourednik študije. Drugi sourednik, dr. Georg Rehm (DFKI) dodaja: »Vrzel med 'velikimi' in 'malimi' jeziki je vedno širša. Zagotoviti moramo, da bodo vsi manjši in zapostavljeni jeziki opremljeni z nujnimi temeljnimi tehnologijami, sicer so obsojeni na digitalno izumrtje.«

Kot pravi Marko Grobelnik iz Laboratorija za umetno inteligenco Instituta Jožef Stefan, ki v okviru projekta META-NET vodi skupino slovenskih strokovnjakov, lahko pri tem parafraziramo rek Narod si bo pisal svojo jezikovno tehnologijo sam, saj teh tehnologij drugi za nas oziroma za slovenščino ne bodo razvili oziroma se jih ne da kupiti.

Dr. Simon Krek, ki prav tako sodeluje v omenjeni skupini na IJS, dodaja, da je po eni od študij med 252 jeziki (kriterij je bil, da je v času raziskave obstajala Wikipedija v tem jeziku) približno 16 tako imenovanih varnih jezikov, ki so dovolj močni, da za digitalno uporabo ne potrebujejo posebne pomoči. Nekaj več kot 80 je živih – med njimi je tudi slovenščina – 90 pa je mejnih, za katere ne vemo, ali bodo preživeli v digitalni dobi. Nekaj več kot 40 je tako imenovanih mrtvih jezikov, med njimi sta na primer ena oblika norveščine in luksemburščina, za katere je že zdaj jasno, da prehoda v digitalno dobo ne bodo zmogli; zanimivo, da je kot znanstveni jezik na poti k izgubi ene od svojih funkcij tudi danščina, saj tam skorajda vse visokošolsko izobraževanje poteka v angleščini. Če tako imenovani živi in mejni jeziki ne bodo imeli ustrezne tehnološke podpore, bodo izgubljali prestiž, v njih ne bomo mogli komunicirati z različnimi napravami, in če posamezni jezik ne bo v uporabi na spletu – ne bo več obstajal.

Rezultat jezikovnih tehnologij so računalniške aplikacije, ki znajo procesirati človeški govorjeni ali pisni jezik. Znani zgledi jezikovnotehnoloških računalniških programov so denimo črkovalniki in slovnični pregledovalniki, interaktivni osebni pomočniki na pametnih telefonih (na primer Siri na iphonu), telefonski dialoški sistemi, strojni prevajalniki, spletni iskalniki ter sintetizatorji govora v avtomobilskih navigacijskih sistemih. Danes se jezikovnotehnološki sistemi opirajo zlasti na statistične metode, za katere so potrebne velikanske količine pisnega in govorjenega gradiva. Predvsem pri jezikih z razmeroma majhnim številom govorcev je težko zbrati dovolj podatkov.

Slovenija ni osamljena

Ob tem dr. Krek opozarja, da je analiza podpore jezikovnim tehnologijam za slovenščino v okviru projekta META-NET pokazala – na lestvici od 0 do 6 – precej klavrno stanje; pri razpoznavi govora smo dosegli oceno 1, zelo slabo smo se odrezali tudi pri pomenski interpretaciji besedila, kjer je slovenščina zbrala oceno manj kot 1. Je pa res, da pri tem ni osamljena, saj je skupina »tehnološko slabo podprtih jezikov« daleč najobsežnejša; jasno je, da je med vsemi angleščina daleč spredaj, sledijo ji nemščina, francoščina in španščina.
Evropi je uspelo odstraniti skoraj vse meje med državami. Ena pa je ostala in ta se zdi tako rekoč nepremagljiva: nevidne jezikovne pregrade preprečujejo prost pretok znanja in informacij. Čeprav jezikovne tehnologije ponujajo možnost, da se s sodobnimi prevajalnimi sistemi teh jezikovnih meja znebimo, rezultati študije mreže META-NET jasno kažejo, da mnogo evropskih jezikov na to še ni pripravljenih.

Kaj bomo morali narediti, če hočemo govoriti slovensko tudi v digitalni dobi? Če računalnik ne bo razumel slovensko, bomo imeli hud problem, pravi dr. Krek. Če ne bomo uredili tehnološke podpore za razumevanje slovenščine, potem nobene digitalne tehnološke rešitve, ki nezadržno prihajajo, ne bomo mogli uporabiti. Od potrebnih tehnologij zunanji svet kaže še največ zanimanja za strojno prevajanje iz slovenščine in v slovenščino, saj je zanj zelo zainteresirana tudi EU. Slovenščina ima na tem področju veliko prednost, ker je uvrščena med uradne evropske jezike.

Čakajo pa nas druge zahtevne naloge. Med njimi je predvsem računalniška razpoznava govora, na primer v aplikaciji Siri, ki zdaj razume predvsem angleščino, in moramo si predstavljati, da to aplikacijo enako uporabljamo tudi v slovenščini. Razmišljati moramo o celotnem šolskem sistemu v računalniškem oblaku, kot to počno v Južni Koreji. Razmišljati moramo o tehnološki podpori za sprotno strojno tolmačenje in podnaslavljanje v slovenščino. Obstajajo namreč že projekti, ki se ukvarjajo s tehnologijami, s katerimi bo mogoče TV oddaje samodejno tolmačiti in podnaslavljati v realnem času. V nekoliko bolj oddaljeni prihodnosti pa si moramo predstavljati različne naprave oziroma robote, ki bodo naši pomočniki v vsakdanjem življenju, in tudi z njimi bo treba komunicirati v nekem jeziku. Upam, da ne zgolj v angleščini, pravi dr. Krek. Je pa izredno pomembno, da o teh usmeritvah razpravljamo danes, kajti ko bodo nove tehnološke rešitve izdelane za angleščino, bo za druge jezike, seveda tudi slovenščino, že prepozno.

Pot do rešitve

Kakšna je pot do rešitve, se pravi do izdelave digitalne tehnološke podpore za slovenščino?

Kot pravi Marko Grobelnik, ni težava v količini denarja, namenjenega tovrstni dejavnosti, ampak predvsem v organiziranosti.Vprašanje je, ali so sredstva, ki so na voljo – prek agencije za raziskovalno dejavnost in iz evropskih skladov – dovolj dobro izkoriščena. Manjka nam skupna platforma, v kateri bi bili povezani raziskovalci in industrija. Poleg raziskovalne infrastrukture pa je, kot dodaja dr. Krek, nujno, da bi usmeritve o slovenščini v digitalni dobi umestili v resolucijo o jezikovni politiki 2012–2016, ki je zdaj v postopku sprejemanja. V objavljenem osnutku je bilo jasno povedano, kaj je treba narediti. »Ker sem pri pripravi teh usmeritev sodeloval tudi sam, lahko povem, da predlagamo predvsem tri zadeve.

Prvič, po izkušnjah drugih držav, ki so tovrstne usmeritve sprejele že okoli leta 2002, moramo izdelati dolgoročne programe za razvoj jezikovnih virov za njihove jezike; tipično so to manjši jeziki, saj velikim za to ni treba skrbeti.

Drugič, uvesti moramo mehanizme za uresničevanje teh dolgoročnih načrtov, ker, kot rečeno, akterji na tem področju v Sloveniji niso povezani in nimajo enotne platforme. To so predvsem Inštitut za slovenski jezik Frana Ramovša ZRC SAZU, Filozofska fakulteta in Fakulteta za družbene vede Univerze v Ljubljani pa tehnološki partnerji, kot so Institut Jožef Stefan, Fakulteti za elektrotehniko in računalništvo in informatiko Univerze v Ljubljana, Fakulteta za elektrotehniko, računalništvo in informatiko Univerze v Mariboru. Pozabiti ne smemo niti na industrijo, saj mora raziskovalne produkte nekdo implementirati.

In tretjič, vse udeležence bi morali povezati v centru odličnosti, ki bi bil nekakšna vmesna točka med raziskovalno sfero in industrijo. Žal je v času ustanavljanja tovrstnih centrov na takratnem ministrstvu za znanost in tehnologijo prevladala ocena, da so jezikovne tehnologije premajhno področje, da bi lahko bilo organizirano v lastnem centru odličnosti. Menim, da bi zaradi pomembnosti jezika morali narediti izjemo,« je sklenil dr. Krek.