Računalnik prevajalec vse boljši – a ne za slovenščino

Strojno prevajanje je integrirano že v skoraj polovico delovnih procesov v jezikovni industriji.

Objavljeno
20. september 2017 19.43
Mojca Vizjak Pavšič
Mojca Vizjak Pavšič
Uporabniki Googlovega prevajalnika, ki na svetovnem spletu deluje od leta 2006, že nekaj mesecev opažajo, da so prevodi za več svetovnih jezikov bistveno bolj kakovostni. Novembra lani je namreč Google svoj prevajalnik nadgradil z modelom nevronskih mrež.

Najprej je to storil za osem jezikov, poleg angleščine, francoščine, nemščine in španščine tudi za turščino, kitajščino, japonščino in korejščino, do maja pa je nevronsko strojno prevajanje razširil na 41 jezikov.

»Nevronsko strojno prevajanje je rešilo tudi tiste težave, za katere smo še nedavno mislili, da jih računalnik za zdaj ne bo zmožen obvladovati, recimo, da je strojni prevajalnik zmožen upoštevati kontekst oziroma da lahko pri prevajanju določene povedi upošteva, kar je bilo rečeno v prejšnji povedi,« pravi prof. dr. Špela Vintar, organizatorka mednarodne poletne šole prevajalskih tehnologij TransTech17, ki je ta mesec potekala na ljubljanski filozofski fakulteti.

»V zadnjem desetletju smo bili priče razvoju tehnologije, ki je bila še pred nekaj leti predvsem vir spletne zabave, v gonilno silo globalizacije in temeljno orodje celo v najbolj konservativnih prevajalskih okoljih, kot je evropska komisija,« dodaja sogovornica, redna profesorica na oddelku za prevajalstvo filozofske fakultete in vodja mednarodnega projekta DigiLing, ki ga financira evropska komisija prek programa Erasmus+, namenjen pa je razvoju vseevropskega središča za spletno poučevanje digitalnega jezikoslovja. Vintarjeva je avtorica knjige Prevajalske tehnologije, ki je letos izšla tudi v hrvaškem prevodu.

Udeležencem poletne šole ste zastavili zanimivo anketno vprašanje, ali se jim zdi, da strojno prevajanje pomeni grožnjo za prevajalski poklic. Kaj menite vi?

Odklonilno stališče do strojnega prevajanja je med prevajalci zelo razširjeno in to je po svoje razumljivo, vendar pa takšno mnenje največkrat izražajo prevajalci, ki prevajajo »na klasičen način«, se pravi besedila, v katerih gre za izražanje nekih izvirnih idej in so tudi ubesedena na nov in ustvarjalen način, kot so eseji, publicistika, romani, da ne govorim o prevajanju poezije. To so področja, kamor tehnologija res še ni vstopila in verjetno še nekaj časa ne bo, ampak če pogledamo profesionalno prevajanje za potrebe gospodarstva, to, kar v angleščini imenujemo language industry, jezikovna industrija, vidimo, da to področje izredno hitro raste. Po zadnjih ocenah je to tretja najhitreje rastoča industrija na svetu. Strojno prevajanje je danes integrirano že v skoraj polovico delovnih procesov v jezikovni industriji.

Ob tem se postopoma spreminja možnost dostopa do jezikovnih virov, ki so še pred nedavnim veljali za dragoceno poslovno lastnino ponudnikov prevajalskih storitev. Danes se uveljavlja prepričanje, da je za nemoten razvoj tehnologij in orodij nujno zagotoviti dostop do velikih količin jezikovnih podatkov, po drugi strani pa imajo skozi uporabniško ustvarjene vsebine in spletno sodelovanje množic razvijalci stalen dotok svežih, tudi osebnih podatkov, kar poleg prednosti prinaša tudi nova tveganja.

V kakšne namene se strojno prevajanje najpogosteje uporablja?

Zaradi hitrih procesov globalizacije se vedno več vsebin prevaja v vedno več jezikov. Pogosto so to besedila, ki se ponavljajo in so zgrajena po ustaljenih vzorcih, kot so navodila za uporabo izdelkov, pogodbe, poslovna korespondenca, medicinska besedila, tehnična dokumentacija in programska oprema. Če pogledamo obseg prevajanja v celoti, vidimo, da so tovrstna besedila v veliki večini, književni in drugi avtorski prevodi pa obsegajo le okoli 5 odstotkov celotne produkcije.

Je strojno prevajanje pri sodobnih prevajalskih storitvah že tako rekoč nepogrešljivo?

Da, saj ponudnikom omogoča, da izpolnjujejo zahteve naročnikov in prevode zagotavljajo hitreje in ceneje. Če se vrnem k izhodiščnemu vprašanju, ali stroji ogrožajo prevajalski poklic, bi bil moj odgovor da in ne. Zagotovo lahko rečemo, da bo strojno prevajanje na prevajalski poklic dramatično vplivalo. Že zdaj lahko vidimo, ne samo pri nas, temveč tudi v svetu, da cene prevajanja padajo, in seveda se pri tem zastavlja vprašanje, od česa bodo prevajalci živeli.

Po drugi strani pa je slika bolj optimistična. V okviru mednarodnega projekta DigiLing, ki ga vodim od lani, smo izvedli vseevropsko raziskavo, v kateri smo podjetja vprašali, kakšne vrste jezikovnih storitev potrebujejo ali pa načrtujejo v prihodnosti, in pokazalo se je, da podjetja poslujejo vse bolj večjezično in da imajo čedalje večje količine dokumentov v več jezikih, v katerih je ogromno podatkov, vendar do njih nimajo pravega dostopa. Skratka, veliko je povpraševanja po tehnologijah, orodjih in svetovalcih, ki bi znali podjetjem omogočiti uporabo teh podatkov, pri čemer govorimo o luščenju podatkov in znanja, o klasifikaciji dokumentov ipd. Veliko je tudi potreb po večjezični avtomatski ali polavtomatski komunikaciji s strankami prek spletnih strani tako v pisni kot v govorni obliki.

Raziskava je torej pokazala, da so prevajalske tehnologije vedno bolj zaželene in potrebne?

Tako je. Na tem področju se čedalje pogosteje pojavlja tudi izraz transkreacija oziroma večjezično ustvarjanje vsebin, pri čemer gre za komunikacijo v digitalnem okolju, kjer se vsebine ne prevajajo, ampak ustvarjajo za različne ciljne javnosti v več jezikih. Sklenemo lahko, da potrebe po prevajanju močno naraščajo, vendar se pri »klasičnem« prevajanju cene storitev nižajo. Hkrati pa se pojavlja povpraševanje po povsem novih profilih oziroma prevajalcih, ki bodo imeli zelo dobro razvita digitalna znanja in veščine, torej gre za interdisciplinaren profil strokovnjaka. Da naziv ne bi bil predolg, smo ga poimenovali kar digitalni jezikoslovec.

Poudarila bi še, da morajo ti strokovnjaki dobro poznati tudi pravno in etično plat digitalne komunikacije. To pomeni, da morajo vedeti, katere podatke lahko uporabijo in katerih ne smejo, kakšne vrste licenc obstajajo, kakšna so pravila za odprt dostop do podatkov in po drugi strani za varovanje podatkov. Menim, da je v današnjem času zelo pomembno, da se zavedamo tako pravic kot tudi dolžnosti, ki jih imamo kot digitalni akterji.

Načrtujete tudi študij digitalnega jezikoslovja?

To je novo interdisciplinarno področje, ki povezuje tradicionalno jezikoslovje in prevodoslovje z računalništvom ter digitalno komunikacijo. V tem okviru razvijamo znanja in veščine, ki jih potrebujemo za razumevanje, obdelavo in uporabo vsebin besedil v sodobnem digitalnem okolju. Trenutno še na nobeni evropski univerzi ne poteka študij digitalnega jezikoslovja, čeprav je povpraševanje po tovrstnih strokovnjakih veliko.

Eden od ciljev projekta DigiLing je tudi priprava predmetnika za študij digitalne lingvistike. Na podlagi omenjene raziskave že pripravljamo mednarodni študijski program na magistrski stopnji, ki se bo predvidoma izvajal v konzorciju štirih sodelujočih univerz, Univerze v Zürichu, Univerze v Zagrebu, Masarykove univerze v Brnu in Univerze v Ljubljani. Na naši strani bosta v program poleg filozofske fakultete vključeni še fakulteta za računalništvo in informatiko in fakulteta za družbene vede.

Sodi slovenščina za strojno prevajanje med zahtevnejše jezike?

Slovenščina velja oblikoslovno in oblikoskladenjsko za enega od zahtevnejših jezikov. To lahko ponazorimo že s tem, da pri postopkih avtomatskega oblikoslovnega označevanja za angleščino potrebujemo približno 25 oznak, za slovenščino pa več kot 1600.

Slovenščina je torej zahtevna, vendar, če govorimo o tehnologiji strojnega prevajanja, je bolj kot sama zapletenost jezika pomembna opremljenost jezika oziroma digitalna prisotnost jezika. Tehnologije se namreč razvijajo s pomočjo podatkov, na primer s pomočjo že prevedenih besedil. Več ko je teh besedil dostopnih, pa tudi drugih jezikovnih virov, bolje bodo jezikovne tehnologije delovale. Slovenskih besedil in drugih virov je na spletu veliko. Na tem področju smo v Sloveniji kar dobri glede na to, da smo tako majhni.

Kdaj bo po informacijah, ki jih imate, Googlov prevajalnik nevronsko strojno prevajanje nadgradil tudi za slovenščino?

Pred kratkim smo s študenti našega oddelka obiskali podružnico podjetja Google v Zürichu in med drugim spraševali prav to. Na žalost odgovora nismo dobili, ker glavna ekipa, ki razvija strojno prevajanje, ni v Švici. Google razvija tehnologije za različne jezikovne storitve in zaposluje jezikoslovce za različne jezike. Za slovenščino imajo po informacijah, ki smo jih dobili, tri jezikoslovce. Upamo seveda, da bodo nevronsko strojno prevajanje tudi za slovenščino razvili čim prej.

Kateri so največji izzivi za strojno prevajanje v prihodnje?

Eden od velikih izzivov je prevajanje govora v govor v smislu simultanega tolmačenja. Tu so že nekateri poskusi, recimo Skype je to storitev ponudil za večje jezike. Gre za kombinacijo treh zahtevnih tehnologij, in sicer prepoznavanja govora, strojnega prevajanja in potem sinteze govora. Zagotovo je ta storitev med uporabniki zelo zaželena. Sicer pa imajo strojni prevajalniki težave, ko so v besedilih zelo dolge povedi – tu so še vedno problemi tudi z nevronskimi prevajalniki, ki lahko kakšne dele stavka kar izpustijo ali pa dodajo. Kar nekaj takšnih izzivov je, tako da bodo imeli raziskovalci še veliko dela.