Če večino zvoka pobrišemo, ne bo opazil nihče

Akustika: Iznajdba zgoščenk je navdihnila tudi psihoakustične algoritme za stiskanje zvoka

Objavljeno
23. februar 2019 10.00
Posodobljeno
23. februar 2019 10.00
Z algoritmi za kompresiranje spravimo na en medij toliko informacij, kolikor bi jih sicer šlo na deset medijev. Foto Shutterstock
Profesor akustike Eberhard Zwicker je več let proučeval načine, kako ljudje zaznavamo zvoke. Po mnogih eksperimentih je prišel do spoznanja, da človeško uho ne deluje po enakih načelih kot mikrofon. Ker se je med evolucijo posebej prilagodilo za razumevanje govora in zaznavanje nevarnosti v naravi, je zelo učinkovito pri spremljanju pogovora v hrupnem okolju, nikakor pa ni univerzalni senzor, ki bi bil enako dober za zaznavanje vseh vrst zvoka.

Zwicker je s poskusi ugotovil, da ljudje lahko razlikujemo dva različno visoka tona le, če sta medsebojno dovolj narazen. Ko je njuno frekvenco izenačeval, ju testni poslušalci od določene meje niso več razločili, učinek pa je bil večji, če je bil nižji ton glasnejši. Podoben pojav je zaznal tudi pri zaporedju klikov ali udarcev. Če si klika sledita dovolj hitro, ju poslušalci ne razločijo, pri čemer razlika v njuni jakosti potencira učinek.
Zwickerjev študent in računalniški inženir Dieter Seitzer je ob razmišljanju o tovrstnih posebnostih človeškega sluha, ki so jih poimenovali psihoakustično maskiranje, dobil idejo, da bi jih uporabili za krčenje podatkov pri digitalnem zapisu zvoka. Če bi znali odstraniti le podatke, ki jih človeško uho ne more zaznati, bi bil zapis krajši, hkrati pa nihče ne bi opazil, da karkoli manjka.


Le desetina zapisa je dovolj


Ko so leta 1982 za zapis zvoka uvedli zgoščenke, se je zdelo, da gre za velikanski napredek tehnologije, a Seitzer ni bil navdušen, saj je bil prepričan, da bi večino podatkov s CD-plošč lahko mirno izbrisali, ne da bi poslušalec to sploh opazil. Zapis na zgoščenkah porabi za sekundo stereozvoka približno 1,4 milijona bitov podatkov, Seitzer pa je bil prepričan, da bi lahko primerljivo kakovost dosegli tudi z zgolj 128.000 biti na sekundo. Za realizacijo ideje je potreboval pomoč. Našel jo je v mladem študentu elektrotehnike Karlheinzu Brandenburgu, ki je kmalu tudi prevzel vodenje projekta iskanja algoritma za učinkovito stiskanje zvočnih posnetkov.

image
Najbolj razširjen digitalizirani zapis mp3 torej ne vsebuje zvokov, ki jih uho ne bi zaznalo. Foto Getty Images/iStockphoto


Pri digitalnem zapisu zvoka moramo posnetek najprej razbiti na osnovne elemente, ki si jih lahko predstavljamo kot zvokovne verzije digitalnih pik, iz katerih je sestavljena slika na računalniškem zaslonu. Brandenburg si je zastavil nalogo, da na podlagi spoznanj psihoakustike iz digitaliziranega zapisa odstrani tiste »zvokovne pike«, ki za človeško uho niso pomembne.

Ker je človeški sluh najboljši v obsegu frekvenc, ki približno ustrezajo človeškemu govoru, je najprej ugotovil, da natančnost zvokovnih pik lahko zmanjša pri zelo visokih in zelo nizkih frekvencah. Prav tako lahko za zvoke, ki so po višini blizu drug drugemu, manj pik nameni tistim, ki so malenkost višji, saj nižji pri zaznavi prevladajo. Ker človeško uho filtrira hrup, ki sledi glasnemu poku, lahko manj natančno zapiše podatke o zvokih, ki mu neposredno sledijo. Presenetljivo se je izkazalo, da človeško uho ne upošteva niti zvokov nekaj trenutkov pred glasnim pokom, ker potrebuje uho nekaj časa za njihovo analizo, ki pa jo glasni pok prekine, zato lahko manj podatkov nameni tudi zvokom nekaj trenutkov pred glasnim dogodkom.

Brandenburg je opravil veliko poskusov, da je ugotovil, katere zvokovne točke lahko izbriše, ne da bi se izgubila kakovost posnetka. Po dolgotrajnih raziskavah mu je uspelo formulirati matematična pravila za stiskanje zvočnih podatkov, ki jih je lahko večkrat zaporedno apliciral na isti posnetek. Leta 1986 je vložil patent za psihoakustično kompresijo zvoka, kmalu potem pa so ga kot raziskovalca povabili na Fraunhoferjev inštitut, kjer je spoznal mladega programerja in hkrati izvrstnega glasbenika Bernharda Grilla. Z njim mu je uspelo matematične formule pretvoriti v učinkovit računalniški algoritem.
 

Študenti niso zaznali razlike


Junija 1990 je bil psihoakustični algoritem stiskanja zvoka že dovolj dober, da so se odločili sodelovati na natečaju mednarodnega združenja strokovnjakov za digitalni zapis zvoka in videa Moving Picture Experts Group (MPEG), ki potrjuje univerzalne standarde za digitalno kodiranje. Na srečanju združenja v Stockholmu je testna skupina mladih švedskih študentov in študentk dvojno slepo poslušala testne vzorce različnih skladb in zvokov, zakodiranih v formatih, ki so jih pripravili po različnih algoritmih.

Rezultati so marsikoga presenetili, saj so testi kot najboljša izpostavili dva algoritma: Brandenburgovega, ki je postal znan pod oznako mp3, in izdelek konzorcija Musicam, ki ga poznamo kot mp2. Zanimivo je, da je Brandenburg s svojim algoritmom enako kakovost zvoka dosegel z manj ohranjenimi podatki oziroma z manjšo datoteko kot konkurenca, vendar je za kodiranje potreboval več računalniške procesorske moči, kar je botrovalo temu, da standard mp3 sprva ni bil priljubljen.

Šele Intelovi procesorji pentium so bili namreč na domačih računalnikih dovolj zmogljivi, da so lahko brez zatikanja predvajali glasbo v mp3 obliki. Kodiranje je bilo še zahtevnejše, saj je pentium za pretvorbo enega CD-ja v mp3 datoteke potreboval kar šest ur. Čeprav glasbena industrija formata mp3 najprej ni prevzela, se je zapis po prihodu boljših procesorjev uveljavil med domačimi ljubitelji glasbe in postal skoraj sinonim za digitalni zapis zvoka.

Sredi devetdesetih let dvajsetega stoletja je ekipa, ki je ustvarila standard mp3, začela razvijati nov psihoakustični kodirni sistem druge generacije, ki je bil hitrejši, preprostejši in še učinkovitejši. Poimenovali so ga Advanced Audio Coding (AAC), poznamo pa ga tudi kot mp4 ali m4a. Danes je večina digitalne glasbe, zvoka in filmov zakodirana prav v tem psihoakustičnem sistemu druge generacije.

–––
Sašo Dolenc je urednik Kvarkadabre, spletnega časopisa za popularizacijo znanosti.