Preprosto dostopno »skladišče« velikih podatkov

Iz zgodovinskega urejanja informacij v »silosih« vse bolj prehajamo k podatkovnim bazenom, jezerom in rekam.

Objavljeno
09. november 2015 13.26
Miran Varga, gospodarstvo
Miran Varga, gospodarstvo
Podjetja iz vseh panog se zdaj spopadajo s poplavo podatkov, o katerih ne vedo niti, kako bi jih ustrezno hranila, kaj šele analizirala. Tradicionalni pristop k hrambi in obdelavi podatkov je več desetletij ustvarjal tako imenovane silose podatkov – ločene skupine podatkov, ki so bile navadno v več oddelkih podjetja.

Velik izziv je pomenila že hramba teh podatkov, posebno v času, ko količine v poslovnih okoljih ustvarjenih podatkov eksponencialno naraščajo. Dodajanje škatel z diski je vse prej kot preprosta in poceni rešitev. Ker so oddelki v podjetju hranili velik odstotek enakih podatkov o strankah, naročnikih in dobaviteljih, silosna ureditev ni zdržala. Začel se je uveljavljati koncept postavitve podatkovnih bazenov, ki so postali zelo priljubljeni v zadnjih letih z vzponom napredne analitike. Vanje so podjetja načrpala podatke iz različnih virov, o katerih so menila, da bodo prišli prav pri posamezni analizi. Stvar je delovala vrhunsko, dokler ni bilo podatkov očitno preveč. Velik izziv so pomenili predvsem podatki, ustvarjeni zunaj podjetja, ki so bili vse prej kot »urejeni«. »Črpanje« je bilo tudi zamudno, zato so analitiki odločevalcem v najboljšem primeru dostavili nekaj ur ali dni stare ugotovitve.

Jezero prvobitnih podatkov

Podatkovni bazeni so prerasli v jezera. Koncept podatkovnega jezera je, logično, še širši, saj to pomeni preprosto dostopno »skladišče« velikih podatkov. V nasprotju s klasičnimi podatkovnimi skladišči, ki se osredotočajo na zbiranje omejene količine podatkov in nekaterih njihovih atributov, so v jezeru hranjeni prav vsi podatki, metapodatki (podatki o podatkih) in drugi atributi – prav z vidika tega, da morda najdemo nekaj, česar sploh nismo iskali. Podatkovno jezero tako hrani zelo velike količine »grobih« (ang. »raw«) podatkov v svoji prvotni obliki, medtem ko tradicionalne podatkovne baze te hranijo kot datoteke in mape v urejeni strukturi. V jezeru na cenovno učinkovit način lahko hranimo različne vrste podatkov, jih preoblikujemo in jim strukturo določimo šele ob uporabi. Danes je najpogostejša tehnologija za oblikovanje podatkovnih jezer Hadoop, ki so jo prevzeli tako rekoč vsi veliki ponudniki rešitev za hrambo in obdelavo podatkov pa tudi odprtokodna skupnost. Ob nastopu poslovne potrebe lahko analitična orodja na podlagi metapodatkov natančneje merijo le na izbran del podatkov in jih obdelajo za ustreznimi informacijami. Analiza podatkov v podatkovnem jezeru je morda res lahko še bolj časovno potratna, a je natančnejša, in to v občutljivih poslovnih okoljih šteje (dvojno).

Če v tako rešitev dodamo še podatke iz transakcijskih sistemov, torej podatke, ki se nenehno ustvarjajo in pretakajo, dobimo pravo reko podatkov. Ta je za analitične rešitve še največji izziv, a so različne tehnologije računalništva v pomnilniku in računalništva v oblaku v zadnjem desetletju uspešno strle tudi ta oreh. Analiza zelo velikih količin podatkov v realnem času je zdaj povsem uresničljiva, če le imamo dovolj sredstev za gradnjo ustreznega sistema.

Velikost ni najpomembnejša

Vsi poznamo izjavo »velikost je pomembna«. V informatiki so veliki podatki v zadnjih letih deležni zelo velike pozornosti, podjetja pa pri tem včasih povsem pozabijo na hitrost dela s podatki. V vse bolj konkurenčnih poslovnih okoljih z vse večjimi pričakovanji strank je hitrost obdelave podatkov morda celo pomembnejša od njihovega obsega. Številne storitve temeljijo na podatkih, ki so aktualni le krajši čas, nekatere med njimi lahko shajajo le s podatki, serviranimi v realnem času. Analitiki ocenjujejo, da je »razpolovna doba« podatkov z družabnih omrežij zgolj tri ure. Podobno menijo tudi odločevalci – ti bi seveda vedno želeli odločati na podlagi podatkov, ki jih analitična orodja obdelujejo v realnem času (beri: sproti). Študija podjetja Cap Gemini potrjuje njihove namere – 54 odstotkov odločevalcev v podjetjih z napredno analitiko meni, da je uporaba hitrih podatkov pomembnejša od uporabe velikih podatkov.

Lep dokaz, kaj zmore kombinacija velikih in hitrih podatkov, je storitev Uber. Storitev temelji na hitrih podatkih oziroma sposobnosti, da kjerkoli na svetu sprejme zahtevek uporabnika, najde voznike v njegovi bližini in izračuna optimalno pot ter uporabniku vrne podatek o strošku in povezavo do aktivacije naročila. Čeprav na prvi pogled ne gre za pretirano kompleksen nabor opravil, je hitrost tista, ki storitev Uber loči od drugih – vse našteto se ob zelo veliki natančnosti zgodi v nekaj sekundah.

Veliki in hitri podatki bodo spremenili številne poslovne modele. Področje akcijskih letakov in brošur v trgovinah nima nobenih možnosti pred mobilnim oglaševanjem. Sistemi, ki bodo uporabnikom, ki vstopijo ali so v bližini posamezne trgovine, v realnem času sporočili aktualno akcijsko ponudbo na njihovo mobilno napravo, so v veliki prednosti. Tudi z vidika trgovcev, saj jim z natančno segmentacijo kupcev pomagajo hitreje prodati posamezne izdelke, celo tiste, ki so z vidika zalog neprodajljivi. Vse je odvisno od digitalnega konteksta, kako se vsebino ali izdelek predstavi uporabniku in ga pritegne v (impulzivni) nakup. V digitalni ekonomiji so prav podatki tisti, ki ustvarjajo dobiček – posredno ali neposredno.