Hirdetés

Más az adat, mint a bor

|

Pusztán attól, hogy gyűjtjük és tároljuk, az adat nem lesz idővel jobb, értékét az információ adja, amelyet kinyerünk belőle - fogalmazott velősen a Cloudera képviselője a Budapest Data Fórumon. A háromnapos konferencia az adattárházak, a nagy adat és az adatkutatás alkalmazási és technológiai kérdéseit taglalta, többek között választ keresve arra is, hogy a nyílt forráskódú eszközök megoldást adhatnak-e az analitika minden problémájára.

Hirdetés

Idén immár nyolcadik alkalommal rendezte meg a BI Consulting az évente sorra kerülő - 2015-ig Adattárház Fórumként ismert - Budapest Data Fórumot, amely a legpatinásabb hazai adatmenedzsment- és analitikai konferenciának számít. A kétszáz fős közönség tagjai, zömükben hazai szakemberek, a rendezvény első napján megtartott műhelyfoglalkozásokon a MongoDB használatával, az adatmodellezés korszerű technikáival, a felhőalapú bigdata-megoldások kialakításával és az adatfolyamok feldolgozásával ismerkedhettek meg közelebbről.

Hagyományaikhoz híven a harmadik napot az ingyenesen látogatható Data Job Fair zárta, amelyen az érdeklődők megtudhatták, miként válik valakiből adatkutató, és hogyan érdemes munkát keresni az adatok világában. A második nap programja plenáris és szekció-előadásokat kínált, amelyek indításaként Arató Bence, a BI Consulting ügyvezetője a bigdata-eszközöket formáló trendekről adott áttekintést.

Hadoop: a népszerűség ára
A nagy adatot jellemző 3 V - angolul velocity, variety és volume -, az adatok gyorsasága, sokrétű strukturálatlansága, valamint mennyisége közül Magyarországon még mindig az utóbbi a projektindítás leggyakoribb oka. Közvetlenül kötődik ugyanis az adattömeg méretéhez a tárolás költsége, amelyet az adat üzleti értékének, a bájtonként elért megtérülésnek (Return on Byte, ROB) a függvényében optimalizálhatnak a szervezetek.

Segítenek ebben a nyílt forráskódú bigdata-technológiák, amelyek közül a Hadoop és a Spark Magyarországon ismertebb, mint a szintén az Apache-projektek közé tartozó Flink, Kafka vagy Beam.

Négy éve, 2012-ben indultak a hazai bigdata-projektek, először az olyan startupok körében, mint például a Prezi, majd a nagyvállalatok, különösen a távközlési cégek is csatlakoztak a felhasználók táborához, és megnyíltak a területre szakosodott budapesti kompetenciaközpontok is - többek között az Ericsson, a GE és a Morgan Stanley szervezetén belül. Rövid idő alatt több, bigdata-technológiákat fejlesztő magyar feltörekvő cég is piacra lépett, melyek közül a Radoopot a Rapidminer, a SequenceIQ-t a Hortonworks már felvásárolta.

Idén ünnepli tizedik születésnapját a Hadoop, amely olcsó szervereken megbízható, elosztott és jól méretezhető adattárolást és -feldolgozást tesz lehetővé, ezért hamar belopta magát a felhasználók szívébe. A népszerűségért azonban árat fizetett - kódja mára 1,7 millió sor fölé duzzadt, és 12 ezernél több fejlesztés készült hozzá. Saját Hadoop-kiadással jelent meg számos gyártó is - például a Cloudera Impala, a HP Vertica, az IBM BigSQL, az Oracle Big Data SQL, a Teradata -, amelyekből ma már, ha csupán a jelentősebbeket nézzük, elérhető vagy tízféle. Mindez klasszikus problémákat vetett fel, a Hadoop kódja egyre inkább fragmentálódott, így nehezebb programozni, a csiszolatlanság az emberierőforrás-igénynek és a teljesítménynek sem kedvez.

Új technológiák lépnek ezért színre, mint például a nagy teljesítményű, könnyen programozható, egységes szoftverkóddal büszkélkedő Spark, amely még ötéves sincs, de világszerte már 20 ezernél több fejlesztő dolgozik vele.

A Google-lel végzett keresések alapján a Hadoop világszinten még mindig népszerűbb, mint a Spark, de ez utóbbi vonzereje gyorsabban nő, mondta Arató Bence, aki idén februárban 309 hazai Hadoop-szakembert számolt össze a LinkedInen. Mint mondta, a tábor létszáma évente mintegy 30 százalékkal bővül. Összehasonlításképp idén februárban 88 magyar szakember tüntette fel magáról a LinkedIn oldalain, hogy ért a Sparkhoz, de számuk mostanra, mindössze négy hónap alatt, közel 50 százalékkal 118-ra nőtt.

 

Szilárd alapok, új technológiákkal
A hagyományos adattárházak erőssége, hogy a relációs adatbázisok lekérdező nyelvére, az évtizedek óta fejlesztett, kiforrott SQL-re épülnek, így működésük minden részletében ismert, rengeteg lekérdezőeszköz használható hozzájuk. Hátrányként élik meg ugyanakkor a vállalatok, hogy ezek az adattárházak nem kezelik a strukturálatlan adatokat, és az adatok előkészítéséhez, betöltéséhez vagy egy egyedi lekérdezés programozásához szükséges idő miatt az elemzések eredménye csak hosszabb átfutással áll elő.

Egy korszerű adattárháztól a felhasználók ma már joggal elvárják, hogy az oszlopalapú adattárolást, az online adattömörítést, a memórialapú adatfeldolgozást és a gazdag formátumokat (például XML, JSON) egyaránt támogassa, továbbá jól integrálható legyen a bigdata-technológiákkal, például egy Hadoop-klaszterrel, mondta Arató Bence. A konferencia egyik főtámogatójaként a Microsoft in-memory, BI- és analitikai, bigdata- és hibrid megoldások demójával külön előadásban mutatta be, hogy a június 1-jén bejelentett SQL Server 2016 milyen funkciókkal és szolgáltatásokkal igyekszik eleget tenni a kor elvárásainak.

Az adattárházak további fejlődéséről szólva Arató Bence az automatizálást és a virtualizálást emelte ki. Egyre fontosabb igény, hogy az adatokat a különböző forrásokból kinyerő, majd elemezhető formátumra átalakító és az adattárházba betöltő ETL-rendszerek működése minél nagyobb mértékben automatizálható legyen. Gyorsan terjednek az adatvirtualizáló eszközök is, amelyek az ETL-rendszerekkel ellentétben a forrásrendszerekben hagyják az adatokat, és azokhoz valós idejű hozzáférést adnak elemzés céljából.

Felhőalapú adatmenedzsment-megoldások a legjobbak az ilyen és hasonló új technológiák bevezetéséhez, mivel segítségükkel a szervezetek egyszerűen, gyorsan és alacsony költségek mellett léphetnek a tettek mezejére. A startupok után ma már a hazai nagyvállalatoknál is gyakrabban előfordul, hogy bigdata-próbaprojektjüket a felhőben indítják, majd az eredménnyel érvelnek egy leendő IT-beruházás jóváhagyása mellett.

Nem mellékes szempont, hogy a felhőalapú megoldások egyúttal az analitikai teljesítményt fokozó fejlett hardvertechnológiákhoz - például a tisztán SSD-alapú tárolókhoz - is olyan gyors és költséghatékony hozzáférést adnak a szolgáltatók adatközpontjaiban, mint a folyamatosan megjelenő új szoftveres képességekhez.

Mind kiélezettebbé válik éppen ezért a felhőszolgáltatók versenye, és a kínálat is egyre összetettebb, az Amazon Web Services, a Google Cloud vagy a Microsoft Azure menüjének összehasonlítása már külön szakértőért kiált.

Ezzel együtt 2016-ot a felhő évének tekinthetjük Európában is, állította Arató Bence. A globális szolgáltatók egyre-másra nyitják meg helyi adatközpontjaikat, de a felhasználók körében is érezhetően erősödik irántuk a bizalom. Az Egyesült Királyság a skandináv országokkal együtt előrébb jár másoknál, ám a felhőre ma már Magyarországon is mindinkább úgy tekintenek a vállalatok, mint a szóba jöhető platformok egyikére.

Vegyes forráskódú jövő
Noha a nyílt forráskódú szoftverek új nemzedéke már eddig is sokat segített az adatmenedzsment hagyományos eszközökkel kezelhetetlen problémáinak megoldásában, egyáltalán nem biztos, hogy a jövőben egyeduralkodóvá válik a területen, mutatott rá Arató Bence a konferencia nyitóelőadásának végén.

Több jel is arra utal, hogy a szervezetek analitikai eszköztára a forráskód tekintetében még nagyon sokáig vegyes lesz. A sikeres, széles körben elterjedő, nyílt forráskódú technológiák - ahogyan azt a Hadoop példája mutatja - népszerűségük áldozatává, töredezetté válnak, ezért veszítenek innovációs lendületükből, miközben a zárt forráskódú, hagyományos megoldásokat szállítóik egyre gyorsuló ütemben - felhőszolgáltatásként folyamatosan - továbbfejlesztik. A két világ ebben az értelemben közelít egymáshoz.

Érdekes lesz például figyelemmel kísérni, hogy a Microsoft hová fog eljutni PowerBI interaktív adatvizualizációs szolgáltatásával, amelynek alapváltozata ingyenesen használható, de előfizetési díja is elég kedvező ahhoz, hogy széles körben elterjedjen.

A nyílt forráskódú üzletiintelligencia-megoldások első hullámának legsikeresebb tagjait ugyanakkor mára felvásárolták vagy kommercializálták, ahogyan azt a Stanford Egyetem kutatási projektjeként indult Tableau esete is szemlélteti. Tíz évvel alapítása után a hasonló nevű spin-off cég 2013-ban tőzsdére lépett, és ma már borsos árat kér licenceiért, amelyet a felhasználók boldogan megfizetnek, hozott példát Arató Bence.

Októberben, ugyancsak a BI Consulting szervezésében, a kiaknázás, az adatvizualizáció eszközeire fókuszál majd a Budapest BI Fórum, amelyet 2017 februárjában a trió harmadik tagja, a Budapest NOSQL Fórum követ.

Ügyfélszolgálati változás!
--
Hirdetés
Hirdetés
0 mp. múlva automatikusan bezár Tovább az oldalra »

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://computerworld.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.