Mit érnek a zettabájtok?

A nagy adatmennyiségek elemzésére hivatott eszközök elengedhetetlenek a vállalatok számára ahhoz, hogy feltárják a hatékonyabb működést, megnövelt teljesítményt és jobb döntéshozatalt elősegítő összefüggéseket.

Évről évre megduplázódik a digitális adatok mennyiségének növekedési üteme, és 2020-ig azok összvolumene eléri a 44 zettabájtot (44 trillió gigabájtot) - derül ki az IDC elemzéséből. A piackutató cég egy korábbi felmérése ugyanakkor megállapította, hogy ebben a robbanásszerűen expandáló univerzumban csupán az adatok 5 százalékának van komoly értéke. Ez az arány azonban 2020-ra várhatóan bőven meg fog kétszereződni, ahogy a szervezetek egyre jobban kihasználják az új elemzési és bigdata-technológiákban, valamint az új típusú adatforrásokban rejlő lehetőségeket.

Már korábban is elemezték a vállalatok a különféle forrásokból származó adatokat az üzleti eredményességet javító összefüggések feltárása érdekében. Ahogy nőtt a nagy volumenű és változatos összetételű adatkészletek elemzése iránti igény, úgy jelentek meg a piacon a fejlett elemzési módszereket és eszközöket felvonultató alkalmazások a szoftvergyártók kínálatában. Ezek az új típusú bigdata-analitikai megoldások lehetővé teszik az üzleti elemzők és piackutatók számára olyan adatok begyűjtését és elemzését, amelyek korábban elérhetetlenek voltak, vagy rendkívüli nehézséget okozott a feldolgozásuk.

Manapság a vertikális iparágakban egyre több szervezet fedezi fel a nagy adatmennyiségek elemzésében rejlő üzleti előnyöket. Ahogy a bigdata-analitika a korszerű vállalati adatfelügyeleti tevékenység alapvető részévé válik, az igényeiknek leginkább megfelelő megoldás kiválasztása egyszerre jelent kihívást és hatalmas üzleti kiugrási lehetőséget a szervezetek számára.

mit_ernek_a_zettabajtok_screenshot_20161206105444_1_nfh.jpg
Nagyításhoz kattintson a képre.

Szakértői körökben sem alakult még ki konszenzus azt illetően, mekkora adatmennyiségeknél beszélünk bigdata-elemzésről. Egyes vállalatoknak sok terabájtnyi információ feldolgozásával kell megbirkózniuk, ami komoly nehézségekkel járhat, ugyanakkor az is igaz, hogy az analitikai technológiák olyan mértékben fejlődtek az utóbbi időszakban, hogy a big data már nem feltétlenül jelent akkora kihívást a szervezetek számára, mint korábban. Manapság tehát már nem pusztán az adatok nagy mennyisége a legjelentősebb probléma, hanem az adatok generálásának, tárolásának és elemzésének nem kielégítő sebessége, a feldolgozáshoz szükséges informatikai infrastruktúra hiánya, valamint az adatok sokfélesége - olvashatjuk a Technology Evolution Centers tanulmányában. A nagy adatmennyiségek kezelésekor az olyan, egyébként egyszerű műveletek, mint az adattárolás és az adatok mozgatása is jelentős mértékben leterhelik egy szervezet informatikai erőforrásait.

Bővített definíció
A bigdata-analitika nem más, mint összetett adatkészletek kezelése, feldolgozása és elemzése értékes információk és összefüggések kinyerése érdekében. Speciális stratégiákat és eszközöket, továbbá szélesebb körű megközelítést igényel, mivel nem csupán arról van szó, hogy nagy adatmennyiségekkel kell dolgoznunk.

Ennek megfelelően a Gartner három, angol elnevezése alapján V betűvel kezdődő tényezővel (volume, velocity, variety - volumen, sebesség, változatosság) definiálta a nagyadat-elemzést. A volumen az egyre nagyobb mennyiségű feldolgozandó adatra utal. Már a bigdata-forradalom kitörése előtt is voltak olyan vállalatok, amelyek elképesztő mennyiségű információt tároltak el annak reményében, hogy később majd rendelkezni fognak a feldolgozásukhoz és elemzésükhöz szükséges erőforrásokkal. Napjainkban a nagymennyiségű belső adat generálása mellett a szervezetek információkat gyűjtenek a közösségi médiából, érzékelők segítségével és más külső forrásokból is.

A sebesség arra utal, hogy az adatok továbbítása különféle ütemben történhet. A vállalatok hagyományosan a kötegelt feldolgozási folyamatokat használták az adatok mozgatására, ami késleltetési időszakot iktatott be az adatok összegyűjtése és felhasználása közé. Jelenleg a késleltetés mértéke folyamatosan csökken, az adatokat többféle módszerrel (többek között kötegelten és valós időben) és többféle forrásból gyűjtik be, így a késleltetés függ a begyűjtendő adatok típusától, valamint attól, mekkora igény mutatkozik azok iránt. Mivel a különféle típusú adatok feldolgozása eltérő idő alatt történik meg, az adatigények kiegyensúlyozásával lehetővé válik a kívánt időszakokra vonatkozó összefüggések valós vagy közel valós idejű feltárása, ami a modern vállalatok egyik alapvető elvárása a bigdata-analitikával szemben.

A változatosság arra utal, milyen mértékben változott meg a vállalatok által begyűjtött adatok típusa. Egyre több az olyan belső vállalati rendszer, amelynél rögzíteni és elemezni kell az általa szolgáltatott, főként strukturált adatokat, továbbá mind a belső, mind a külső forrásokból (közösségi szolgáltatásokból, blogbejegyzésekből, kommentárokból, automatikus rendszerektől, érzékelőktől). Ugyanakkor egyre több, főként félig strukturált vagy strukturálatlan adat is érkezik, amelyeket ugyancsak érdemes összegyűjteni és elemezni.

A Technology Evolution Centers tanulmánya szerint a big data fogalmának eredeti meghatározása óta további két V betűs jellemzővel (value, veracity - érték, igazságtartalom) bővült a technológiát definiáló tényezők sora. Annak az igénye, hogy a bigdata-források által szolgáltatott adatokban értéket leljenek fel az alkalmazók, arra ösztönözte a fejlesztőket, hogy a hagyományos adatkezelésben általánosan nem használt új vagy alternatív analitikai módszereket - adatbányászat, gépi tanulás, mély tanulás - dolgozzanak ki.

A tárolt és feldolgozott adatok igazságtartalma újabb fontos tényező, hiszen alapvető jelentőséggel bír, hogy az adatok adekvátak, megbízhatóak és hitelesek legyenek az elemzéshez, a megfelelő forrásból származzanak, a kívánt gyakorisággal érkezzenek, és megfelelő formátumúak legyenek.

A big data technológiája
Technológiai szempontból a hatékony nagyadat-elemzés olyan megoldásokat és eszközöket igényel, amelyek lehetővé teszik az analitikához szükséges műveletek elvégzését. Nagy mennyiségű adatot gyűjtenek össze a források széles köréből: közösségi szolgáltatások hírfolyamairól, érzékelőktől, szöveges dokumentumokból és más helyekről. Ezeket az adatokat többnyire a hagyományos relációs adatbázis-kezelő rendszerek alternatívájaként kifejlesztett megoldásokban (Hadoop, NoSQL-adatbázisok) tárolják. Elvégzik az adatminták előzetes feldolgozását, többek között a formátumok validálását, majd pedig a tényleges adatelemzést, vizualizációt és az összefüggések feltárását.

A bigdata-elemzés egyfajta katalizátorként szolgál az új adatkezelési technológiák és folyamatok bevezetéséhez. A nagyadatos technológiák nem váltják fel kiterjedt mértékben a korábbi adatkezelési technológiákat, sokkal inkább továbbfejlesztik azok lehetőségeit, és növelik hatékonyságukat. Emiatt az elemzést nem szabad elszigetelten kezelni és az új adatfeldolgozási képességeket elszigetelten megvalósítani.

Minden bigdata-projekt magában foglal egy sor tevékenységet és folyamatot, amelyek között megtalálható a nagy és összetett adatkészletek kezelése is.

Összegyűjti az adatokat több különféle forrásból, közel valós idejű tranzakciós eseményekből, szenzorokkal figyelt valós idejű eseményekből, valós idejű adatfolyamokból, valamint a közösségi média csatornáiról. Tárolja az adatokat a típusuknak leginkább megfelelő technológiával, Hadoop vagy más platformon (HDFS fájlrendszerben), adattárházban, relációs adatbázis-kezelő rendszerben vagy NoSQL adatbázisban. Feldolgozza az adatokat, definiálva azok felhasználásának módját, a technikai követelményeket, a megcélzott üzleti folyamatokat, valamint azt, hogy ki rendelkezhet az adatokkal. Elvégzi a nagyméretű strukturálatlan és strukturált adatkészletek, valamint a valós időben és közel valós időben beérkező adatok és adatfolyamok elemzését, melynek keretében sor kerülhet fejlett analitikai technológiák, például adatbányászat és gépi tanulás alkalmazására is.

Kommentek

comments powered by Disqus