Sötét bugyrok sötét titkai

|

Bár óriási körülötte a felhajtás, az adattudomány sem mentes a fogyatékosságoktól és korlátoktól, amelyek a rejtett költségektől egészen az erősen megkérdőjelezhető következtetésekig terjednek.

Valóban forradalmasítja az informatikát az adattudomány, hiszen lehetővé teszi, hogy a számítógépek problémákat oldjanak meg. Az okos algoritmusok a gyógyszerkutatástól a gépi látásig hasznos innovációkkal gazdagítják életünket. Azonban nem csak sikertörténetekről számolhatunk be, mert a technológia rengeteg megkérdőjelezhető és megbízhatatlan eredményt is produkál. Az adattudomány ritkán emlegetett fiaskóira és negatívumaira Peter Wayner, a CIO.com munkatársa hívja fel a figyelmet.

Hirdetés

Sok adattudományos kutatás evidenciákat állapít meg. Amikor a bankok kölcsönökkel kapcsolatban vizsgálódtak, arra jutottak, hogy a megtakarítással nem rendelkezők nagyobb valószínűséggel válnak fizetésképtelenné. Amikor a kórházak az orvosi műhibák okaira kerestek választ, azt találták, hogy az alváshiány komoly problémákat okozhat. Amikor egy probléma okait keressük adattudományos módszerekkel, sok esetben csak annak a matematikailag alátámasztott megerősítését kapjuk, amit már eddig is tudtunk.

Nehezebb statisztikai válaszokat kapni, mint gondolnánk. Amikor kicsi a minta, és előítéletekben sincs hiány, a következtetések nagy valószínűséggel tévesek lesznek. A megoldást a több adat jelenti, néha nagyon sokkal több. Egy nem nyilvánvaló hatás elemzése esetén a megfelelő mennyiségű adat összegyűjtése elképesztő költségekkel járhat. Ámn ha a vizsgált hatás nem túl jelentős, megértésének nincs sok értelme. A nagyméretű és kiemelkedő hatékonyságú piacokon, például a részvénytőzsdén a kis hatások is lehetnek értékesek, sok esetben azonban nem érdemes foglalkozni velük, mivel elemzésük komoly nehézséggel jár.

Az algoritmusok a múltat, nem pedig a jövőt imitálják. Egyes területek olyan gyorsan változnak, hogy adattudományos módszerekkel nem lehet előre jelezni a jövőt, csak a múltbeli események összegzéséig jutunk. Mit tudnak kezdeni a divatcégek azzal az információval, hogy a 60-as években a keskeny nyakkendők voltak népszerűek, míg a 70-es években a tenyérnyi szélességűeket vásárolták? Az adattudomány csak azt tudja kideríteni, mi történt korábban, nekünk kell eldöntenünk, hogy ez segít-e nekünk a jövő előrejelzésében.

Az adatok gyakran rendezetlenek, inkonzisztensek vagy sérültek. Azt hihetnénk, hogy a pénzügyi adatok jól elemezhetők, mivel numerikus tranzakciókat tartalmaznak, holott gyakran rendezetlenek vagy nem egységesek. Például az egyik bank a pénzfelvételeket negatív értékként tárolja, míg egy másik pozitív értékeket használ, és egy tranzakciós kóddal jelzi a pénzmozgás irányát. A különféle banki díjak és költségek eltérő formátumú tárolása pedig még nehezebbé teszi, hogy egységes oszlopokat alakítsunk ki az adatbázisban.

Más területeken még bonyolultabb lehet a helyzet. A szenzorok nem mindig működnek megfelelően, néha hibás értékeket mérnek. A jó hír, hogy a jelentős hatásokat egyszerű azonosítani, és ezek a hatások elnyomják az adatokban lévő összes inkonzisztenciát és zajt.

Az olcsó adatok szűrése sokba kerül. Egyes adatok véget nem érően áramlanak a vállalatok számítógépeire, több terabájtnyi információt tartalmaznak többek között arról, hogy mikor néztek meg az ügyfelek egy-egy képet. A biztonsági kamerák teleírják a merevlemezeket a folyamatosan rögzített nagyfelbontású videókkal. Amikor probléma merül fel, nem az adatok megszerzése okoz kihívást, hanem a megfelelő adatok megtalálása. Ebben nagyon jók a számítógépek, ha megfelelő modell alapján végzik a keresést. Az ilyen modellek kialakítása az adattudósok feladata. De mi legyen előbb? Annak a modellnek a megalkotása, amelyik képes megkülönböztetni a tűt a szénától, vagy amelyik megtalálja a tűt?

A humán munkaerővel végzett szűrés drága. Számos startup alakult adatelemzésre, ők emberi intelligencia segítségével hoznak létre tréningkészleteket gépi tanulási algoritmusok számára. Képeket osztályoznak, dokumentumokat olvasnak el, hangfájlokat hallgatnak meg, mielőtt a megfelelő boxok bejelölésével konzisztens módon kitöltik az űrlapokat. Az egyik ilyen cég igazgatója úgy nyilatkozott, hogy előszeretettel alkalmaznak mesterségesintelligencia-tréningkészletek létrehozására venezuelaiakat, mivel ők fillérekért dolgoznak. Az adattudomány nem tud akcióba lépni eme előkészítő munka elvégzése nélkül. Ha szerencsénk van, a kódolás nem lesz túlságosan bonyolult, és az emberek elfogadható időn belül jó adatmintát tudnak létrehozni.

Egyes adatokhoz lehetetlen hozzájutni. Meglepően sok megfoghatatlan adatvan. Egy amerikai kutató pár hónapja annak próbált utánajárni, hogy  lakókörnyezetében miként változott meg a népesség az elmúlt ötven évben. Ehhez népszámlálási adatokat akart felhasználni, csakhogy szinte lehetetlen volt kibányászni a hatalmas adatbázisból az őt érdeklő információkat.

Másfajta adatok pedig egyáltalán nem léteznek. Túlságosan elfoglaltak vagyunk ahhoz, hogy kitöltsük a felmérések kérdőíveit. Úgy tűnik, mindenütt vannak kamerák, de felbontásuk sokszor kívánnivalót hagy maga után, vagy rossz irányba néznek. Az adattudomány mit sem ér adatok nélkül, és gyakran úgy tűnik, hogy a munka 99,9 százalékát az adatok begyűjtése teszi ki.

Nem tudjuk, hogyan hoznak döntést az algoritmusok. A legújabb gépi tanulási algoritmusok némelyike megdöbbentő pontosságú eredményeket szolgáltat. Ha viszont arra vagyunk kíváncsiak, hogy ezt miképpen érik el, akkor kiderül, hogy ezt senki sem tudja megmondani. Az algoritmusok több ezernyi vagy milliónyi szűrőt alkalmaznak, és addig finomítgatják válaszaikat, amíg jónak látszó eredményt nem kapnak. Annak megértése, hogy voltaképpen mi történik, óriási mennyiségű adat elemzését igényli. Ezek a megoldások hasznosak lehetnek, ha a tréningkészletek jól reprezentálják a vizsgált folyamatot, de gyakran törékenyek és instabilak. Ha nem tudjuk, hogy az algoritmusok miképpen hozzák meg döntéseiket, nem tudjuk megmondani, mikor hibáznak.

Mindenütt rejtett előítéleteket találunk. Az adattudomány világa tele van anekdotákkal arról, hogy minden erőfeszítés ellenére miképpen kerülnek be előítéletek az adatkészletekbe. Megtalálásuk pedig nagyon nehéz feladat. Egyes statisztikai eljárásokkal kiszűrhetők az elemzésekből, de ezek nem igazán automatizálhatók. Így aztán, amikor elvégeztük a munkát és azonosítottunk egy jelet, korántsem lehetünk biztosak abban, hogy az valós jel, vagy csupán egy előítélet visszhangja. Ha viszont az üzleti siker igazolja a statisztikai megállapítást, már nem fog számítani, hogy az rejtett előítéleten vagy az igazságon alapul-e.

Mindig van egy válasz, még ha az helytelen is. A Nobel-díjas fizikus, Richard Feynman állítólag egyszer azt mondta: Láttam egy ARW 357-es rendszámú autót. El tudjuk ezt képzelni? Mi volt a valószínűsége annak, hogy a több milliónyi üzemben lévő gépkocsiból pont ez haladt el mellette azon az estén? Az adatkészletek mindig választ adnak az olyan kérdésekre, hogy melyek a maximum-, minimum- és átlagértékek. A legtöbb algoritmus generál valamilyen megoldást. Az adattudósok egyik legnagyobb kihívása az úgynevezett p-hacking elkerülése: amikor valaki kifejezetten úgy állít össze egy adatkészletet, vagy úgy végez statisztikai elemzést, hogy statisztikailag szignifikáns eredményt érjen el. A véletlenszerűség természete miatt gyakran nyerhető ilyen az adatokból.

Néha csak kíváncsiak vagyunk. Sok adattudományos projekt olyan jelentéseket eredményez, amelyek több száz oldalnyi, a különféle kombinációkat vizsgáló diagramokat és grafikonokat tartalmaznak. Ez nem jelent nagy segítséget a kérdéseket feltevő üzleti vezetőknek, akik olyan válaszokat várnak, amelyek segítségével pénzt takaríthatnak meg. Néha azonban a kutatások érdekes és hasznos megállapításokra deríthetnek fényt. De érdemes pusztán kíváncsiságból nagyszabású elemzéseket kezdeményezni?

Hirdetés
Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://computerworld.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.