Hirdetés

Mélytanulás és gépi látás

|

Interjú Lányi Dáviddal, az IBM Research zürichi laboratóriumának kutatójával.

Nagy sikert ért el Lányi Dávid az IBM-csapat tagjaként a Medical Image Computing and Computer Assisted Intervention (MICCAI) 2016 konferencia részeként meghirdetett Tumor Proliferation Assessment Challenge (TUPAC) orvosi képdiagnosztikai versenyen, amelyen - mindössze 0,004 ponttal az első helyezett mögött - kollégáival a második helyen végzett. A feladat nem volt könnyű, a verseny adatkészletét eredetileg 159 csapat töltötte le, de végül csak 14 tudott pályamunkát beadni.

Computerworld: Mi jelentette a legnagyobb kihívást a TUPAC-feladványban, és hogyan oldották meg?

Lányi Dávid: Az orvosi képfelismerési versenyen 500 mellrákos páciens preparált szövetmintáiról készült mikroszkópos felvételen kellett azonosítani a mitózisokat, a rákos elváltozásra utaló sejtosztódás jeleit. Rendkívül nagy, 50 ezerszer 50 ezer képpont felbontású képekről van szó szövetmintánként, amelyeken meg kellett számolni a mitózisokat, és ennek alapján hármas skálán meghatározni, hogy a páciens a rákbetegség mely stádiumában van. Minél előrehaladottabb a betegség, annál nagyobb a mitózisok száma a szövetmintán. Az orvosi gyakorlatban ezt a feladatot patológusok végzik. Nagyon sok félrevezető mintázat nehezíti a rákos területek pontos beazonosítását, ezért a patológusok 8-10 évig tanulják és gyakorolják, mire biztos szemmel diagnosztizálni tudják az ilyen eseteket.

Feladatunk olyan algoritmus kifejlesztése volt, amely automatizálja a mitózisok felismerését. Két kihívás is nehezítette a probléma megoldását. Egyrészt az algoritmust képessé kellett tennünk a jellemzők megtanulására, amelyek alapján eldönthető, hogy egy képszegmens tartalmaz-e mitózist, vagy sem. Nehéz feladat ez, mert az orvosi képdiagnosztizálás nem olyan objektív műfaj, mint például a mesterségesintelligencia-kutatás másik területe, a képosztályozás. Ugyanarról a szövetminta-felvételről két patológus is nagyon eltérő véleményt formálhat. Másrészt viszonylag kevés adat, kisszámú szövetminta állt rendelkezésünkre, ezért a verseny adatbázisában levő félezer képet további mintegy ezer, nyilvánosan elérhető szövetminta-felvétellel egészítettük ki az algoritmus tanításához.

 

CW: Az algoritmus fejlesztéséhez is egyedi módon közelítettek?

LD: Részben igen, de építettünk a képfelismerés eddigi eredményeire is. A gépi látás terén a mélytanulás (deep learning) megjelenése hozta el az áttörést. Olyan algoritmus-család képviseli ezt a területet, amellyel sokrégetű, azaz mély neurális hálók taníthatók. Az orvosi képfelismerés sajátosságai azonban megnehezítik a már meglévő mélytanulási eljárások alkalmazását. Ezért rá kellett  jönnünk, hogy mely módszerhez nyúlhatunk a versenyfeladat megoldása érdekében. Mi egy speciális konvolúciós neurális architektúrát, úgynevezett reziduális hálózatot terveztünk. Ennek előnye, hogy nagyon mély modellek tanítását is lehetővé teszi. A mi neurális hálónkat 21 réteg alkotja.

A konvolúciós neurális háló a kétdimenziós adatok, például képek feldolgozására alkalmas. A neurális hálókban a feldolgozás egymásra épülő rétegekben történik, amelyek a képet apró szegmensenként elemzik, és e folyamat tökéletesítését tanulja meg az algoritmus. A reziduális hálók különlegessége, hogy a rétegek közötti különbségeket kódolja, tovább javítva a felismerés pontosságát. A mélytanulás matematikai, algoritmikus háttere évtizedek óta ismert, a gyakorlati sikerekhez szükséges nagy adattömeg és feldolgozási kapacitás azonban csak mintegy tíz éve érhető el - és a neurális hálók mai reneszánszához szükség volt néhány technológiai fogásra is, amely megoldja a mélységből adódó matematikai problémákat.

Minthogy a szövetminták képe 99 százalékban negatív mintákat tartalmazott, vagyis az algoritmus tanításához rendelkezésre álló adattömeg nagyon kiegyensúlyozatlan volt, olyan mechanizmust is ki kellett fejlesztenünk, amely szelektál, és azokra a negatív mintákra összpontosít a tanulás során, amelyek nagyon hasonlítanak a pozitívakra, de mégsem azok.

CW: Mekkora neurális hálózattal dolgoztak? Az IBM Watson platformját használták a feladat megoldásához, vagy dedikált hálózatot építettek?

LD: Dedikált hálózatot építettünk. A zürichi laborban, az IBM kutatóközpontjában szabadon kipróbálhatjuk a legújabb módszereket, nem kell a már piacon levő technológiákra támaszkodnunk. Csapatunk a mélytanulással és az algoritmusok orvosi képdiagnosztizálásban történő felhasználásával foglalkozik. Fejlesztésünkkel egyelőre a versenyen vettünk részt, a továbbiakban a képfelismerés teljesítményének javításán és az algoritmus tudásának bővítésén dolgozunk, hogy más rákbetegségek okozta elváltozásokat is felismerjen. Eredményeink így idővel beépülhetnek az IBM Watson Health kínálatába is.

CW: Hogyan tanul egy számítógép? Miben tér el a folyamat a programozástól?

LD: Amennyiben egy feladat komplexitása meghalad bizonyos szintet, akkor a kódsorról kódsorra előre megírt algoritmusok már nem működnek elég hatékonyan. Itt lép színre a gépi tanulás, amelynek egy speciális területe a mélytanulás. Egy neurális hálót, amely számos tanulóalgoritmust testesíthet meg, úgy tanítunk, hogy a bemenetén adatmintákat mutatunk neki, a kimenetén pedig a helyes eredményt, esetünkben azt, hogy van-e mitózis a képen. A folyamat során olyan irányban módosítjuk, úgy finomhangoljuk a hálót, hogy az újabb mintákon minél pontosabb legyen az eredmény. A gépi tanulás esetén tehát a mintákból tanulás folyamatát algoritmizáljuk, nem magát a megoldást, amelyre képtelenek lennénk.

CW: Az IBM zürichi kutatóközpontjában dolgozik, és a Zürichi Műszaki Egyetemen deep learninget tanul. Hogyan lesz a BME Informatikai Karán végzett hallgatóból gyakornok, majd kutató az IBM zürichi laborjában és doktorandusz az ottani egyetemen?

LD: Great Minds néven az IBM zürichi kutatóközpontja minden évben gyakornoki programot hirdet a közép-európai, közel-keleti és észak-afrikai egyetemistáknak. A BME hallgatójaként kerültem kapcsolatba a programmal, 2012-ben sikerrel pályáztam meg a 3-6 hónapos gyakornoki pozíciót, amelyet azután meghosszabbítottunk, majd a közös munka eredménye alapján kutatói státusra váltottunk. Posztgraduális képzésemet így már az itteni egyetemen folytatom.

CW: Az IBM Research egyik amerikai szabadalmát társfeltalálóként jegyzi még 2013-ból. Mihez fűződik ez a fejlesztés?

LD: Az IBM szolgáltatás-kihelyezéssel foglalkozó üzletágának készítettünk egy megoldást, amely adatközponti környezetben tanulóalgoritmusok segítségével előzi meg a szerverek nem tervezett leállását. A megoldás a szerverek működéséről elérhető összes adatot veti össze a hibajegyek információival, és létrehoz egy prediktív modellt, amely jelzi a nem tervezett leállás kockázatának fokát egy adott időtávon belül. Az erre épülő szolgáltatást az IBM száznál több ügyfelének menedzselt adatközponti környezetében alkalmazza.

CW: Kutatási területei közé tartozik a természetesnyelv-felismerés és -feldolgozás, doktori disszertációjának is ez a témája. Számíthatunk rá, hogy egyszer majd gyorsabban felismerik a magyar nyelvet a piacon megjelenő mesterségesintelligencia-megoldások, digitális asszisztensek, holott még professzionális diktálószoftverünk sincs? Segíthetnek ebben a tanulóalgoritmusok, vagy ez inkább piacméret, semmint technológia kérdése?

LD: Egyre jobb eredményeket érnek el a mélytanulás módszereivel a számítógépek a természetes nyelv felismerésében is. Az algoritmusok tanításához azonban nagyon nagy mennyiségű adatmintára van szükség, ami gyakorta még kisebb világnyelveken sem érhető el, nemhogy magyarul. Ráadásul azok a módszerek, amelyek kiválóan működnek a viszonylag egyszerűen szótövezhető indoeurópai nyelveknél, a toldalékoló magyarnál könnyen elhasalhatnak. Mindez megnehezíti, de nem lehetetleníti el a kutatást, amelynek a különleges nyelvek jellegzetességeivel is foglalkoznia kell. Idővel kiderül majd, hogy ez a munka mennyire lesz sikeres. Addig elsősorban a nyelvfelismerő megoldásokat szállító cégek üzleti fókuszán múlik, hogy a technológia mely nyelveken működik majd.

CW: A természetesnyelv-felismerés vonatkozásában a vállalati alkalmazás lehetséges használati eseteit kutatja. Hová fejlődhet a mélytanuló algoritmusok területe 2020-ra és azon túl?

LD: Elsősorban az IT-szakmára láttam rá a szövegfeldolgozással kapcsolatos eddigi munkám során, ezen belül is az incidensleírásokkal foglalkoztam. Ezek a dokumentációk tömören összefoglalják a meghibásodások jellegét és a javításuk érdekében tett lépéseket. Nagyvállalatoknál óriási mennyiségben keletkezik ilyen szöveges adat, amely sajátosságai miatt nem hasonlítható össze a nyilvánosan elérhető szövegadatbázisokkal. Az angol nyelvű, de a természetes nyelv szerkezetétől eltérő, szakzsargont és rövidítéseket használó hibajegyek és naplófájlok feldolgozása - a mitózisok felismeréséhez hasonlóan - speciális megközelítést, a különlegességekkel megbirkózó mélytanulási módszerek bevetését igényli.

A mélytanuló algoritmusok szöveg-, hang- és képadatok felismerésére egyaránt használhatók. Kutatóként a továbbiakban is a felismerés pontosságának javításán szeretnék dolgozni, hogy az algoritmusok minél szélesebb spektrumban legyenek alkalmazhatók.

Olyan szakterületeken, mint az egészségügy és az informatika, a mélytanuló algoritmusokra épülő megoldások asszisztensként jobb döntések könnyebb és gyorsabb meghozatalához segítik hozzá a szakembereket. Ahogy a technológia fejlődik, a lakosság is tapasztalni fogja, hogy ügyeinek intézésében egyre gyakrabban mesterséges intelligencia segíti. Sokan tartanak ettől, de aggodalmuk alaptalan, a fejlődés nagyon pozitív irányba mutat, és bármilyen látványos, nem olyan gyors, hogy a felügyelet közben kicsúszhatna az ember kezéből.

Hirdetés
Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!