Mi lenne, ha Magyarország GDP-je lenne világviszonylatban a legnagyobb? Bár ennek realitása meglehetősen csekély, elméletben akár a rangsor élére is ugorhatnánk, ha a világ országainak nemzeti jövedelmét és teljesítményét úgy mérnénk, hogy minden állam kicsit mást értene a közgazdasági mutató definíciója alatt. Így van ez a biológiai képfeldolgozásban is, ahol a mesterséges intelligenciát alkalmazó algoritmusok összehasonlító mutatóit rendszerszinten félreértelmezik, ez pedig táptalajt adhat ahhoz, hogy mindenki a saját módszereit tüntesse fel legjobbként. Az ELKH Szegedi Biológiai Kutatóközpont (SZBK) bioinformatikusai – Horváth Péter és csoportja – e meglepő és általánosan figyelmen kívül hagyott gyakorlati problémára világítanak rá a világ vezető módszertani folyóirata, a Nature Methods lapjain megjelent legújabb közleményükben.
A gyors és hatékony adatfeldolgozáshoz ma már nélkülözhetetlen az automatizálás, amit mesterséges intelligenciára (MI) és mélytanulásra épülő algoritmusok tesznek lehetővé. A biológiai képfeldolgozás MI-alapú átalakulásának köszönhetően képesek vagyunk egy-egy komplex biológiai mintáról sejtszinten, az egyes sejtekre lebontva információt kapni. A képelemzésre használt algoritmusok minden egyes mintát a róluk készült több százezer vagy milliónyi mikroszkópos felvétel kiértékelésével dolgoznak fel, precízen osztályozva sok milliárdnyi sejtet, és feltárva a mintában előforduló sejtszintű eltéréseket, ami például a rákdiagnosztikában és a személyre szabott gyógyászatban is döntő jelentőségű.
Az automatizált biológiai képfeldolgozás kompetitív és dinamikusan fejlődik
A terület ma rendkívül kompetitív: bioinformatikusok tízezrei dolgoznak egyre jobb – mind precízebb és hatékonyabb – módszerek kifejlesztésén. Ugyanakkor az, hogy melyik a „legjobb”, értékelés- és feladatfüggő, illetve a választott módszer meghatározza, mit és hogyan vagyunk képesek felfedezni a vizsgált biológiai mintában. Ahhoz, hogy a különféle módszereket össze tudjuk hasonlítani, és ennek alapján kiválaszthassuk az adott feladatra legmegfelelőbbet, valamilyen kvantitatív mutatót kell használnunk. És bár a szakirodalom pontosan definiálja az összehasonításra alkalmas metrikákat, ezek definíciójának értelmezése korántsem egységes. Előfordul, hogy akár 5-6 különböző interpretációja is van egy adott fogalomnak – magyarázza Hirling Dominik cikkük egyik legfontosabb megállapítását. A fenti szemléletes példával élve: olyan ez, mintha minden ország némiképp mást értene a GDP definíciója alatt, így amíg az egyik értelmezés szerint az Egyesült Államok áll az első, Kína a második és Japán a harmadik helyen, addig egy másik értelmezés szerint az előbbi rangsor ötödik helyén álló India ugorhatna a vezető pozícióba, az USA pedig a negyedik helyre kerülne.
Mit befolyásol az értelmezés?
Az előbbi elméleti példához hasonlóan a szegedi kutatócsoport megvizsgálta, milyen következményekkel jár, ha a biológiai képfeldolgozásra használt különféle algoritmusokat az összehasonlításukra alkalmas mutatók más-más interpretációja szerint vetik össze egymással. Ehhez egy biológiai képfeldolgozásra fókuszáló informatikai világversenyhez (Data Science Bowl, DSB) nyúltak vissza, ahol közel négyezer csoport mérte össze a tudását. A feladat egy olyan mikroszkópos képelemző szoftver fejlesztése volt, amely az algoritmus által még soha nem látott képeken is képes minden egyes sejtet megtalálni. A feladatra kidolgozott algoritmusokat egy vagy több összehasonlító mutató szerint értékelte a versenybizottság, de mint kiderült, az eredmény és a versenyzők rangsora jelentősen módosul, ha egy adott metrikára a választottól eltérő, de szintén a szakirodalomban megtalálható interpretációt használunk. Az adatfeldolgozó algoritmusok között csak akkor lehet egy adott szempont szerint reálisan különbséget tenni, ha az összehasonító metrikákat standardizáljuk, és ennek megfelelően döntjük el, hogy a felhasználás céljára melyik a legoptimálisabb.
Gyakorlati jelentőség
A biológiai képfeldolgozás ma már nélkülözhetetlen az orvosi diagnosztikában és a személyre szabott gyógyászatban, ezért a probléma gyakorlati jelentősége messze nem elhanyagolható, hiszen ha nem a célnak legmegfelelőbb algoritmust választjuk, nem biztos, hogy kellő hatékonysággal nyerünk ki információt a mintából. Vegyük példaként az onkológiát, ahol nem elég felfedezni a daganatos sejteket a szövetmintában – a kórfolyamat előrehaladtával egyre nagyobb hangsúlyt kap a progresszió során megváltozott tumorsejtek felderítése és ezek arányának megállapítása, mert érdemben befolyásolják a választandó terápiát.
E gondolatkörhöz szorosan kapcsolódik Hirling és Horváth egy szintén nemrég publikált módszerfejlesztése (Comput Struct Biotechnol J. 2022;21:742–750), amely a sejtek alakját leíró matematikai modell beépítésével növeli a biológiai képfeldolgozásra szolgáló, MI-alapú algoritmus hatékonyságát. Ha az algoritmus nem „vakon keresgél” a minta képpontjai között, hanem előre tudja, milyen alakzatokra „fókuszáljon”, a mesterséges intelligencia jobban tud tanulni, ami végeredményben hatékonyabb képanalízist eredményez.
Linkek:
https://www.nature.com/articles/s41592-023-01942-8
https://www.sciencedirect.com/science/article/pii/S2001037022005888?via%3Dihub