Louhintajärjestelmien optimointi parantaa biolääketieteen julkaisujen tekstinkäsittelyä (Väitös: MSc Farrokh Mehryary, 4.2.2022, tietojenkäsittelytiede)

Biolääketieteen alan tutkimusartikkeleiden määrä kasvaa valtavaa vauhtia. Tämän vuoksi alan tutkijoiden on vaikea hankkia ja ylläpitää kaikkea tutkimuksessa tarvittavaa tietoa. MSc Farrokh Mehryaryn väitöstutkimus tarkastelee biolääketieteellisten tekstien louhintaa.

PubMed eli biolääketieteellisen tutkimuskirjallisuuden ensisijainen viittaustietokanta sisältää tällä hetkellä yli 21 miljoonaa tutkimusartikkelin tiivistelmää. Pelkästään vuonna 2020 julkaistiin yli miljoona artikkelia. Vaikka nykyiset tutkimustietokannat tarjoavat tehokkaita hakupalveluja, tavalliset, jokapäiväiset haut palauttavat yleensä tuhansia relevantteja artikkeleita, joten haettujen asiakirjojen manuaalinen tarkastelu on epäkäytännöllistä.

- Vaikka käsin kuratoituja biomolekyylien vuorovaikutustietokantoja on olemassa, ne eivät yleensä ole ajan tasalla, ja niiden ylläpitäminen vaatii huomattavan määrän ihmistyönä tehtävää ylläpitoa. Tämän vuoksi tiedot uusista tutkimustuloksista jaetaankin tavallisesti tutkimusartikkeleissa. Hakupalvelujen tehottomuuden vuoksi riski tiedon ja tutkimustulosten hukkumiselle kuitenkin kasvaa jatkuvasti, Mehryary sanoo.

Biolääketieteellisten tekstien louhintaan erikoistunut BioNLP-tutkimusala on kehittynyt vastaamaan tähän haasteeseen. BioNLP pyrkii auttamaan biotieteiden tutkijoita kehittämällä nykyaikaisia kielenkäsittely- ja tekstinlouhintatyökaluja, jotka voivat skannata koko julkisesti saatavilla olevan tutkimuskirjallisuuden ja poimia, luokitella ja koota siitä löytyvää tietoa.

- Väitöstutkimukseni keskittyy lähes yksinomaan biolääketieteellisten relaatioiden ja tapahtumien louhintaan. Tällä tarkoitetaan biolääketieteellisessä kirjallisuudessa kuvattujen biologisten prosessien, vuorovaikutusten ja suhteiden automaattista tunnistamista, kertoo Mehryary.

Biolääketieteellisten relaatioiden ja tapahtumien louhintajärjestelmät voivat skannata valtavan määrän alan tekstejä ja havaita ja poimia automaattisesti biolääketieteellisten nimettyjen entiteettien, kuten geenien, proteiinien, kemiallisten yhdisteiden ja sairauksien semanttisia suhteita.

Nykyiset relaatioiden ja tapahtumien louhintajärjestelmät perustuvat ohjattuun koneoppimiseen. Näiden järjestelmien kouluttaminen edellyttää manuaalisesti annotoitua aineistoa. Biolääketieteen alalla manuaalinen annotointi vaatii alan asiantuntemusta ja se on erittäin aikaavievää. Tiedonlouhintajärjestelmien rakentamiseen on käytettävissä vain vähän koulutusaineistoa, ja siksi vaaditaan menetelmiä, jotka pystyvät hyödyntämään mahdollisimman tehokkaasti kaiken käytettävissä olevan aineiston. Mehryaryn väitöstutkimuksessa perehdytään nimenomaan tähän aiheeseen optimoimalla tekstinlouhintamenetelmiä parhaan mahdollisen suorituskyvyn saavuttamiseksi biolääketieteellisellä aineistolla.

***

MSc Farrokh Mehryary esittää väitöskirjansa ” Optimizing Text Mining Methods for Improving Biomedical Natural Language Processing” julkisesti tarkastettavaksi Turun yliopistossa perjantaina 4.2.2022 klo 12. Väitöstä voi seurata etänä.

Vastaväittäjänä toimii professori Udo Hahn (Friedrich-Schiller-Universität Jena, Saksa) ja kustoksena professori Tapio Salakoski (Turun yliopisto). Tilaisuus on englanninkielinen. Väitöksen alana on tietojenkäsittelytiede.

Turun yliopisto seuraa aktiivisesti koronavirustilannetta ja viranomaisten ohjeita. Yliopisto päivittää ohjeitaan tilanteen mukaan. Ohjeet ja linkit löytyvät osoitteesta: utu.fi/koronavirus

Väittelijän yhteystiedot: farmeh@utu.fi

Luotu 31.01.2022 | Muokattu 31.01.2022