Turun yliopiston tiedote 1.8.2014
Bio- ja lääketieteen tieteellisten julkaisujen tärkein arkisto on PubMed-tietokanta (http://pubmed.com), jossa on tällä hetkellä yli 20 miljoonaa julkaisua, ja määrä kasvaa jatkuvasti. BioNLP-tutkimuksen eli biotieteellisen tekstinlouhinnan tarkoituksena on kehittää uusia, yhä täsmällisempiä lähestymistapoja faktojen löytämiseen suurista tekstimassoista. BioNLP-tutkimus yhdistää tietotekniikkaa, kielitiedettä ja biologiaa tiedon etsimiseksi miljoonista bio- ja lääketieteellisistä julkaisuista.
Jari Björnen väitöstutkimuksessa Turun yliopistossa kehitetty Turku Event Extraction System (TEES, http://jbjorne.github.io/TEES/) on työkalu tapahtumaväitteiden löytämiseen suurista tekstimassoista. Tapahtumaväitteet määrittävät täsmällisesti tekstin merkitysyhteyksiä. Tunnistamalla tapahtumaväitteitä voidaan etsiä monimutkaisia syy-seuraussuhteita suurista tekstimassoista, joiden läpikäyminen olisi tietoa etsiville tutkijoille liian hidasta.
TEES kerännyt jo tunnustusta kansainvälisessä kilpailussa
BioNLP Shared Task on tutkimusalalla tärkein "jaettu tehtävä", eli avoin tieteellinen kilpailu, jossa eri tutkijaryhmät kehittävät kilpailevia menetelmiä jonkin ajankohtaisen tehtävän ratkaisemiseen. Automaattisten menetelmien toimivuutta testataan aineistolla, jonka oikeat vastaukset ovat tiedossa ainoastaan kilpailun järjestäjillä, riippumattoman arvioinnin varmistamiseksi.
Ensimmäiseen, vuoden 2009 BioNLP Shared Task -kilpailuun osallistui yli 40 tutkimusryhmää, joista 24 sai valmiiksi toimivan menetelmän. Näistä TEES sijoittui ensimmäiseksi, ohittaen mm. tunnetut Cambridgen, Concordian, Antwerpenin ja Tokion yliopistot.
Sittemmin BioNLP Shared Task on järjestetty vuosina 2011 ja 2013, laajentuen useisiin osatehtäviin, ja kumpanakin vuonna TEES on saavuttanut lukuisia ensimmäisiä sijoja.
Hyvät kilpailutulokset ovat herättäneet kansainvälistä kiinnostusta TEES-järjestelmää kohtaan, ja niinpä ohjelma on julkaistu avoimen lähdekoodin projektina (http://jbjorne.github.io/TEES/), joten tutkimuksen tulokset ovat nyt koko tekstinlouhintayhteisön käytettävissä.
TEES:iä on hyödynnetty mm. Berliinin Humboldt-yliopiston solutyyppien toimintaa kartoittavassa CellFinder-tietokannassa (
http://www.cellfinder.org/) sekä Manchesterin yliopiston biologisten prosessien BioContext-hakukoneessa (
http://biocontext.org/). Järjestelmää on käytetty myös Etelä-Korean KAIST-yliopiston syövän ja geenien välisiä yhteyksiä etsivässä OncoSearch-hakukoneessa (http://oncosearch.biopathway.org) sekä Gwangjun tiede- ja teknologiainstituutin geenien ja sairauksien yhteyksiä kartoittavassa DigSee-järjestelmässä (
http://gcancer.org/digsee/).
Turun yliopiston informaatioteknologian laitoksella TEES:iä on hyödynnetty tapahtumaväitteiden tunnistamiseen koko PubMed-tietokannasta. Lähes vuoden laskenta-aikaa vaativan työn mahdollistivat Tieteen tietotekniikan keskuksen CSC:n supertietokoneet. Lopputuloksena syntynyt, yli 20 miljoonaa tieteellistä julkaisua kattava, yli 17 miljoonan tapahtumaväitteen verkosto on muodostanut perustan laitoksella kehitetylle EVEX-hakukoneelle (http://evex.org), joka tarjoaa tutkimuksen tulokset biologeille selkeässä ja käytettävässä muodossa.
Mitä tapahtumaväitteet (events) ovat?
Vaikka tekstejä voidaankin etsiä avainsana-hauilla (kuten Google), monimutkaisemman tiedon löytäminen vaatii käsitteellisten yhteyksien tunnistamista, esim. määriteltyä yhteyttä taudin ja lääkkeen välillä. Tällaisten yhteyksien etsiminen on yleensä perustunut vuorovaikuttaviin käsitepareihin.
Tällainen tutkimus on biotieteellisen tekstin louhinnassa keskittynyt erityisesti proteiinien, solujen toiminnassa keskeisten molekyylien välisten vuorovaikutusten tunnistamiseen. Käsiteparien avulla voidaan määritellä, että esimerkiksi lauseessa "Proteiini A säätelee proteiinien B ja C vuorovaikutusta" proteiinit A, B ja C ovat yhteydessä toisiinsa, mutta yhteyden täsmällistä muotoa ei tiedetä.
Tapahtumaväitteet (events) ovat uusi lähestymistapa, jolla tekstistä tunnistettavat väitteet voidaan määritellä huomattavasti tarkemmin. Yllä olevalle esimerkkilauseelle voidaan määrittää tapahtumaväiterakenne SÄÄTELEE(A, SITOUTUU(B,C)), joka sisältää saman informaation kuin alkuperäinen lausekin.
Miksi sitten tällaista esitystapaa tarvitaan? Luonnollinen kieli on hyvin monimuotoista, ja vaikka ihminen ymmärtääkin, että eri lauseilla voi olla sama merkitys, tietokoneelta tämä ei onnistu. Edellä mainittu esimerkkilause voitaisiin kirjoittaa myös muodossa "Proteiinien B ja C vuorovaikutusta säätelee proteiini A". Vaikka ihminen näkee, että kyseessä on sisällöltään sama lause, tietokone vaatii enemmän täsmällisyyttä. Koska lauseen sanajärjestyksestä huolimatta tapahtumaväiterakenne SÄÄTELEE(A, SITOUTUU(B,C)) on sama tälle jälkimmäisellekin lauseelle, tietokone pystyy havaitsemaan, että lauseiden sisältö on sama, mikä mahdollistaa erilaisten haku- yms. sovellusten kehittämisen.
Jotta teksti voidaan muuttaa tietokoneelle ymmärrettäväksi tapahtumaväitteiden avulla, pitää nämä väitteet ensin automaattisesti tunnistaa mahdollisesti suuristakin tekstimassoista, ja tässä väitöskirjatyössä kehitetty Turku Event Extraction System (TEES) on tähän tarkoitukseen soveltuva ohjelma.
Miten TEES toimii?
Turku Event Extraction System perustuu koneoppimiseen (ns. tukivektorikoneisiin), tekoälytutkimuksen osa-alueeseen, jossa tietokone oppii tunnistamaan säännönmukaisuuksia opetusdatan avulla. Jos koneoppimisohjelma esimerkiksi saisi nähdäkseen tuhansia erilaisten hedelmien ominaisuuksia, se voisi oppia päättelemään, että keltaiset ja pitkulaiset hedelmät ovat banaaneja, pyöreät ja oranssit appelsiineja jne. Tällaiset järjestelmät vastaavat aina siis yksinkertaisiin "kyllä/ei", tai "mihin luokkaan esimerkki kuuluu" -kysymyksiin. Jotta tekstistä etsittävät tapahtumaväitteet voidaan tunnistaa näin yksinkertaisilla kysymyksillä, täytyy tehtävä jakaa osiin.
TEES etsiikin informaatiota useassa vaiheessa. Tätä voidaan havainnollistaa aikaisemmin esitellyn lauseen "Proteiini A säätelee proteiinien B ja C vuorovaikutusta" avulla. Ensin tutkittavana oleva lause käydään läpi sana sanalta, ja siitä tunnistetaan yhteyksiä määrittävät avainsanat: Esimerkkilauseessa nämä ovat "säätelee" ja "vuorovaikutusta".
Seuraavassa vaiheessa tunnistetaan miten avainsanat liittävät käsitteet yhteen: Sana "vuorovaikutusta" kytkee yhteen proteiinit B ja C, sana "säätelee" taas kytkee proteiinin A jo määriteltyyn B:n ja C:n väliseen vuorovaikutukseen. Avainsanat kertovat myös vuorovaikutusten tyypin, joten tapahtumaväitteillä voidaan etsiä vain tiettyjä, täsmällisesti määriteltyjä yhteyksiä esim. proteiinien välillä.
TEES hyödyntää tehokkaasti olemassa olevia, kielitutkimuksen johtavissa yliopistoissa kehitettyjä menetelmiä. Opettaessaan tapahtumaväitteitä koneoppimisjärjestelmille, TEES käyttää sekä Brownin että Stanfordin yliopistoissa kehitettyjä syntaktisia lauseenjäsentimiä, joiden automaattisesti tunnistamiin kieliopillisiin rakenteisiin myös käsitteellisiä yhteyksiä mallintavien tapahtumaväitteiden tunnistus perustuu.
**
Torstaina 7. elokuuta 2014 kello 12 esitetään Turun yliopistossa (ICT-talo, Beta-auditorio, Joukahaisenkatu 3-5) julkisesti tarkastettavaksi filosofian maisteri Jari Björnen väitöskirja ”Biomedical Event Extraction with Machine Learning” (Tapahtumaväitteiden tunnistus biotieteellisestä tekstistä koneoppimisen avulla). Virallisena vastaväittäjänä toimii tohtori Pierre Zweigenbaum (LIMSI-CNRS, Paris-Sud-yliopisto, Ranska) ja kustoksena professori Tapio Salakoski.
FM Jari Björne on syntynyt 1981 Turussa ja kirjoittanut ylioppilaaksi 2000 Luostarivuoren lukiosta. Filosofian maisteriksi Björne valmistui 2008 Turun yliopistosta, jossa hän parhaillaan toimii tohtorikoulutettavana. Väitös kuuluu informaatioteknologian alaan.