Informaatioteknologian laitoksen kieliteknologiaryhmä on asettunut uuden Agoran ylimpään kerrokseen. Ginterin johdolla ryhmä hioo vuosituhannen alussa aloitettua ja vuonna 2010 käyttöön otettua EVEX-palvelua.
– Olemme ajaneet tietokantaan 25 miljoonaa biotieteellistä julkaisua, ja kun tutkija syöttää hakusivulle tutkimansa geenin nimen, EVEX louhii hetkessä tietomassasta esille kaikki ne julkaisut, joissa on käsitelty kyseisen geenin vuorovaikutusta, Ginter sanoo.
Kaiken avaimena on avoimuus. Haettava aineisto on kaikille avointa, ja samoin on EVEX. Kuka tahansa voi mennä EVEX:in sivuille ja etsiä haluamaansa tietoa, kirjautumatta ja rekisteröitymättä.
Ohjelman merkittävyydestä kertoo muun muassa se, että Ginter joukkoineen sai opetus- ja kulttuuriministeriöltä Tieto käyttöön -haussa rahaa yhtenä neljästä hankkeesta. Ministeriön tavoitteena on, että vuoteen 2017 mennessä Suomi nousee yhdeksi johtavista maista tieteen ja tutkimuksen avoimuudessa ja että avoimen tieteen mahdollisuudet hyödynnetään laajasti yhteiskunnassa.
Rahoitus käytetään EVEX: biomedical data on open platform and universal standards -hankkeeseen, joka parantaa olemassa olevaa järjestelmää, siistii ja täydentää.
– Saamamme rahoitus on siinä mielessä merkittävä, että tekstinlouhintamenetelmän kehittämiseen on ollut tarjolla rahaa, mutta yleensä sitä ei saa datan ylläpitämiseen ja sen varmistamiseen, että kaikki sujuu siististi. Nyt saadulla tuella me voimme palkata yhden henkilön, joka keskittyy EVEX:in olemassa olevan aineiston siistimiseen, nettisivuston toimintojen laajentamiseen sekä kytkemään aineiston paremmin muun datan kanssa, Ginter sanoo.
Ohjelmaa voidaan muun muassa laajentaa niin, että jatkossa se tunnistaa sairauksia, solulinjoja, geneettisiä mutaatioita, DNA:ta.
– Emme siis laajenna tekstimassaa, mutta laajennamme sitä, mitä kaikkea EVEX löytää, Ginter sanoo.
Tutkijat voivat käyttää jopa kirjautumatta
EVEX:in juuret ovat vuodessa 2001, kun Ginter liittyi jatko-opiskelijana Tapio Salakosken tutkimusryhmään. Syttyi idea yhdistää kieliteknologiaa ja biotieteellisiä julkaisuja tekstilouhintaan.
– Vuonna 2009 kehitimme järjestelmän, jolla louhitaan dataa. Osallistuimme tieteellisen kilpailuun, jossa kaikille osallistujille annettiin dataa ja jokaisen piti rakentaa sen louhimiseen järjestelmä. Kilpailuun osallistui 24 ryhmää eri puolilta maailmaa, ja me voitimme, Ginter muistelee.
Käyttöön EVEX otettiin vuonna 2010. Päätietokantana on PubMed, joka kokoaa kaikki keskeiset biotieteelliset julkaisut, tai niiden abstraktit.
– Jos artikkeli on tärkeä, se on PubMedissa, Ginter sanoo.
EVEX on ratkaisu maailmassa, jossa tietomassat ovat niin suuria, ettei kenelläkään ole mahdollisuutta lukea itse tai kaivaa esille tietoa. Louhittavan tiedon määrää kuvaa hyvin se, että jos aineisto ajettaisiin yhdellä tietokoneella järjestelmään, aikaa kuluisi kaksi vuotta.
Ohjelmaa on vilkkaimpina kuukausina käyttänyt 20 000 tutkijaa eri puolilta maailmaa. Innokkaimpina käyttäjinä ovat amerikkalaisten yliopistojen tutkijat. Tutkijoiden kokema hyöty on arvailujen varassa, sillä tutkijat voivat vapaasti, rekisteröitymättä ja kirjautumatta ladata dataa.
Haasteena avoimuus
Kehittymisen esteenä on kustantamojen halu estää aineistojen vapaa käyttö. Ginter kiittääkin yhdysvaltalaista tapaa, jossa budjettirahoitusta saavien tutkimushankkeiden on avattava tuloksensa avoimesti kaikkien saataville. Sama malli on tulossa koneellisesti luettavien julkaisujen osalta myös Euroopan unionin alueelle.
– Avoin tiede, sen merkitys on valtava. Minulle tulee oikein paha olo nähdä kun näen artikkelin päätyneen lehteen, joka ei ole kaikkien saatavilla. Hyvin harvoin on sellaista dataa, joka pitäisi salata, joten avoimuuden vaatimus pitäisi olla automaattinen, Ginter sanoo.
EVEX:in luomista ovat aiemmin rahoittaneet Suomen Akatemia ja Tekes. Salakosken ja Ginterin rinnalla ryhmään kuuluvat tohtorikoulutettavat Kai Hakala, Suwisa Kaewphan sekä Farrokh Mehryary sekä softan kirjoittajana Jari Björne. Alkuvaiheessa järjestelmää oli luomassa myös Ghentin yliopistossa työskennellyt Sofie Van Landeghem.
>> Evexdb.org
Erja Hyytiäinen