Massiivisten molekyylibiologisten tietomäärien prosessointiin kehitettiin uusia menetelmiä (Väitös: FM Johannes Tuikkala, 20.11.2014, tietojenkäsittelytiede)
14.11.2014
Molekyylibiologisen datan määrän viime vuosikymmeninä tapahtunut räjähdysmäinen kasvu on tehnyt biologian tutkimuksesta yhä datakeskeisempää. Molekyylibiologisen tiedon käsittelyssä tarvitaan tästä johtuen yhä hienostuneempia, ja laskennallisesti tehokkaampia, tilastollisia, matemaattisia ja algoritmisia menetelmiä. Filosofian maisteri Johannes Tuikkala kehitti väitöstyössään menetelmiä, jotka helpottavat suurten molekyylibiologisten havaintoaineistojen prosessointia ja visualisointia.
Turun yliopiston tiedote 14.11.2014
Molekyylibiologisen tutkimuksen haasteina on ollut esimerkiksi luotettavan tiedon saanti biologisista mittalaitteista, tietomassojen varastointi, kiinnostavan biologisen tiedon louhiminen tietomassoista sekä tiedon visualisointi.
- Tutkimukseni tavoitteena on ollut kehittää tietojenkäsittelyn menetelmiä erityisesti DNA-mikrosirutukimuksiin, Tuikkala kertoo.
Massiiviset tietomäärät, kuten geeniexpressiodata, sisältävät usein puuttuvia arvoja, joiden korvaamiseen Tuikkala kehitti ulkoista apriori-tietoa hyödyntävän menetelmän. Lisäksi Tuikkala tutki puuttuvien arvojen korvaamisen vaikutuksia tiedon jatkokäsittelymenetelmiin. Väitöstyössä on myös kehitetty menetelmiä massiivisten tietomäärien havainnollistamiseen eli visualisointiin.
Uusi menetelmä korvaa puuttuvia tietoja aiemmin kerätyn datan ohjaamana
Tuikkalan tutkimuksessa tietomassoja tuottava mittalaite on DNA-mikrosiru. Tutkimuksen tulokset ovat osin sovellettavissa myös muiden mittalaitteiden tuottamaan dataan.
- Kehitimme uudenlaisen menetelmän, jolla voidaan korvata, eli imputoida, geeniexpressiodatasta puuttuvia havaintoarvoja hyödyntämällä aiemmin kerättyä kuratoitua biologista tietoa. Puuttuvien arvojen imputointi on tilastollinen menetelmä, jolla voidaan tuottaa alkuperäisestä epätäydellisestä datamatriisista täydellinen, Tuikkala tarkentaa.
Tutkimuksessa selvitettiin lisäksi imputaation vaikutusta jatkoanalysointimenetelmien, kuten ryvästämisen eli klusteroinnin tuloksiin.
- Tutkimuksen tulokset vahvistivat oletusta siitä, että puuttuvien arvojen estimointi parantaa geeniexpressiodatan laatua klusteroinnin onnistumisella mitattuna.
Data-analyysiin liittyen, Tuikkala tutki biologisten vuorovaikutusverkkojen visualisointialgoritmeja. Biologiset vuorovaikutusverkot ovat tyypillisesti lopputuloksia lukuisista biologisista koesarjoista. Nämä verkot ovat usein varsin isoja ja tiheitä. Tämän takia tarvitaan nopeita algoritmeja esteettisesti ja biologisesti hyvän visualisoinnin tuottamiseen. Tutkimuksessa kehitettiin laskennallisesti tehokas tapa piirtää tällainen visualisointi.
**
Torstaina 20. marraskuuta 2014 kello 12 esitetään Turun yliopistossa (Mikro, auditorio, Kiinamyllynkatu 13, Turku) julkisesti tarkastettavaksi FM Johannes Tuikkalan väitöskirja ”Algorithmic Techniques in Gene Expression Processing: From Imputation to Visualization” (Algoritmiset tekniikat geeniekspressiodatan käsittelyssä: imputaatiosta visualisointiin). Virallisena vastaväittäjänä toimii professori Pasi Fränti Itä-Suomen yliopistosta ja kustoksena professori Tapio Salakoski Turun yliopistosta.
FM Johannes Tuikkala on syntynyt 1978 Turussa ja kirjoittanut ylioppilaaksi 1997 Paraisten lukiosta. Filosofian maisteriksi Tuikkala valmistui 2004 Turun yliopistosta. Hän toimii parhaillaan asiantuntijana Vaadin Oy:ssä. Väitös kuuluu tietojenkäsittelytieteen alaan.