Kieliteknologialla avataan ikiaikaisia mysteereitä
Uudessa Suomen Akatemian rahoittamassa Esimodernien auktoreiden tekijäntunnistus -hankkeessa historioitsijat ja kieliteknologian tutkijat syventyvät antiikin ja keskiajan teksteihin ja pyrkivät yhdessä ratkaisemaan kysymyksiä, joihin on etsitty vastauksia keskiajalta asti.
Kuvassa näyte yhden osahankkeen latinankielisestä aineistosta "Moneta Cremonensis, Adversus Catharos et Valdenses" 1240-luvulta. Kokoelma: Oberösterreichische Landesbibliothek.
Viime syksynä Turun yliopiston asema digitaalisten ihmistieteiden keskittymänä vahvistui, kun yliopistossa käynnistyi kolme uutta Suomen Akatemian rahoittamaa digitaaliset ihmistieteet -ohjelman hanketta.
Esimodernien auktoreiden tekijäntunnistus on yksi kolmesta käynnistyneestä hankkeesta. Hankkeessa tutkitaan antiikin ja keskiajan kirjoittajia ja tekstejä, muun muassa roomalaisia gramaatikoita, inkvisiittoreiden kirjoituksia sekä paavin kuurian eli roomalais-katolisen kirkon keskushallinnon kirjeitä.
Kulttuurihistorian,lingvistiikan ja kieliteknologian tutkijat pyrkivät yhdessä ratkaisemaan kysymyksiä, jotka ovat askarruttaneet tekstientuntijoita keskiajalta asti.
– Pyrimme tunnistamaan tekstien kirjoittajia sekä selvittämään erilaisten ajatusvirtausten ja vaikutteiden siirtymistä. Esimerkiksi paavillisia kirjeitä luettiin keskiajalla ääneen suurille yleisöille ja niissä oli tietty rytmi, mikä loi aivan uudenlaisen tyylin. Selvitämme miten tämä tyyli levisi eri puolille Eurooppaa ja miten tyyli vaikutti myöhempiin teksteihin, kertoo hanketta johtava kulttuurihistorian professori Marjo Kaartinen.
Jokaiselle kielelle kehitettävä oma tutkimusmenetelmä
Suurin osa Euroopassa säilyneistä antiikin ja keskiajan teksteistä on digitoitu ja helposti tutkijoiden saatavilla. Sen sijaan tutkimusmenetelmiä, joita historioitsijat voivat hyödyntää suurten digitaalisten aineistomassojen analysointiin, ollaan vasta kehittämässä. Esimerkiksi historiallisten tekstien tekijäntunnistus on varsin uusi alue historiantutkimuksessa, kansainvälisestikin.
Hankkeessa tutkittavat aineistot ovat latinankielisiä ja osa aineistoista on valtavia. Paavin kuurian kirjeitä on tutkijoiden käytössä yli 10 000. Hankkeen keskeinen tehtävä on kehittää uudenlaisia koneoppimiseen pohjautuvia metodeja, jotka luovutetaan myöhemmin kaikkien avoimesti hyödynnettäväksi.
– Aineiston analysoiminen on erityisen haastavaa, koska historiallisen latinankielisen tekstin käsittelyyn ei ole tarjolla valmiita työkaluja, toisin kuin nykykielille. Tämä haaste on samalla myös tilaisuus arvioida ja parantaa olemassa olevien menetelmien soveltuvuutta uusille kielille, jotta modernin kieliteknologian mahdollisuuksia voitaisiin tuoda mahdollisimman monien ulottuville, kertoo hankkeen kieliteknologian tutkimusta johtava kieliteknologian tutkija Sampo Pyysalo.
Hanke on vasta alussa, mutta tutkijoiden katse yltää jo jatkotutkimuksen aiheisiin.
– Jokainen kieli tarvitsee omat menetelmänsä, nyt lähdetään liikkeelle latinasta. Jatkossa meitä kiinnostavat myös kansankieliset aineistot, joita lähdemme varmasti tarkastelemaan tämän hankkeen jälkeen, kertoo Kaartinen.
Uudet maailmat avautuvat
Turun yliopiston menestyminen digitaalisten ihmistieteiden haussa vahvistaa ja syventää tieteidenvälistä yhteistyötä historiantutkimuksen ja informaatiotieteiden välillä.
– Historiantutkijoilla on syvä ymmärrys aineistosta ja siihen liittyvistä kysymyksistä, ja kieliteknologian ryhmällä puolestaan aineiston laajamittaiseen automaattiseen käsittelyyn liittyvä osaaminen. Tämä on erinomainen tilaisuus laajentaa soveltavan koneoppimispohjaisen kieliteknologian tutkimusta ihmistieteiden alalle, Pyysalo toteaa.
Omin silmin tutkija pystyy lukemaan tekstiä vain rajallisen määrän. Kun aineistoa analysoidaan tietokoneavusteisesti, pystytään aineiston kokoa kasvattamaan lähes rajattomasti. Kaartisen mukaan historiallisten aineistojen digitointi ja uudenlaiset sovellettavat menetelmät avaavat tutkijoille kokonaan uusia maailmoja.
– Kun uusin menetelmin voidaan käydä läpi isoja tekstimassoja, voimme varmasti löytää sellaisia asioita, joita emme vielä osaa ajatellakaan. Digitaaliset hankkeet eivät tietenkään poista perinteistä historiantutkimusta, mutta voivat tuoda siihen jotain lisää, mahdollistaa uusia aineistoja ja uudenlaisia kysymyksiä, Kaartinen pohtii, ja jatkaa:
– Tämä on kuin salapoliisityötä. Soveltamalla kieliteknologian menetelmiä historiantutkimukseen pääsemme avaamaan satoja vuosia askarruttaneita mysteereitä, joita ei muilla konsteilla pystyttäisi avaamaan.
Teksti: Liisa Reunanen