Koko suomenkielinen internet luupin alle
21.08.2013
Informaatioteknologian ja kielitieteen yhteisessä projektissa analysoidaan kaikki suomenkieliset verkkoaineistot.
Hankkeessa syntyvä tekstikokoelma palvelee Veronika Laippalan ja Filip Ginterin mukaan kaikkia internetin käyttäjiä. Analysoidun aineiston pohjalta olisi mahdollista luoda esimerkiksi hakukone, joka yhdistää tietyn sanan taivutetut muodot sen perusmuotoon, jolloin osumia tulee enemmän
Kielitieteilijöille internetsivustot ovat herkullinen aineisto, sillä verkko on täynnä erilaisia aiheita ja erityyppisiä tekstejä aina tweeteistä lakiteksteihin. Myös kielen muutokset näkyvät internetissä nopeammin kuin painetuissa aineistoissa. Pian koko suomenkielinen internet on tutkijoiden ulottuvilla analysoituna aineistona.
Hanke on kieli- ja käännöstieteiden laitoksen tutkijatohtori Veronika Laippalan ja IT-laitoksen erikoistutkija Filip Ginterin yhteinen.
Projektissa jokainen suomenkielinen keskustelupalsta, blogi ja muu verkkoteksti analysoidaan ohjelmalla, joka pilkkoo lauseiden rakenteet osiin. Ohjelma kertoo, mihin sanaluokkaan sanat kuuluvat ja miten ne ovat suhteessa toisiinsa.
– Aluksi mietimme, että mukaan tulisi ottaa ainakin sanomalehdet ja keskustelupalstat, mutta lopulta emme pystyneet jättämään mitään sivustoja projektin ulkopuolelle. Niinpä otimme mukaan kaiken, Ginter kertoo.
Vaikka internet on pullollaan turhanpäiväsiltä vaikuttavia sivustoja, tutkijat painottavat, että tutkimusaineistoina ne kaikki ovat päteviä.
– Esimerkiksi juoppojen kieltä on tutkittu ja se on yhtä validi aihe kuin mikä tahansa kieli. Keskustelupalstoja on kielitieteissä tutkittu paljonkin. Ei ole kyse huonommasta, vaan erilaisesta kieliaineistosta, Laippala painottaa.
Materiaalia 20 miljoonaa sivua
Projektin tavoitteena on luoda käyttäjäystävällinen verkkosivusto, josta tutkijat voivat hakea aineistoa esimerkiksi aiheiden, sanojen ja rakenteiden mukaan. Sivuston käyttöliittymä palvelee kielitieteilijöiden lisäksi kaikkia verkkoteksteistä kiinnostuneita tutkijoita, vaikkapa historioitsijoita tai folkloristeja.
– Tavallisesti kielitieteilijät joutuvat lukemaan läpi useita teoksia löytääkseen esimerkkejä tutkimistaan rakenteista tai he tyytyvät valmiiseen rajattuun aineistoon. Kokoelmassa monipuoliset aineistot ovat valmiina, eikä tutkija joudu käyttämään vuotta aineiston keräämiseen, Laippala sanoo.
Materiaalia on yhteensä lähes 20 miljoonaa verkkosivua ja se kattaa kaikki vuonna 2012 internetissä olleet suomenkieliset sivut. Ginter arvioi, että tietokoneilla kestää noin 100 000 tuntia ajaa tekstit analyysiohjelman läpi. Tutkijat suunnittelevat, että aineiston voisi uusia muutaman vuoden välein.
Projektia tukee Koneen Säätiö, joka myönsi hankkeelle Digitalisoituvat kieliaineistot ja tiedonlouhinta -haun suurimman apurahan. Analysoitu aineisto tulee verkkoon avoimeen jakoon ja tutkimustarkoituksiin sitä voi hyödyntää vapaasti.
Teksti: Jenni Valta
Kuva: Hanna Oksanen
Hanke on kieli- ja käännöstieteiden laitoksen tutkijatohtori Veronika Laippalan ja IT-laitoksen erikoistutkija Filip Ginterin yhteinen.
Projektissa jokainen suomenkielinen keskustelupalsta, blogi ja muu verkkoteksti analysoidaan ohjelmalla, joka pilkkoo lauseiden rakenteet osiin. Ohjelma kertoo, mihin sanaluokkaan sanat kuuluvat ja miten ne ovat suhteessa toisiinsa.
– Aluksi mietimme, että mukaan tulisi ottaa ainakin sanomalehdet ja keskustelupalstat, mutta lopulta emme pystyneet jättämään mitään sivustoja projektin ulkopuolelle. Niinpä otimme mukaan kaiken, Ginter kertoo.
Vaikka internet on pullollaan turhanpäiväsiltä vaikuttavia sivustoja, tutkijat painottavat, että tutkimusaineistoina ne kaikki ovat päteviä.
– Esimerkiksi juoppojen kieltä on tutkittu ja se on yhtä validi aihe kuin mikä tahansa kieli. Keskustelupalstoja on kielitieteissä tutkittu paljonkin. Ei ole kyse huonommasta, vaan erilaisesta kieliaineistosta, Laippala painottaa.
Materiaalia 20 miljoonaa sivua
Projektin tavoitteena on luoda käyttäjäystävällinen verkkosivusto, josta tutkijat voivat hakea aineistoa esimerkiksi aiheiden, sanojen ja rakenteiden mukaan. Sivuston käyttöliittymä palvelee kielitieteilijöiden lisäksi kaikkia verkkoteksteistä kiinnostuneita tutkijoita, vaikkapa historioitsijoita tai folkloristeja.
– Tavallisesti kielitieteilijät joutuvat lukemaan läpi useita teoksia löytääkseen esimerkkejä tutkimistaan rakenteista tai he tyytyvät valmiiseen rajattuun aineistoon. Kokoelmassa monipuoliset aineistot ovat valmiina, eikä tutkija joudu käyttämään vuotta aineiston keräämiseen, Laippala sanoo.
Materiaalia on yhteensä lähes 20 miljoonaa verkkosivua ja se kattaa kaikki vuonna 2012 internetissä olleet suomenkieliset sivut. Ginter arvioi, että tietokoneilla kestää noin 100 000 tuntia ajaa tekstit analyysiohjelman läpi. Tutkijat suunnittelevat, että aineiston voisi uusia muutaman vuoden välein.
Projektia tukee Koneen Säätiö, joka myönsi hankkeelle Digitalisoituvat kieliaineistot ja tiedonlouhinta -haun suurimman apurahan. Analysoitu aineisto tulee verkkoon avoimeen jakoon ja tutkimustarkoituksiin sitä voi hyödyntää vapaasti.
Teksti: Jenni Valta
Kuva: Hanna Oksanen