Miksi ja miten internetin syövereissä mielipiteen ja uutisen raja hämärtyy ja keskustelut polarisoituvat? Olisiko mahdollista automaattisesti erottaa neutraaliuteen pyrkivät uutiset teksteistä, jotka levittävät valheellista tietoa tai perustuvat kirjoittajansa omiin näkemyksiin? Entä voiko tietokoneohjelma oppia prosessoimaan murteita tai puhekieltä?
Digitaalinen kielentutkimus tarkastelee, miten käytämme kieltä ja sitä kautta toimimme digitaalisessa maailmassa. Lisäksi se kehittää menetelmiä, joilla digitaalisessa muodossa olevaa kieltä voi automaattisesti prosessoida. Kielenkäytön ja koko yhteiskunnan digitalisaatio on tuonut paljon mahdollisuuksia, mutta myös ilmiöitä, joita emme vielä ymmärrä.
Professoriluento tekstiversiona
Digitaalisuus on muuttanut tapojamme elää ja sitä, miten käytämme kieltä. Esimerkiksi yhteydenpitomme ympäröivän maailman kanssa on muuttunut täysin. Digitaalisen viestinnän eri muodot sähköpostista sosiaaliseen mediaan ovat vallanneet alan perinteiseltä kirjepostilta, puhelimelta ja faksilta – tai jättääkö joku vielä viestilappuja keittiön pöydälle?
Myös tiedonvälitys on mullistunut. Digitaaliset uutismediat tuovat uusimmat tapahtumat lukijoidensa tietoon lähes reaaliaikaisesti. Aamun lehti on toki yhä mielenkiintoinen ja mukava selailla kahvin kanssa, mutta monet uutisista voi itse asiassa lukea lehden digiversiosta jo edellisenä päivänä.
Digitaalisuus onkin muuttanut tavan, jolla etsimme ja löydämme tietoa. Paitsi paperiset sanomalehdet, myös esimerkiksi kielen sanakirjat ja tietosanakirjat ovat saaneet väistyä sähköisen tiedon tieltä. En ainakaan itse enää käytä esimerkiksi paperista suomi-englanti-sanakirjaa, vaan etsin tietoa sanojen käytöstä verkon ensyklopedioista tai jopa keskustelupalstoilta.
Monet digitaalisuuden tuomat muutokset ovat olleet positiivisia. Esimerkiksi digitaalinen viestintä on helppoa ja nopeaa, ja myös tiedonlähteenä internetillä on monia etuja: se on käyttäjälleen ellei ilmainen niin halpa, helposti saavutettavissa, kooltaan valtava ja sisältää tietoa monilla eri kielillä.
Samalla nämä muutokset ja kielenkäytön – tai koko yhteiskunnan – digitalisaatio ovat kuitenkin tuoneet mukanaan paljon uutta ja asioita, joita emme vielä tunne tai kokonaan ymmärrä.
Siksi tarvitaan digitaalista kielentutkimusta. Digitaalinen kielentutkimus tarkastelee, miten käytämme kieltä ja sitä kautta toimimme digitaalisessa ja digitaalistuneessa maailmassa. Lisäksi se kehittää menetelmiä ja tietokoneohjelmia, joilla digitaalisessa muodossa olevaa kieltä voi automaattisesti prosessoida.
Internetin ansiosta digitaalisessa muodossa olevan kielen määrä ja merkitys onkin räjähtänyt – kielimuotoista dataa on olemassa enemmän kuin koskaan.
Esimerkiksi lähes kaikki, mitä teemme internetissä perustuu digitaalisessa muodossa olevaan kieleen: katsomme Youtubea, luemme uutisia, selaamme verkkokauppaa ja ehkä luemme tuotearvioita tai etsimme muuta tietoa. Ehkä päivitämme sosiaalista mediaa uudestaan ja uudestaan.
Tässä kaikessa tarvitaan kieltä: luemme tai kirjoitamme, tai ainakin kuuntelemme. Kaikesta tästä muodostuu dataa, jota voidaan käyttää hyödyksi, kun yritämme ymmärtää, miten ihmiset toimivat digitaalisessa maailmassa, ja miten digitaalisuus toimintaamme muokkaa.
Datan hyödyntämiseen tarvitaan kuitenkin uusia menetelmiä, joiden avulla suuria määriä kielidataa pystytään paremmin prosessoimaan ja ymmärtämään.
Ymmärtämään, mitä tietoa välitetään, mitkä aiheet herättävät keskustelua, mutta myös miten ja miksi? Esimerkiksi miksi tiettyjä aiheita käsittelevät nettikeskustelut polarisoituvat usein omien mielipiteiden huuteluksi ilman vastapuolen kuuntelua? Miten uutiset kiertävät sosiaalisessa mediassa, miten ne elävät, ja miten niiden kiertokulku vaikuttaa käsitykseemme yhteiskunnasta?
Miten joillain verkkosivustoilla uutiset ja mielipiteet sekoittuvat toisiinsa, ja vaativat lukijoilta aivan uudentasoista medialukutaitoa? Olisiko mahdollista automaattisesti erottaa neutraaliuteen pyrkivät todelliset uutiset teksteistä, jotka levittävät valheellista tietoa tai perustuvat kirjoittajansa omiin näkemyksiin? Tai minkälaisia muotoja vihapuhe ja trollaus saavat, ja miten niitä voisi parhaiten automaattisesti tunnistaa?
Entistä tehokkaammat kieliteknologiamenetelmät pystyvät auttamaan meitä näiden kysymysten ratkomisessa, ja myös näiden menetelmien kehittäminen kuuluu digitaalisen kielentutkimuksen alaan. Paitsi kielidatan tulkinnassa, nämä menetelmät myös auttavat meitä toimimaan paremmin tai ainakin helpommin digitaalisessa maailmassa. Esimerkiksi tiedonhaku kehittyy yhä paremmaksi, kun koneoppimispohjaiset ohjelmat ymmärtävät paremmin kieltä ja sen vivahteita. Chatbotit mahdollistavat yllättävänkin luonnollisen vuorovaikutuksen tietokoneen kanssa, eikä konekäännöskään ole enää pelkän vitsailun aihe.
Merkittävää on, että nämä menetelmät toimivat myös suomeksi. Digitaalistuneessakaan yhteiskunnassa ei ole pakko elää englanniksi. Tämä on tärkeää, jotta voimme toimia maailmassa tasavertaisesti. Tässä suomalaisen tutkimuksen merkitys korostuu. Kansainväliset tutkimusryhmät tai laajalle levinneet megafirmat eivät keskity suomen kaltaisiin pieniin kieliin. Jos haluamme hyviä digitaalisia menetelmiä suomelle, ne pitää tehdä itse.
Omassa tutkimusryhmässämme olemmekin kehittäneet monia kieliteknologian perusmenetelmiä, kuten nimientunnistusta ja syntaksijäsennystä, suomen kielelle. Syntaksijäsennyksessä teksti pilkotaan virkkeiksi ja sanoiksi, ja sanoille määritetään niiden perusmuodot ja kieliopilliset tehtävät. Onko kuin-sanan perusmuoto taivaalla möllöttävä kuu vai jotain muuta? Mistä sanoista suomen yhdyssana aamupalaveri koostuu? Onko siinä aamu-pala-veri, vai aamupala-veri, vai kenties aamu-palaveri?
Näitä perusmenetelmiä tarvitaan aineiston esiprosessointiin, jotta monimutkaisempien ohjelmien kehittäminen on mahdollista. Monet kieltä ymmärtävät ja prosessoivat menetelmät ovat jo varsin hyviä yleiskielen käsittelyssä. Haasteet nousevat nextille levelille, kun mukaan otetaan tästä yleiskielestä poikkeavaa kieltä.
Tosielämässä, henkilöstä riippuen, muu kuin yleiskieli saattaa itse asiassa muodostaa suuren osan päivittäisestä kielenkäytöstämme, ja vain pieni osa kielestä, jota arjessa kuulemme, puhumme, luemme tai kirjoitamme, seuraa tunnollisesti yleiskielen sääntöjä tai normeja. Sen sijaan on luonnollista, ja erittäin mielenkiintoista ainakin tutkijan kannalta, että käytämme kieltä eri tavoin eri tilanteissa.
Myös kieltä prosessoivien tietokoneohjelmien tulisi parhaimmillaan pystyä ymmärtämään kaikkea kieltä riippumatta siitä, onko teksti kirjoitettu esimerkiksi Turun murteella, puhekielellä tai vaikka nopeasti vasemmalla kädellä, tai onko puhujana kimeä-ääninen pikkulapsi tai möreästi puhuva vaari.
Tässä digitaalisen kielentutkimuksen kaksi osa-aluetta kohtaavat: yhtäältä osittain laadullinen kielellisen vaihtelun tarkastelu ja ymmärtäminen, ja toisaalta tekninen menetelmäkehitys, jonka päämääränä on yhä paremmin ja tehokkaammin kieltä ymmärtävät työkalut. Molemmat osa-alueet ovat tässä olennaisia, ja onnistunut lopputulos vaatii osaamista molemmilta alueilta.
Erityisen haastavaa tällä hetkellä on kielellisen vaihtelun koko skaalan ymmärtäminen. Millä kaikilla tavoilla käytämme kieltä? Internet tarjoaa tämän tutkimiseen paljon mahdollisuuksia, mutta vaihtelun skaala on aika huikea. Miten kaikkea sitä edes voi mallintaa? Ja mitä kaikkea tästä vaihtelusta pitää ottaa huomioon, jotta kieltä käsittelevät tietokoneohjelmat toimisivat parhaalla mahdollisella tavalla?
Ja toisaalta: mitä tämä kaikki kielellinen vaihtelu - kaikki eri kielenkäyttötavat Turun murteella käydystä nettikeskustelusta virkamiehen kirjoittamaan muistioon lainsäädännöstä – mitä ne kertovat siitä, mitä teemme ja miten toimimme digitaalisessa maailmassa?
Olemme jo oppineet, että kielenkäyttö internetissä on hankalammin luokiteltavaa kuin aiemmin yleisesti käytössä olevissa aineistoissa. Välillä tekstien jaottelu diskreetteihin, selvärajaisiin luokkiin on yhtä mielekästä kuin pyöreiden palikoiden survominen neliönmalliseen muottiin. Tästä huolimatta olemme silti onnistuneet mallintamaan koko internetistä löytyvän kielenkäytön skaala. Tiedämme, minkälaisia luokkia ja muotteja tarvitsemme.
Silti kysymyksiä on toistaiseksi enemmän kuin vastauksia. Mutta vastauksia etsimällä, ja toivottavasti löytämällä, ymmärrämme paremmin maailmaa, jossa elämme, ja esimerkiksi sitä, miten internetin syövereissä mielipiteen ja uutisen raja hämärtyy ja keskustelut polarisoituvat.
Ymmärtämällä pystymme vastaamaan digitaalisuuden mukanaan tuomiin haasteisiin. Teknisiä menetelmiä kehittämällä taas voimme taata jokaisella yksilölle paremmat mahdollisuudet toimia digitaalistuneessa maailmassa – hakea tietoa, hoitaa asioita, keskustella päivänpolttavista. Riippumatta siitä, tapahtuuko kaikki tämä Turun murteella vai jollain muulla.
Keskeisimmät tutkimusaiheet ja asiantuntijuusalueet
- korpuslingvistiikka
- kielenkäyttö ja sen vaihtelu
- kieliteknologia
- web-as-corpus
Digitaalinen kielentutkimus tarkastelee, miten käytämme kieltä ja sitä kautta toimimme digitaalisessa maailmassa. Lisäksi se kehittää ja soveltaa tietokoneohjelmia, joilla digitaalisessa muodossa olevaa kieltä voi automaattisesti prosessoida. Omassa tutkimuksessani olen keskittynyt erityisesti kielenkäytön vaihtelun tutkimukseen internetistä koneellisesti koottujen big data -aineistojen ja koneoppimismenetelmien avulla. Miten kielenkäyttöä voi mallintaa, jos kohteena on koko internet? Miten tunnistaa automaattisesti ja erotella erilaisia kielenkäyttötilanteita, kuten neutraaliuteen pyrkiviä uutisia ja tekstejä, jotka levittävät valheellista tietoa tai perustuvat kirjoittajan mielipiteisiin?
Tutkinnot ja dosentuurit
- soveltavan kieliteknologian dosentti, Turun yliopisto 2017
- filosofian tohtori, Turun yliopisto 2011