Suomen kielen aineistot

Suomen kielen aineistot sisältävät puhuttua ja kirjoitettua kieltä eri aikakausilta digitaalisessa muodossa. Aineistot jakautuvat kolmeen pääryhmään: kieliopillisesti annotoidut korpukset, annotoimattomat tekstiaineistot ja ääni- ja videoaineistot. Kieliopillisesti koodatut korpukset on koottu Lauseopin arkistoon ja muut Suomen kielen äänitearkistoon.

Suomen kielen aineistot ovat osa Suomen ja sen sukukielten arkistoa, joka palvelee opiskelijoita ja tutkijoita. Aineistot ovat esillä myös kieli- ja käännöstieteiden laitoksen yhteisessä Digilang-portaalissa.

Lauseopin arkisto (LA)

Lauseopin arkiston piirissä on sekä puhutusta että kirjoitetusta suomesta kehitetty viisi digitaalista morfologisesti ja syntaktisesti analysoitua korpusta (Lauseopin arkiston murrekorpus, Arkisyn-korpus, Mikael Agricolan teosten morfosyntaktinen tietokanta, Edistyneiden suomenoppijoiden korpus ja Akateeminen suomi -korpus). Näitä korpuksia voi käyttää Kielipankin Korp-hakuliittymän kautta.

Kieliopillisesti koodatut korpukset

Lauseopin arkiston murrekorpus (LA)

Litteroiduista murrehaastatteluista koostuva korpus, joka kattaa kaikki Suomen murrealueet.

  • Sisältää 70 190 virkettä, 193 947 lausetta, 1 078 183 sanaa ja käsittää 133 pitäjää.
  • Suomen ensimmäinen morfologisesti ja syntaktisesti koodattu kieliaineisto.
  • Kehitetty yhteistyössä Kotimaisten kielten keskuksen kanssa.
Arkisyn-korpus

Litteroiduista suomenkielisistä arkikeskusteluista koostuva korpus, jonka tarkoituksena on keskustelupuheen kieliopillisen tutkimuksen mahdollistaminen laajan aineiston perusteella ja vertailtavuuden edistäminen suhteessa muiden aineistotyyppien tutkimukseen. Korpuksen perusaineisto koostuu Helsingin yliopiston keskusteluntutkimuksen arkiston ja Turun yliopiston suomen kielen äänitearkiston litteraateista, mutta mukana on myös projektin yhteydessä tuotettuja nauhoituksia.

  • Käsittää tällä hetkellä (24.10.2018) 27 tiedostoa ja sisältää 44 607 puheenvuoroa, 46 795 lausetta, 6 243 nominilauseketta, 18 582 partikkelijonoa, 4 969 fragmentoitunutta puheenosaa ja 278 910 sanaa.
  • Morfologisesti ja syntaktisesti koodattu.
Mikael Agricolan teosten morfosyntaktinen tietokanta

Mikael Agricolan yhdeksän teoksen kaikki suomenkieliset osat käsittävä vanhan kirjasuomen korpus.

  • Sisältää 38 308 virkettä, 83 678 lausetta ja 428 314 sanaa.
  • Morfologisesti ja syntaktisesti koodattu.
  • Kehitetty Mikael Agricolan teosten tieteellinen editio ja morfosyntaktinen tietokanta -hankkeessa yhteistyössä Kotimaisten kielten keskuksen kanssa vuosina 2004–2007.
Edistyneiden suomenoppijoiden korpus (LAS2)

Edistyneiden suomenoppijoiden akateemisissa yhteyksissä tuotetusta kirjallisesta materiaalista (tenttivastauksista, tutkielmista ja esseistä) koottu korpus. Korpuksessa on mukana vertailuaineistona suomenkielisten suomen kielen opiskelijoiden vastaavaa materiaalia.

  • Perustuu 57 ei-suomenkielisen informantin tuotoksiin ja sisältää tällä hetkellä (24.4.2017) 20 791 virkettä (tenttivastaukset 12 332, tutkielmat 4 289, esseet 4 170), 41 628 lausetta (tenttivastaukset 26 203, tutkielmat 7 850, esseet 7 175) ja 271 331 sanaa (tenttivastaukset 163 497, tutkielmat 56 589, esseet 51 245).
  • Suomenkielisiltä saatua vertailumateriaalia tällä hetkellä (26.8.2016): tenttivastaukset 61 209 sanetta, tutkielmat 86 511 sanetta ja esseet 28 806 sanetta.
  • ​Morfologisesti ja syntaktisesti koodattu.
Akateeminen suomi -korpus (LAS1)

Eri tieteenalojen kirjoitettua akateemista suomea käsittävä korpus. Korpuksen avulla voidaan selvittää muun muassa, millaista on tyypillinen akateeminen suomi ja millaisia eroja eri tieteenalojen ja akateemiseen diskurssiin kuuluvien keskenään erilaisten tekstilajien suomessa on. Tarkoituksena on tämän korpuksen rinnalla hyödyntää myös Kielipankkiin koottuja 1990- ja 2000-luvun suomenkielisiä tiedelehtiä.

  • Käsittää tällä hetkellä (25.10.2018) 59 pro gradu -tutkielmaa, joista 25 on valmiiksi koodattuja (yht. 19 918 virkettä, 36 347 lausetta ja 295 850 sanaa).
  • ​Morfologisesti ja syntaktisesti koodattu.
Satakuntalaisuus puheessa -korpus

Korpus edustaa 2000-luvun puhuttua suomea, ja se koostuu äänitteistä, litteraateista sekä morfologisista ja syntaktisista annotaatioista. Aineistoa on kerätty eri-ikäisiltä satakuntalaisilta puhujilta vuosina 2007–2013 ja 2016–2019 Satakuntalaisuus puheessa -hankkeessa.

Hankkeen laaja aineisto koostuu 262-tuntisesta äänitekokoelmasta ja yli 200 tunnin osuuden litteraateista. Tästä aineistosta on valittu Sapu-korpukseen kuudelta paikkakunnalta (kuudesta murteesta) näytteet viidestä ikäryhmästä, joista nuorimmasta ikäryhmästä kahdet näytteet yksien sijasta. Mukana 2000-luvun puhekieltä edustamassa on viisi näytettä Raumalta, Honkilahdelta ja Luvialta (lounaismurteiden puolelta) sekä Porista ja Kokemäeltä (lounaisten välimurteiden puolelta). Kuudentena paikkakuntana (ja varieteettina) on Nakkilasta ja Ulvilasta valikoidut viisi näytettä. Annotoituja Sapu-näytteitä on siis kaikkiaan 35.

Sapu-aineisto on kerätty ennen muuta dialektologista ja variationistista sosiolingvististä tutkimusta varten, mutta sitä on käytetty myös vuorovaikutuslingvistisissä tutkielmissa ja fonetiikan opinnäytteissä.

  • käsittää tällä hetkellä (26.5.2024) 35 tiedostoa
  • kokonaiskesto 1912 minuuttia
  • koko korpus lemmattu sekä morfologisesti ja syntaktisesti koodattu.

Tarkempi kuvaus korpuksen näytteistä

Tietosuojaseloste

Suomen kielen äänitearkisto (TYSKÄ/TÄ)

Turun yliopiston suomen kielen äänitearkiston muodostavat koodaamattomat korpukset ja ääni- ja videotallenteet, jotka on kerätty eri hankkeiden yhteydessä kuuteen eri nauhastoon. Lisäksi on kaksi nimikkonauhastoa (Tuomaalan nauhasto ja Rautionmaan nauhasto), joista toinen on hankittu ja toinen saatu lahjoituksena. Kaikki aineistot ovat digitaalisessa muodossa.

Koodaamattomat korpukset

Koodaamattomiin korpuksiin kuuluvat seuraavat:

  • Satakuntalaisuus puheessa -hankkeen (Sapu) äänitteistä tehdyt 255 litteraattia (yli 200 tuntia)
  • Suomen kielen prosodian alueellista ja sosiaalista variaatiota tutkivan Prosovar-hankkeen aineistot
  • Turun puhekielen hankkeen (Tupu) äänitteistä tehdyt litteraatit.

Ääni- ja videoaineistot

Ääni- ja videoaineistot on järjestetty kahdeksaan eri nauhastoon:

  • Murrehaastattelunauhoitteet (A-nauhasto), 5 897 äänitettä ja yht. 4 480 tuntia.
  • Luentojen, kokousten yms. eri tilaisuuksien nauhoitteet (B-nauhasto), 582 äänitettä ja yht. 265 tuntia.
  • Turun puhekielen hankkeen nauhoitteet (C-nauhasto, Tupu-nauhasto), 333 äänitettä ja yht. 251 tuntia.
  • Keskustelujen nauhoitteet (D-nauhasto), 224 äänitettä ja yht. 150 tuntia.
  • Pohjanmaan murteiden nauhoitteet (Tuomaalan nauhasto), 455 äänitettä ja yht. 180 tuntia.
  • Punkalaitumen murteen nauhoitteet (Rautionmaan nauhasto), 65 äänitettä ja yht. 50 tuntia.
  • Satakuntalaisuus puheessa -hankkeen äänitteet (Sapu-nauhasto), 303 äänitettä ja yht. 231 tuntia.