Suomen kielen aineistot
Suomen kielen aineistot sisältävät puhuttua ja kirjoitettua kieltä eri aikakausilta digitaalisessa muodossa. Aineistot jakautuvat kolmeen pääryhmään: kieliopillisesti annotoidut korpukset, annotoimattomat tekstiaineistot ja ääni- ja videoaineistot. Kieliopillisesti koodatut korpukset on koottu Lauseopin arkistoon ja muut Suomen kielen äänitearkistoon.
Suomen kielen aineistot ovat osa Suomen ja sen sukukielten arkistoa, joka palvelee opiskelijoita ja tutkijoita. Aineistot ovat esillä myös kieli- ja käännöstieteiden laitoksen yhteisessä Digilang-portaalissa.
Lauseopin arkisto (LA)
Lauseopin arkiston piirissä on sekä puhutusta että kirjoitetusta suomesta kehitetty viisi digitaalista morfologisesti ja syntaktisesti analysoitua korpusta (Lauseopin arkiston murrekorpus, Arkisyn-korpus, Mikael Agricolan teosten morfosyntaktinen tietokanta, Edistyneiden suomenoppijoiden korpus ja Akateeminen suomi -korpus). Näitä korpuksia voi käyttää Kielipankin Korp-hakuliittymän kautta.
Kieliopillisesti koodatut korpukset
Suomen kielen äänitearkisto (TYSKÄ/TÄ)
Turun yliopiston suomen kielen äänitearkiston muodostavat koodaamattomat korpukset ja ääni- ja videotallenteet, jotka on kerätty eri hankkeiden yhteydessä kuuteen eri nauhastoon. Lisäksi on kaksi nimikkonauhastoa (Tuomaalan nauhasto ja Rautionmaan nauhasto), joista toinen on hankittu ja toinen saatu lahjoituksena. Kaikki aineistot ovat digitaalisessa muodossa.
Koodaamattomat korpukset
Koodaamattomiin korpuksiin kuuluvat seuraavat:
- Satakuntalaisuus puheessa -hankkeen (Sapu) äänitteistä tehdyt 255 litteraattia (yli 200 tuntia)
- Suomen kielen prosodian alueellista ja sosiaalista variaatiota tutkivan Prosovar-hankkeen aineistot
- Turun puhekielen hankkeen (Tupu) äänitteistä tehdyt litteraatit.
Ääni- ja videoaineistot
Ääni- ja videoaineistot on järjestetty kahdeksaan eri nauhastoon:
- Murrehaastattelunauhoitteet (A-nauhasto), 5 897 äänitettä ja yht. 4 480 tuntia.
- Luentojen, kokousten yms. eri tilaisuuksien nauhoitteet (B-nauhasto), 582 äänitettä ja yht. 265 tuntia.
- Turun puhekielen hankkeen nauhoitteet (C-nauhasto, Tupu-nauhasto), 333 äänitettä ja yht. 251 tuntia.
- Keskustelujen nauhoitteet (D-nauhasto), 224 äänitettä ja yht. 150 tuntia.
- Pohjanmaan murteiden nauhoitteet (Tuomaalan nauhasto), 455 äänitettä ja yht. 180 tuntia.
- Punkalaitumen murteen nauhoitteet (Rautionmaan nauhasto), 65 äänitettä ja yht. 50 tuntia.
- Satakuntalaisuus puheessa -hankkeen äänitteet (Sapu-nauhasto), 303 äänitettä ja yht. 231 tuntia.