Uusi kielimalli Viking julkaistu – ensimmäinen avoin malli pohjoismaisille kielille

15.05.2024

TurkuNLP-tutkimusryhmä kehittää kieltä ymmärtäviä ja tuottavia tekoälyn malleja osana Euroopan unionin rahoittamaa High Performance Language Technologies (HPLT) -projektia yhteistyössä Euroopan suurimman yksityisen tekoälylaboratorio Silo AI:n kanssa. TurkuNLP ja Silo AI ovat nyt julkaisseet uuden monikielisen Viking-mallin, joka on ensimmäinen avoin kielimalli kaikille pohjoismaisille kielille.
 

Suuret kielimallit ovat tekoälymalleja, jotka ovat koulutettu tuottamaan tai ymmärtämään eri kieliä ja joita voidaan hyödyntää erilaisissa sovelluksissa. Kielimallien kehityksessä pienempien kielten mallit ovat jääneet jälkeen vahvemmassa asemassa olevan englanninkielisten mallien kehityksestä. TurkuNLP:n  ja SiloAI:n tavoitteena on kehittää eurooppalaisia kielimalleja ja vahvistaa siten eurooppalaista digitaalista suvereniteettia sekä mahdollistaa suurten monikielisten kielimallien saatavuus kaikille, kielestä riippumatta.

TurkuNLP ja Silo AI ovat aiemmin julkaisseet suomen kieleen keskittyneen Poro-kielimallin, sekä varhaisempia versioita pohjoismaisten kielten Viking-kielimalleista. Nyt on julkaistu Vikingin ensimmäinen valmis versio, Viking 7B. Viking perustuu samaan koulutustapaan kuin Poro, jossa keskitytään vähäresurssisiin kieliin: suomen ja englannin lisäksi Viking kattaa ruotsin, norjan, tanskan, islannin, ja ruotsin kielet sekä monia ohjelmointikieliä. Alustavien arviointien mukaan Viking-perheen mallit ovat luokkansa parhaimpia avoimia malleja pohjoismaisille kielille.

– Toisin kuin useimmat muut kielimallien kehittäjät, me keskitymme työssämme vähäresurssisiin kieliin. Viking osoittaa, että olemme onnistuneet kehittämään korkealaatuisia kielimalleja useammalle pienemmälle kielille, joissa tekoälyn kouluttamiseen on tarjolla vain rajoitetusti korkealaatuista tekstiaineistoa. Viking on meille merkittävä virstanpylväs ja seuraava tavoitteemme on kouluttaa huipputason kielimalleja kaikille EU:n virallisille kielille, toteaa Sampo Pyysalo.

Uusien lähestymistapojen tutkiminen on ollut keskeistä kehitystyössä. Esimerkiksi tekstiaineistojen uudelleenkäyttö koulutuksen aikana sekä kielten välisten käännösparien sisällyttäminen ovat parantaneet mallin ymmärrystä kielten välisistä yhteyksistä.  Tämä on ratkaisevaa, kun halutaan saavuttaa parempi suorituskyky pienemmissä kielissä ilman, että mallin suorituskyky englannin kielessä kärsii.

Silo AI:n ja TurkuNLP:n tavoitteena vahvistaa kielellistä monimuotoisuutta Euroopassa parantamalla kielimallien valmiuksia englannin lisäksi myös pienemmillä kielillä. Tavoitteena tulevaisuudessa on jatkaa kehitystyötä  vähäresurssisten kielten malleille, joiden kielellinen suorituskyky on erinomainen ja jotka ovat samalla myös sopeutuneet paikallisiin arvoihin ja kulttuureihin.
Kielimallien kehitystyö on osa Euroopan unionin rahoittamaa High Performance Language Technologies (HPLT) -projektia.

Luotu 15.05.2024 | Muokattu 15.05.2024