Nykypäivänä tekoäly on isossa roolissa sovelluksien kehittämisessä. Uusimpina esimerkkeinä automaattiset menetelmät lääkemolekyylien, kuvien, ohjelmakoodin tai tekstin luomiseksi. Tekoälyjen suorituskykyä opetetaan paremmaksi niiden toimivuudesta saadun palautteen perusteella.

Palautteen hyödyllisyys on kuitenkin kyseenalainen, jos emme pysty luotettavasti arvioimaan kuinka hyvin ne suorittavat niille annetut tehtävät tai toimivatko ne ylipäätään lainkaan. Suorituskyvyn arviointi onkin keskeisessä asemassa tekoälymenetelmien tutkimuksessa ja kehityksessä. Luotettava arviointi avaa tietä myös suuremman riskin sovelluksille, kuten itseajaville autoille.

Pahikkala pitää professoriluentonsa 26.4. otsikolla "Tekoälymenetelmien suorituskyvyn arviointi niiden tutkimuksen ja kehityksen ytimessä".

Professoriluento tekstiversiona

Tekoälymenetelmien suorituskyvyn arviointi niiden tutkimuksen ja kehityksen ytimessä

Koneoppimiseen perustuvia tekoälyjä kuvataan usein seuraavasti. Ne 
pystyvät suorittamaan monimutkaisia tehtäviä vaikkei niitä ole 
erityisesti ohjemoitu niitä tekemään. Kyseisiä tehtäviä voivat olla 
esimerkiksi ihmisen kanssa sulavasti keskustelemaan kykenevät 
ohjelmistot tai vaikka auton ajaminen ilman ihmiskuljettajaa. Näiden 
sovellusten ohjelmoiminen on ihmisille työlästä mutta oppivilla 
tekoälyillä on saavutettu merkittävää edistystä.

Oppivat tekoälyt parantavat suorituskykyään esimerkkien ja palautteen perusteella. Palaute perustuu arvioon kuinka hyvin tekoälyn senhetkinen toiminta on linjassa tehtävän tavoitteiden kanssa. Arvion voi tuottaa esimerkiksi ihminen, toimintaympäristö, tekoälyyn valmiiksi 
sisäänrakennettu suorituskykymittari tai jopa toinen tekoäly. 
Suorituskyvyn arvionnilla siis ohjataan tekoälyä parantamaan 
suoritustaan kohti tavoiteltua, mitä havainnollistaa sanonta: "Mitä ei 
voi mitata, sitä ei voi myöskään parantaa".

Sanonnalla on myös kääntöpuolensa: "Sitä saa mitä mittaa". Vaikka 
oppivia tekoälyjä ei suoranaisesti ohjelmoida saavuttamaan tehtävien 
tavoitteita, arviointimenetelmä sisältää itsessään jonkinlaisen 
käsityksen kyseisistä tavoitteista. Jos tämä käsitys on liian 
pinnallinen tai se ei ole tarpeeksi hyvin linjassa tavoitteiden kanssa, 
voi tekoälyjä opetettaessa kirjaimellisesti saada sitä mitä mittaa 
muttei välttämättä sitä mitä oikeasti tavoitellaan.

Esimerkiksi roskapostia suodattavan tekoälyn voisi ajatella olevan sitä 
parempi mitä suuremman osan roskaposteista se tuhoaa. Jos suodatuskykyä mitataan pelkästään näin, myös kaikki sähköpostit varmuuden vuoksi tuhoava tekoäly toimisi täydellisesti. Kyseisen mittarin onkin tarpeen sisältää jonkinlainen kompromissi tuhottavien roskapostien ja hyödyllisten sähköpostien säilymisen välillä.

Tekoälyjen oppiminen muistuttaa perinteistä tieteellistä menetelmää, 
jossa tutkittavasta ilmiöstä kerätään havaintoja, ja sen jälkeen 
valitaan havainnot parhaiten selittävä hypoteesi. Perimmäisenä 
tavoitteena on yleistäminen tai ennustuskyky eli valitun hypoteesin kyky selittää myös tulevat havainnot, sellaiset joita ei ole hypoteesin 
valinnassa käytetty. Jos vaihtoehtoisia selityksiä on kuitenkin liikaa, 
voidaan törmätä klassista induktio-ongelmaa havainnollistavaan Goodmanin paradoksiin. Paradoksissa päätellään smaragdien värejä niistä tehtyjen havaintojen perusteella, jotka siis ovat vihreitä. Yhden hypoteesin mukaan kaikki smaragdit ovat vihreitä. Toisen vaihtoehdon mukaan kaikki smaragdit ovat sinisiä paitsi ne, jotka tähän mennessä on nähty. Molemmat vaihtoehdot selittävät täydellisesti kaikki havainnot mutta jälkimmäinen on kuitenkin täysin arkijärjen vastainen. Arvioinnin pitäisi siis havaintojen selityskyvyn lisäksi rajata pois järjettömiä selityksiä.

Esiintyykö tällaista absurdiuteen asti venytettyä paradokseja myös 
tekoälyn käytännön sovelluksissa? Palautetaan mieleen vuonna 2015 
alkanut diesel-autojen päästöhuijausskandaali. Lähtökohtana oli 
autonvalmistajien kykenemättömyys yhdistää tehokas ajaminen alhaisiin päästötasoihin. Valmistajat ratkaisivat ongelman auton ajotietokoneeseen asennetulla ohjelmalla, joka tunnistaa päästöjen mittaustilanteen ja sen havaitessaan alentaa moottorin tehoja alle normaalin, jolloin myös typpioksidipäästöt pienenevät. Normaalissa ajossa tehorajoite kytkeytyy pois päältä, jolloin autojen todelliset päästöt ovat jopa 40 kertaa ilmoitettuja suuremmat. Mittausten mukaan tavoite on täydellisesti saavutettu mutta todellisuus on täysin päinvastainen ja olemme siis kohdanneet Goodmanin paradoksin kaltaisen tilanteen ilmielävänä. Tässä tapauksessa tekoälyjärjestelmän oppivan osan muodostivat ne insinöörit, jotka kyseisen päästömittauksissa huijaavan ajotietokoneen suunnittelivat. Joka tapauksessa ei ole mitään syytä odottaa etteivätkö automaattisesti oppivat tekoälyt päätyisi sopivissa olosuhteissa 
samankaltaiseen ratkaisuun.

Palautteesta oppivat tekoälyt ovatkin erityisen hyviä mukautumaan 
mittareihin, joihin niiden toimintaa ohjaava palaute perustuu, sekä 
hyvässä että pahassa. Ilmiötä voidaan hyvin verrata mittareihin ja 
kannustimiin esimerkiksi taloustieteessä. Hyvää tarkoittavat kannustimet voivat aiheuttaa todellisten tavoitteiden unohtumisen ja korvautumisen vajavaisilla mittareillaan. Niin kutsutut kierot kannustimet voivat jopa aiheuttaa odottamattomia negatiivisia sivuvaikutuksia, joita historia tuntee useitakin. Esimerkiksi siirtomaakauden Intiassa myrkyllisten kobrien tuhoamispalkkiot johtivat kobrien määrän räjähdysmäiseen lisääntymiseen, koska niitä alettiin kasvattaa lisäpalkkioiden toivossa. Vanhan vitsin mukaan mikään ei lisää ohjelmointivirheiden määrää niin paljon kuin ohjelmoijien palkitseminen niiden löytämisestä ja korjaamisesta. Ilmiöstä on kansankielessä useitakin nimityksiä. Puhutaan esimerkiksi Goodhartin laista, jonka mukaan mittari menettää 
merkityksensä, kun siitä tulee tavoite.

Yleistyskykyä arvioivien mittareiden suunnittelua voidaan verrata 
tenttikysymysten suunnitteluun yliopistokurssille. Kysymysten ei tulisi 
toistaa kurssin sisältöä sellaisenaan, sillä muuten niihin vastaamiseen 
riittäisi pelkkä sisällön ulkoa opettelu ilman syvällisempää ymmärrystä 
opeteltavasta aiheesta. Pakkaa voivat toisaalta sekoittaa myös liian 
lyhytnäköiset kannustimet kurssinjärjestäjälle. Jos järjestäjää 
palkittaisiin pelkästään kurssin läpäisseiden määrän perusteella, 
järjestäjällä olisi kannustin tehdä tentistä niin helppo, että kuka 
tahansa läpäisisi sen vaikkei oppisikaan kurssin tavoitteista mitään.

Koska tekoälyn tarkoituksena on nimenomaan yleistää oppimaansa uusiin tilanteisiin, joita se ei vielä ole kohdannut, eräs tärkeimmistä 
arviointimenetelmien suunnitteluperiaatteista on saatavilla olevien 
esimerkkijoukon jakaminen osiin siten, että yksi osa käytetään tekoälyn opettamiseen ja toinen opetukselta piilotettu osa varmistamaan, että oppiminen menee tavoiteltuun suuntaan. Näin vältetään niin kutsuttu "voittajan kirous", jonka mukaan vertailussa parhaiten menestyvä näyttää lähes aina todellista paremmalta. Kun tähän varmistusvaiheeseen liittyvä palaute perustuu uuteen opetusvaiheessa kohtaamattomaan dataan, mittari 
ikään kuin muuttaa muotoaan niin, ettei tekoäly ole päässyt mukautumaan siihen liikaa. Tämä periaate löytyykin sellaisenaan lähes jokaisesta tekoälyn ja koneoppimisen oppikirjasta.

Pelkkä satunnainen jako osiin ei kuitenkaan välttämättä riitä. 
Esimerkiksi tekoäly, jonka tavoitteena oli keuhkokuumeen automaattinen tunnistaminen röntgen-kuvista, oppikin tunnistamaan potilaita, koska samoista potilaista oli useita kuvia ja niitä päätyi molempiin osiin. Tässä tapauksessa kuvat olisikin pitänyt jakaa kahteen osaan niin, että samasta potilaasta otetut kuvat päätyvät vain yhteen osaan.

Mittaria voidaan myös muuttaa jatkuvasti, jos se pohjautuu toisen 
tekoälyn antamaan palautteeseen. Esimerkiksi jos yhden tekoälyn on 
tarkoitus luoda realistisia kuvia ja toinen taas pyrkii erottamaan 
automaattisesti luodut kuvat aidoista, tekoälyt valmentavat toinen 
toisiaan ja joutuvat mukautumaan yhä vaikeampiin mittareihin.

Uusimmat tekoälysovellukset luovat automaattisesti kuvia, ohjelmakoodia tai kirjoittavat tekstiä niille annetun kirjallisen kuvauksen mukaisesti. Näiden opettamisen haasteet ovat samankaltaisia. Esimerkiksi jos tekoälyn tarkoituksena on antaa vastauksia sille annettuihin kysymyksiin, tekoäly voikin oppia antamaan pikemminkin vakuuttavia kuin totuudenmukaisia vastauksia.

Luonnollisella kielellä annettua tehtäväkuvausta käytetään ohjaamaan 
tekoälyn suoritusta kohti tavoiteltua lopputulosta aivan kuten edellä 
mainittuja mittareitakin ja kuvausten suunnittelu voidaankin ajatella 
saman haasteen uusimpana ilmentymänä. Jos tehtävän muotoilu on kovin suurpiirteinen, voidaan silti saada hyvä tulos tekoälyn arvatessa 
käyttäjän haluavan jotain samankaltaista kuin mitä aiemmatkin käyttäjät ovat halunneet. Jos käyttäjä kuitenkin haluaa jotain täysin uutta ja erilaista, tehtävä on vaikeampi ja voidaan tarvita huomattavasti tarkempi kuvaus sen tavoitteista. Vaikeimpien tehtävien ratkaiseminen muistuttaa niitä haasteita, joita suurten ohjelmistoprojektien toteuttaminen on kohdannut. Jotta projektit onnistuisivat, niiden tilaajien on onnistuttava vaatimusten kuvauksissa niin hyvin, että voisivat melkeinpä toteuttaa kyseiset ohjelmistot itsekin.

Tekoälytekniikan kehitys voimakkaammaksi ja taitavammaksi on tehnyt myös arviointihaasteista monimutkaisempia. Tekoälyn ohjaaminen on muuttanut muotoaan alkeellisista teknisistä mittareista luonnollisella kielellä annettuihin yksityiskohtaisiin tehtäväkuvauksiin. Suorituskyvyn 
arviointi käytännöllisissä tehtävissä on keskeisessä asemassa 
tekoälytekniikan tutkimuksessa ja kehityksessä. Miten arvioimisen 
haasteisiin sitten voidaan vastata? Nojaan jälleen vanhaan sanontaan: "Mikään ei ole käytännöllisempää kuin hyvä teoria".

Arviointimenetelmien itsensä tutkimuksella on pitkät perinteet ja vankka teoreettinen tausta, jonka nojalla voidaan päätellä minkälaiset arviointimenetelmät ovat linjassa todellisten tavoitteiden kanssa ja mitkä eivät.
 

Tapio Pahikkala
Tapio Pahikkala aloitti Turun yliopistossa data-analytiikan professorina syyskuussa 2022. Professuurin erityisalana on koneoppiminen.

Keskeisimmät tutkimusaiheet ja asiantuntijuusalueet

  • koneoppiminen
  • tekoäly
  • data-analytiikka
  • tekoälymenetelmien suorituskyvyn arviointi

Pahikkalan tutkimus sisältää koneoppimiseen perustuvien tekoälymenetelmien teoriaa, algoritmiikkaa ja niiden suorituskyvyn arviointia. Myös kyseisten menetelmien sovellukset lukuisiin käytännön tehtäviin yhteistyössä kyseisiä sovelluksia tekevien tutkimusryhmien kanssa ovat hänen tutkimuksellisen kiinnostuksensa kohteitani. Lisätietoja tämänhetkisistä tutkimuksesta on nähtävillä täällä.

Tutkinnot ja dosentuurit

  • tietojenkäsittelytieteen dosentti, Turun yliopisto 2011
  • filosofian tohtori, tietojenkäsittelytiede, Turun yliopisto 2008