Algoritmi ennakoi tiukkaa kamppailua vaalien ykköspaikasta

17.03.2023

Tietojärjestelmätieteen tutkijat ovat keränneet aineistoa ehdokkaiden Facebook- ja Twitter-seuraajamääristä jo kolmien eduskuntavaalien ajan. Aineiston pohjalta tehty ennuste ennakoi tiukkaa kamppailua ykköspaikasta kokoomuksen, perussuomalaisten ja sosiaalidemokraattien välillä.

Tietojärjestelmätieteen väitöskirjatutkija Tapio Vepsäläinen tutkii sosiaalisessa mediassa kerättyjen seuraajamäärien yhteyttä vaalimenestykseen. Tutkimusta varten on kerätty aineisto vuosien 2015, 2019 ja 2023 eduskuntavaalien ehdokkaista. Tämän vuoden eduskuntavaalien alla Facebookista löytyi 1146 ehdokkaan julkisilta kampanjasivuilta n. 2 miljoonaa tykkäystä, ja Twitteristä 1024 ehdokkaan sivuilta n. 5 miljoonaa seuraajaa.

- Ennusteessa hyödynnettiin lisäksi muuta julkisesti saatavilla olevaa aineistoa, kuten ehdokkaiden historiallisia äänimääriä eri vaaleissa, ehdokkaiden taustatietoja, sekä poliittisia meriittejä. Aineiston perusteella on laadittu ehdokaskohtainen ennuste, Vepsäläinen kertoo.

Ennusteen perusteella kokoomus, SDP ja perussuomalaiset muodostavat kolmen kärjen. Eniten ääniä keräisi kokoomus 19,2% kannatuksella. Kokoomukselle irtoaa 41 paikkaa, perussuomalaisille 40, ja SDP:lle 39. Neljännelle sijalle päätyy keskusta, joka menettää edellisiin vaaleihin nähden 4 paikkaa. Myös vihreät menettävät 2 paikkaa. Vasemmistoliitto saa yhden paikan lisää, kuten myös Liike Nyt ja RKP.  Ainoastaan kristillisdemokraattien paikkamäärä pysyy samana.

Puolue Paikat Kannatusprosentti
KOK 41 19,20%
PS 40 17,19%
SDP 39 17,22%
KESK 27 11,60%
VIHR 18 10,71%
VAS 17 8,51%
RKP 10 4,89%
KD 5 3,58%
LIIK 2 2,62%
FÅ (Ahvenanmaan vaalipiiri) 1 0,37%
Muut 0 4,11%

Tulokset ovat melko lähellä Ylen viimeisimpiä kannatusmittauksia ja mahtuvat annettuun virhemarginaaliin. Ennusteen perusteella ei ole siis odotettavissa suurempia yllätyksiä.

Merkittävä ero aikaisempiin ennusteisiin

Aikaisemmat ennusteet (2015, 2019) ovat pohjautuneet pelkästään Facebookissa kerättyihin seuraajamääriin. Uusin malli hyödyntää Twitteristä kerättyjen tietoja, sekä lisäksi muita taustatietoja. Ennusteessa korkean painoarvon on saanut etenkin aikaisempi vaalimenestys.

- Ehkä voisi sanoa, että malli ennustaa ehdokaslistojen laatua. Kuinka kokeneita ja menestyneitä ehdokkaita puolueilla on listoilla? Asetelma ei ota kovin tarkasti kantaa nykyiseen mielipideilmapiiriin, vaan antaa isomman painoarvon historialliselle menestykselle, sanoo Vepsäläinen.

Ehdokkaiden sosiaalisen median käyttö on muuttunut selvästi aikaisempiin vaaleihin verrattuna. Perussuomalaiset ovat olleet aikaisemmissa ennusteissa selkeästi aliedustettuina, mutta asettuisivat nyt 2. sijalle pelkästään sosiaalisen mediaan pohjautuvassa arviossa. Kokoomus on yhä vahvin sosiaalisessa mediassa tykkäys- ja seuraajamäärien perusteella, mutta perussuomalaiset ja sosiaalidemokraatit ovat kiilanneet vihreiden ohi.

Malli pohjautuu verkossa julkisesti saatavilla olevaan aineistoon

Ennustavia muuttujia ovat ehdokkaiden seuraajamäärät Facebookissa ja Twitterissä, ehdokkaiden ja puolueiden aikaisempi vaalimenestys, muut ehdokkaiden julkisesti saatavilla olevat taustatiedot, sekä heidän arvioitu poliittinen kokemuksensa. Malli on toteutettu avoimeen lähdekoodiin pohjautuvalla XGBoost (eXtreme Gradient Boosting) -koneoppimisalgoritmilla. Malli ennustaa kunkin ehdokkaan tietoihin perustuen ehdokaskohtaisen äänimäärän.

Nykyisen mallin kehittämisen mahdollisti aikaisemmissa vaaleissa kerätty aineisto. Koneoppimismalli on opetettu eduskuntavaaleista 2015 ja 2019 kerätyllä uniikilla aineistolla. Hyödynnetty algoritmi ei ole uusi, mutta sen hyödyntäminen vaalien kontekstissa on ollut aikaisemmin haastavaa riittävän datan puuttuessa.

Facebookin suosio näyttää hieman hiipuneen ehdokkaiden keskuudessa. Puhetta käyttäjien siirtymisestä muille alustoille on ollut pitkään. Twitterin omistajapohjan muutokset ovat myös omalta osaltaan johtaneet spekulaatioon alustan tulevaisuudesta. Tulevaisuudessa olisi kenties viisainta etsiä se kanava, jossa ehdokkaalla on eniten seuraajia ja hyödyntää sitä mittarina. Myös uudet innovaatiot tekoälyn saralla saattavat helpottaa aineiston keräämistä tulevaisuudessa.

Luotu 17.03.2023 | Muokattu 17.03.2023