Mikhail Saltychev 6

Professoriluento | Mikhail Saltychev

Valitettavan usein jopa vuosikymmeniä käytössä olevaa mittaria on tutkittu vain vähän. Tämä kyseenalaistaa mittarin antamia tuloksia. Joissakin tilanteissa mittarin laaja käyttö jopa jatkuu riippumatta siitä, että sen ominaisuudet on todettu heikoiksi. Epäluotettavan mittarin käyttö saattaa johtaa väärään hoito- tai kuntoutuslinjan valintaan, puutteellisiin suosituksiin ja resurssien väärään kohdentamiseen, toteaa fysiatrian professori Mikhail Saltychev.

 

Katso professoriluento:

Professoriluento tekstiversiona

Miten voimme luottaa kyselytestien tuloksiin?

Potilaan tai hänen omaisen näkökulmaa hoidossa tai kuntoutuksessa huomioidaan kasvavassa määrin sekä fysiatriassa että muillakin erikoisaloilla. Potilaan vastauksiin perustuvien tulosmittareiden, niin sanottujen PROM:ien, määrä on ollut viimeisen kymmenen vuoden aikana jyrkässä kasvussa. Tulosmittareiden validointiprosessi jää usein lyhyeksi ja mittarit otetaan tutkimus- tai kliiniseen käyttöön ilman, että niiden tulosten luotettavuudesta on saatu riittävää tietoa. Monet erikoisalat pystyvät vaihtelevasti käyttämään ”kovia mittareita”. Eli mittareita, jotka tuottavat objektiivisia tuloksia kuten esimerkiksi verenpaine, pulssin tiheys tai rintakehän ympärysmitta. Fysiatria on erikoisala, jonka pääaiheena on toimintakyvyn tason tutkiminen ja sen tason ylläpitäminen tai parantaminen. Toimintakyvyn tai kivun tasoa, elämänlaatua tai asiakastyytyväisyyttä ei voida mitata litroissa tai metreissä. Sen vuoksi joudumme suurilta osin turvaamaan subjektiivisten mittareiden tuloksiin kuten erilaisiin kyselyihin, joihin vastaa joko potilas itse, häntä hoitava ammattilainen tai potilaan omainen.

Sekö vakiintuneen, että uuden mittarin luotettavuutta voidaan tarkastella monesta eri näkökulmasta. Olen vetänyt eri tutkimusryhmissä yli kolmekymmentä julkaisua, jossa käsiteltiin eri mittareiden ominaisuuksia. Meidän tutkimusryhmissä tämä validointiprosessi on vuosien aikana vakiintunut ja sisältää tietyn minimimäärän mittarinominaisuuksia, joita olisi hyvä tutkia ennen kuin mittaria voidaan suositella tutkimus- tai kliiniseen käyttöön. Olemme tutkineet muun muassa sellaisia toimintakyvyn mittareita kuin Oswestry alaselkäkipu indeksi, niskakipuindeksi ja kipujana. Erityisen kattavasti olemme tutkineet Maailman Terveysjärjestön kehittämää WHODAS toimintakykymittaria. Olemme myös kehittäneet muutama uusi toimintakykymittari, muun muassa jäätyneen olkapään ja TOS-oireyhtymän potilaille. Tässä luennossa ei käydä läpi uuden mittarin luomisprosessia. Keskityn jo vakiintuneiden mittareiden validointiin.

Kysymykset, jotka nousevat esiin validointiprosessissa ovat muun muassa:
1) Onko mittari sisäisesti yhtenäinen? Onko siis mittarin eri osa-alueilla paljon yhteistä keskenään?
2) Onko se luotettava eli toistettava?
3) Vastaako se muiden vastaavaa asiaa mitattavien testien tuloksia?
4) Kuinka herkästi mittari tunnistaa henkilöitä, joilla on kyseessä oleva oire tai tila? Eli mikä on mittarin herkkyys?
5) Kuinka usein mittari antaa väärän positiivisen tuloksen – eli mikä on sen spesifisyys?
6) Mittaako mittari yhtä hyvin oireen koko skaalaa? Eli niitä, joiden oireen voimakkuus on hyvin lievä sekä niitä,
joiden oireen voimakkuus on hyvin korkea?
7) Kuvaako mittari vain yhtä asiaa, sitä, mihin se oli alun perin tarkoitettu? Vai mittaako se tämän halutun asian
lisäksi myös muita tulosta sekoittavia asioita?
8) Kuinka tasaisesti mittarin asteikko toimii? Kuinka tasainen on asteikon pistejako?
9) Mikä on mittarin erottelukyky?
10) Mikä on mittarin pienin pistemuutos, jonka vastaaja todellisuudessa kokee merkittävänä?

Ensimmäinen kysymys, joka nousee esille on ”Kuinka hyvin mittarin osa-alueet korreloivat keskenään?”. Kuvitellaan tilanne – kolmen kysymyksen mittari arvioi vastaajan onnellisuuden tasoa. Kolmesta kysymyksestä ensimmäinen koskee henkilön fyysistä terveyttä, toinen – psyykkistä terveyttä ja kolmas – paikallista säätä. Tässä tilanteessa voidaan olettaa, että kaksi ensimmäistä kysymystä korreloivat keskenään hyvin – kun toinen nousee, niin yleensä nousee toinenkin. Sen sijaan kolmas kysymys tulee korreloimaan kahden muun kanssa vain harvoin. Sisäistä yhtenäisyyttä kuvaillaan yhdellä numerolla, jonka nimi on Cronbachin alfa. Jos kaikki kysymykset pyrkivät kuvaamaan samaa asiaa (vaikkakin eri näkökulmista), mittari on sisäisesti yhtenäinen ja alfa on korkea.

Alfa myös auttaa meitä tunnistamaan tilanteita, joissa mittari voidaan lyhentää. Kuvitellaan, että edellisessä esimerkissä kaikki kolme kysymystä kuvaavat samaa fyysisen terveyden tasoa, ero on vain sanamuotoilussa. On selvää, että kaikki kolme korreloivat keskenään voimakkaasti ja alfa tulee olemaan erittäin korkea. Tämä kertoo meille, että mittarissa voi olla yksi tai useita identtisiä ”ylimääräisiä” kysymyksiä ja osa niistä voidaan poistaa mittarista ilman että se vaikuttaisi mittarin sisäiseen yhtenäisyyteen.

Sisäisen yhtenäisyyden jälkeen tutkitaan yleensä mittarin toistettavuutta. Tätä ominaisuutta tutkimme vertailemalla potilaan antamia toistovastauksia kahtena ajankohtana. Jos testi on hyvä, niin toistovastaukset korreloivat keskenään voimakkaasti.

Niin sanottua konvergenttia validiteettia tutkimme vertailemalla testin antamia tuloksia muiden samaan aikaan käytettyjen mittareiden tuloksiin. Ihanteellisessa tilanteessa mittareiden tuottamat arvot ovat samansuuntaisia. Jos meillä on käytössä kyseisen oireen tai tilan vakiintunut kultainen standardi, voimme laske kuinka usein meidän mittari antaa vääriä positiivia tai vääriä negatiivisia tuloksia. Pieni määrä vääriä positiivisia tuloksia kertoo meille mittarin hyvästä spesifisyydestä. Pieni määrä vääriä negatiivisia tuloksia kertoo hyvästä herkkyydestä.

Mittarin tärkeä ominaisuus on myös mahdolliset niin sanotut floor- ja ceiling efektit. Jos mittarilla on huomattava floor efekti, niin mittarin mittaaman ilmiön muodon lievimmät asteet jäävät erottumatta. Vastaavasti huomattava ceiling efekti voi johtaa siihen, että mittari ei toimi hyvin mitattavan alueen yläpäässä.

Tämän jälkeen tutkitaan yleensä mittarin niin sanottu faktori rakenne. Tämä on tärkeää, jos mittari tuottaa yhden tai useamman yhteenlasketun kokonaispistemäärän. Aloitetaan yleensä eksploratiivisesta, eli tutkivasta, faktorianalyysista. Haluamme tietää mittaako meidän kysely yhtä vai useampaa asiaa. Esimerkiksi voimme esittää potilaalle kymmenen kysymystä, joista viisi ensimmäistä mittaavat hänen liikkumiskykyä ja viisi muuta kuvaavat hänen kognitiivista suoritusta.

Faktorianalyysissa näemme, että mitattavia asioita on kaksi – voimme kutsua niitä sanoilla ”liikuntakyky” ja ”ajattelukyky”. Tässä tilanteessa kaikkien kymmenenvastuksen yhteen laskeminen ei ole perusteltua. Mittari ei pysty tuottamaan luotettavaa yhtä kokonaispistemäärää. Kahdella potilaalla voi olla sama pistemäärä, joka todellisuudessa koostuu toisella vain liikuntakyvyn pisteistä ja toisella vain ajattelukykypisteistä. Nämä yhteenlasketut summat eivät olisi vertailukelpoisia.

Mittarin täytyy siis olla yksiulotteinen, jos me haluamme käyttää yhteen laskettua kokonaispistemäärä päätuloksena. Seuraavaksi me tehdään yleensä mittarin niin sanottu osiovaste-teoria-analyysi. Tätä kutsutaan joskus myös Rasch-analyysiksi. Tilastollisin keinoin pystymme laskemaan mikä on tutkitun tekijän (esimerkiksi toimintakyvyn tason) keskimääräinen taso tässä väestössä. Sen jälkeen verrataan vastaajien tuloksi tähän keskiarvoon.

Mitä voimme arvioida tällä tavalla? Ensiksi, yksittäisten kysymysten ja koko testin niin sanottua vaikeutta ja sen jälkeen jokaisen kysymyksen ja koko testin niin sanottua erottelukykyä. Esimerkiksi me mitataan kipua kipujanalla, eli tutulla asteikolla nollasta kymppiin. Kuinka paljon kipua potilaan todellisuudessa pitää tuntea, että hän laittaisi ruksin ”viiden” pisteen kohdalla eikö ”neljän”? Tarkoittaako ero kolmen ja yhden pisteen ja kymmenen ja kahdeksan pisteen välillä (joka on matemaattisesti samat kaksi pistettä) oikeasti samaa eroa koetun kivun voimakkuudessa? Näihin kysymyksiin pystyymme vastaamaan tutkimalla ”vaikeus” ominaisuutta.

Toimiiko mittari parhaiten suhteellisen kivuttomilla potilailla vai hyvin kivuliailla? Pystyykö se erottamaan niitä, joiden kivun vaikeus on vain hieman tutkitun väestön keskitasoa suurempi niistä, joilla se on hieman keskitason alapuolella? Voidaanko mittaria suositella lievänkin kivun seulontatestiksi? Näihin kysymyksiin vastaamme tutkimalla ”erottelukykyä”. Hyvin tärkeä kysymys on: mikä on mittarin pienin mahdollinen herkkyys – eli kuinka pienen muutoksen mittari ylipäänsä pystyy havaitsemaan? Siihen liittyy toinen tärkeä kysymys – kuinka pienen eron mittarin antamissa tuloksissa potilas kokee oikeasti merkitsevänä.

Kaikki nämä ovat vain esimerkkiä niistä keinoista, joilla mittaria voidaan tutkia. Valitettavan usein jopa vuosikymmeniä käytössä olevaa mittaria on tutkittu vain vähän. Tämä kyseenalaistaa mittarin antamia tuloksia. Joissakin tilanteissa mittarin laaja käyttö jopa jatkuu riippumatta siitä, että sen ominaisuudet on todettu heikoiksi. Epäluotettavan mittarin käyttö saattaa johtaa väärään hoito- tai kuntoutuslinjan valintaan, puutteellisiin suosituksiin ja resurssien väärään kohdentamiseen.

Mikhail Saltychev
Mikhail Saltychev aloitti fysiatrian professorina lääketieteellisessä tiedekunnassa lokakuussa 2019.

Keskeisimmät tutkimusaiheet ja asiantuntijuusalueet:

  • Kuntoutuksen tai hoitotoimenpiteiden vaikutukset toimintakykyyn
  • Toimintakykytestien psykometristen ominaisuudet
  • Kuntoutuksen tai hoitotoimenpiteiden vaikuttavuus - systemaattiset katsaukset ja meta-analyysit

Tutkimukseni keskiössä on fysiatrian peruskäsite - toimintakyky. Erityisesti ole kiinnostunut eri kuntoutus- ja hoitotoimenpiteiden vaikuttavuudesta toimintakykymittareilla mitattuna. Tähän käytän erilaisia tutkimusasetelmia ja tilastollisia menetelmiä, mm. systemaattiset katsaukset ja meta-analyysit, pitkittäiset toistomittausmenetelmät ja poikkileikkaustutkimukset. Minun erityisosaamiseen kuuluvat toimintakykytestien psykometriset tutkimukset.

Koulutus ja dosentuuri:

  • Lääketieteen tohtori 2012  (Turun yliopisto)
  • Fysatrian dosentti 2014 (Turun yliopisto)