Olen parin vuoden sisällä julkaissut kolme artikkelia, joissa on käsitelty tilastomenetelmien käyttöä lääketieteen julkaisuissa. Tulosten mukaan lääketieteen tutkijat eivät ole omaksuneet laskennallisesti raskaita uusia analyysimentelmiä. Aineistomme mukaan ns. koneoppimisen (tai tekoälyn) menetelmiä ja bayesilaista tilastotiedettä esiintyi hammaslääketieteen ja lääketieteen lehdissä hyvin harvoin. Tässä kirjoituksessa tarkastelen erityisesti viime vuosikymmeninä tarjottujen uusien laskennallisten menetelmien vastaanottoa.
Tietotekniikan tarjoaman, suuren laskentakapasiteetin ansiosta lääketieteen data-analyysiin on parina viime vuosikymmenenä pystynyt kehittämään monia uusia metodeja, kuten tilastoyksiköiden keskinäisen riippuvuuden hallitsemiseen tarkoitetut menetelmät, imputointi eli puuttuvien tietojen käsittely ja bootstrap -estimointi. Nämä menetelmät ovat olleet lääketieteen ja hammaslääketieteen tutkijoiden käytettävissä jo pidemmän aikaa. Lisäksi lääketieteen havaintoaineistojen analysointiin on pyritty viime vuosikymmeninä tuomaan perinteisten tilastollisten perusmenetelmien rinnalle tai vaihtoehdoksi bayesilaista tilastotiedettä. Erityisesti tietotekniikan kehittyminen on lisännyt kiinnostusta myös massadatan (big data) louhintaan ja koneoppimisen algoritmien käyttöön. Tiedonlouhinnalla (data mining) tarkoitetaan menetelmiä, joilla pyritään löytämään mielenkiintoista tietoa suurista havaintoaineistoista. Koneoppimisen (”tekoälyn”) algoritmeilla pyritään tekemään ennusteita laajan havaintoaineiston pohjalta. Tarkoituksena on saada ennustusohjelmisto tuottamaan päätöksiä pohjatiedon ja mahdollisen kohteen toiminnan perusteella. Erityisesti teknologiassa koneoppimisen algoritmien avulla pyritään tuomaan markkinoille uusia tuotteita tai käyttää niitä liiketoiminnan parantamisessa.
Lääketieteen tilastomatematiikkaan erikoistuneissa lehdissä on tuotu voimakkaasti esille bayesilaista tilastotiedettä. Tämä analysointitapa perustuu posterioritodennäköisyyksien laskemiseen, jossa otetaan huomioon sekä ennakkotieto että havaintoaineiston tarjoama informaatio. Tietokonetehon jatkuva kasvu ja numeeristen integrointimenetelmien kehitys ovat mahdollistaneet sen, että tutkimusongelmaan liittyvää etukäteisinformaatiota ja uutta havaintoaineistoa voidaan yhdistellä malleiksi.
Vaikka Bayes-laskenta on varsin suosittua teoreettisen tilastotieteen tutkijoiden parissa, sitä ei opeteta laajemmin lääketieteen tai hammaslääketieteen perusopintojen yhteydessä. Menetelmien laajempi leviäminen lääketieteen ja sen lähialueiden julkaisuihin vaatinee laskentaan liitttyvien estimointialgoritmien yhdistämistä myös sellaisiin tilasto-ohjelmistoihin, joita data-analyysin menetelmiä soveltavat tutkijat yleisesti käyttävät analysoidessaan omia aineistojaan (esim. IBM SPSS Statistics).
Tiedonlouhinta liittyy läheisesti tämän hetken muotitermiin ”big data”, jonka tilastollisia menetelmiä tietoteknisesti lähestyvät ovat ottaneet käyttöönsä. Big data on erittäin suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja erityisesti tietotekniikkaa hyödyntäen. Big data kuvaakin aineiston määrää, mutta ei sen laatua. Toisaalta edellä mainittujen menetelmien on todettu kaipaavan vielä kehitystyötä, jotta ne voitaisiin laajemmin hyväksyä kliinisten aineistojen analysointiin.
Tilastollisten menetelmien menestyksellinen hyödyntäminen edellyttää, että tutkija ymmärtää havaintoaineistonsa ja sen muuttujien sisällöllisen merkityksen. Lisäksi tutkimusryhmän tulee hallita kaikkien käytettyjen tilastomenetelmien perusteet. Tällaisen osaamisen puute voi olla syynä siihen, että erittäin suurten ja järjestelemättömien tietomassojen analyysimenetelmiä, kuten neuroverkkoja, ei ole juurikaan sovellettu aineistomme artikkeleissa. Ilman hypoteeseja tehdyt, datamassan louhintaan perustuvat ns. mustan laatikon tuottamat löydökset eivät ole kliinisessä hammaslääketieteessä tai epidemiologiassa näytön asteeltaan vahvaa tutkimustietoa. Nämä menetelmät eivät myöskään tuota tunnuslukuja, jotka auttaisivat ymmärtämään sairauksien taustalla olevien tekijöiden voimakkuutta tai vertailemaan eri aineistoista saatavia tuloksia.
Tutkimuksissani olen havainnut, että sen paremmin hammaslääketieteen kuin lääketieteenkään tutkijat eivät ole omaksuneet perinteisten tilastollisten menetelmien rinnalle kehitettyjä, uusia laskennallisia analysointitekniikoita. Tarjolla olevien menetelmien käyttöönottoa voivat rajoittaa useat tekijät: vähäinen tarve, tarkoitukseen soveltuvien tilasto-ohjelmistojen puute, koulutuksen ja opastuksen vähäisyys tai julkaisufoorumien vastaanottokyky. Lääketieteen ja sen lähialueiden viestintä nojautuu vahvasti julkaistuihin tutkimuksiin ja on siten riippuvainen niiden laadusta; yhtä olennaista on kuitenkin se, kuinka havainnollisesti ja ymmärrettävästi tutkimusten päätulokset on esitetty. Erityisen tärkeää on, että tuloksista kiinnostuneet kliinikot, potilaat ja päättäjät pystyvät tulkitsemaan niitä oikein. Tämä asettaa suuret vaatimukset tutkimustulosten tilastolliselle käsittelylle ja raportoinnille.
Lähteet:
- Nieminen P & Vähänikkilä H (2020). Use of data analysis methods in dental publications: Is there evidence of a methodological change? Publications 8: 9 (doi: 10.3390/publications8010009).
- Nieminen P & Kaur J (2019). Reporting of data analysis methods in psychiatric journals: Trends from 1996 to 2018. International Journal of Methods in Psychiatric Research 28 (3): e1784 (doi: 10.1002/mpr.1784)
- Nieminen P, Toljamo T & Vähänikkilä H (2018). Reporting data analysis methods in high impact respiratory journals. ERJ Open Research 4: 00140-2017 (DOI: 10.1183/23120541.00140-2017).
Päivitetty 01.09.2020