Helin blogi lapsen syntymän tulovaikutusta koskevasta tutkimusasetelmasta

Syy-seuraussuhteita koskeviin kysymyksiin vastaaminen on haastavaa, sillä usein etenkin yhteiskunnallisen tutkimuksen tutkimusasetelmia on mahdotonta toteuttaa siten, että pätevä kausaalipäättely on mahdollista.

Tutkimus tutkimusmenetelmästä

Kandidaattitutkielmani aihe syntyi Pirstoutuvatko työurat? -hankkeesta saadusta kysymyksestä lasten saamisen vaikutuksesta työtuloihin. Itseäni kiinnostaa erityisesti tutkimus ja sen toteuttamiseen liittyvät kysymykset, joten tutkielman aihe rajautui datan käsittelyyn pätevää kausaalipäättelyä varten. Metodiikka ja datan esikäsittely ovat tärkeitä tieteellisen tutkimuksen osasia, ja tässä pyrin esittelemään kvasikokeelliseen tutkimusasetelmaan liittyviä kysymyksiä ja propensity score matching -menetelmän taustoja.

Syy-seuraussuhteita koskeviin kysymyksiin vastaaminen on haastavaa, sillä usein etenkin yhteiskunnallisen tutkimuksen tutkimusasetelmia on mahdotonta toteuttaa siten, että pätevä kausaalipäättely on mahdollista. Satunnaistettu kokeellinen tutkimusasetelma mahdollistaa päätelmät kausaalisuudesta, mutta monien ilmiöiden kohdalla joudutaan tyytymään kvasikokeelliseen tutkimusasetelmaan, joka ei täytä kausaalipäättelyn ehtoja. Tutkielman esimerkissä tarkastellaan lasten saamisen vaikutusta tuloihin. Lasten saaminen ilmiönä ei ole tutkijan kontrolloitavissa ja lapsia saavien ryhmä voi erota ominaisuuksiltaan lapsettomista, jolloin ryhmät eivät ole vertailukelpoisia. Tässä tapauksessa päätelmiä lasten saamisen vaikutuksesta tuloihin ei voi tehdä, sillä jokin muu tekijä voi selittää erot tuloissa ryhmien välillä. Tilastollisilla kaltaistusmenetelmillä pyritään käsittelemään aineisto siten, että koe- ja kontrolliryhmät olisivat taustaominaisuuksiltaan samankaltaisia, ja siten vertailukelpoisia.

FOLK mahdollistaa kvasikokeellisen tutkimusasetelman

Tutkielmassa luodaan esimerkkinä kaltaistettu aineisto FOLK-rekisteriaineistosta propensity score matching -menetelmällä. Esimerkin aineistoon sisältyy kohortit 1970, 1975 ja 1980, joissa syntyvien lasten vaikutusta tuloihin voitaisiin arvioida ikävuosina 30–37. Lisäksi aineisto jaettiin miehiksi- ja naisiksi määriteltyihin, jotta voitaisiin tutkia, onko lasten saamisen vaikutuksessa tuloihin eroja miehillä ja naisilla.

Propensity score matching -menetelmä perustuu propensiteetti- tai alttiuslukuihin, jotka ovat todennäköisyyksiä yksilön kuulumiselle koeryhmään, joka tässä esimerkissä käsittää seuranta-aikana lapsia saavat henkilöt. Luvut lasketaan yksilöiden taustaominaisuuksien, kuten esimerkiksi koulutusasteen, parisuhdestatuksen ja opiskeluvuosien perusteella. Kaltaistuksessa pyritään löytämään propensiteettiluvultaan mahdollisimman samankaltaiset vastinparit tai -ryhmät lapsia saaneista ja lapsettomista. Kun vertailukelpoiset koe- ja kontrolliryhmät on muodostettu, voidaan kausaalivaikutusta tutkia kaltaistetussa aineistossa.

Eri menetelmiä tarvitaan

Tutkielman esimerkki palvelee menetelmän demonstrointia varten, mutta menettely ei välttämättä olisi käytännössä paras vaihtoehto tutkimuksen toteuttamiseen tässä aineistossa. Aineiston koko on suuri, joten menetelmää on sovellettu 10 000 yksilön satunnaisotokseen laskutoimitusten mahdollistamiseksi järkevässä ajassa. Paljon informaatiota jää siis käyttämättä. Esimerkki valottaa tämän kyseisen menetelmän toteuttamista käytännössä ja siihen liittyviä taustaoletuksia, sekä menetelmän käytön onnistumisen arviointia. Aina ei ole yksiselitteistä, mikä menetelmä parhaiten sopii kuhunkin aineistoon ja tässä esimerkissä ei tutkittu muita mahdollisia menetelmiä.

Propensiteettiluvuilla kaltaistusta on kritisoitu ja on esitetty, että muiden etäisyysmittojen, kuten Mahalanobisin etäisyyden käyttö kaltaistuksessa voisi tuottaa parempia tuloksia. Kaltaistusmenetelmien heikkoutena on raskaiden laskutoimitusten lisäksi mahdollinen otoskoon pieneneminen riippuen tutkimusasetelmasta ja käytetystä algoritmista. Aineiston käsittelyyn kvasikokeellisessa asetelmassa on olemassa myös muita menetelmiä kuin kaltaistus. On ehdotettu, että propensiteettilukuja voisi myös käyttää suoraan yksilöiden painoina (weighting), jolloin kaltaistamisprosessin aiheuttamia ongelmia ei synny. On siis syytä muistaa, että huolimatta tämän esimerkin tilastollisesti onnistuneesta metodin soveltamisesta, asetelmaan liittyy paljon muitakin tekijöitä, jotka on huomioitava pätevän kausaalipäättelyn takaamiseksi.