Joukkotuhoalgoritmit?

Yle tarttui ajankohtaiseen kysymykseen algoritmien yhteiskunnallisista vaikutuksista kirjoituksellaan Tekoäly valitsee jo Suomessakin parhaat työnhakijat – Tutkijat: “Lisää syrjintää, seksismiä ja rasismia”. Kirjanmittainen esitys algoritmien vaaroista on puolestaan Cathy O’Neilin Weapons of Math Destruction, suomeksi Matikkatuhoaseet. Kirja on herättänyt ansaittua huomiota ja kerännyt arvioita.

O’Neilin kirjassa tuodaan esiin yksi toisensa jälkeen yksittäistapauksia, joissa näkyy kuinka algoritmien ylivalta koskee ennen kaikkea huono-osaisimpia. Työn haussa algoritmit raakkaavat pois ison määrän hakijoita. Tämä este täytyy ylittää, jotta pääsee keskustelemaan oikeiden ihmisten kanssa työhaastatteluissa ja samalla korjaamaan algoritmien mahdolliset virheet (huumelaboratorion pyörittämisestä tuomittu onkin joku samanniminen jne.). Köyhällä alueella asuva ei saa lainaa, koska saman postinumeron alueella asuvat lainanottajat ovat osoittautuneet riskialttiiksi. Omilla ansioilla, saavutuksilla, sitoumuksilla, teoilla ei ole väliä, kun algoritmit niputtavat samanlaiset tapaukset yhteen. Sen sijaan hyvillä alueilla asuvat saavat lainan elleivät omilla teoillaan ole tulleet assosioituneeksi riskiryhmiin. Siinä, että omilla teoillaan voi menestyä on siis totuuden siemen – tosin vain niille, joiden lähtökohdat ja rakenteelliset asemat sen sallivat. Sama kaava toistuu lukuisilla elämänalueilla koulujen valinnoista työvuorojen määrittymiseen ja poliisien partioreiteistä vakuutusmaksuihin. O’Neilin kirjan ansio on herätellä keskustelua asiasta, keskittymällä negatiivisiin tapauksiin yksittäistapauksista kertomalla, mikä ei sinänsä ole harmitonta. Ilmiön laajuuden ja haitallisuuden arvioiminen vaatisi tutkimuksellisempaa otetta. Varsin vakuuttavasti O’Neil kuitenkin osoittaa ilmiön olemassaolon.

Joukkotuhoalgoritmista tai matikkatuhoaseesta (Weapon of math destruction) on O’Neilin mukaan kyse, kun kolme kriteeriä täyttyy: algoritmi on toimintaperiaatteeltaan läpinäkymätön, se aiheuttaa epäreilua vahinkoa tai kärsimystä sekä on laajalle levinnyt.

Mikä joukkotuhoalgoritmeissa siis mättää, ja millä tavoin tekoälyä olisi niiden osalta muutettava paremmaksi? Voidaan erottaa ainakin viisi eri seikkaa: tavoitteet, aineistojen vinoumat, palautteen puute, läpinäkyvyyden puute sekä joissain tapauksissa mitattavuuden mielekkyys ylipäätään.

Yksi kysymys on se, mihin algoritmien avulla tähdätään. Jos puolue saa selville, että jotkut ovat vihaisia asuinolosuhteista, se voi käyttää tätä tietoa poliittisen mainonnan taustatietona tai hankkeissa asuinolosuhteiden parantamiseksi. Yritys voi käyttää tietoja voittojensa maksimoimiseen tai tuotteidensa parantamiseen. Informaatiosodankäyntiä harrastava ulkovalta voi pyrkiä yhteiskunnallisen epäluottamuksen ja kahtiajakojen lisäämiseen. Monissa tapauksissa pyrkimys sinänsä on hyvä: pyritään parantamaan sairaalan toimintaa, saamaan selville parhaat hakijat, mitoittamaan vakuutusmaksut riskeihin jne. Miksi hyvään tähtäävät algoritmit kuitenkin saattavat aiheuttaa vahinkoa, jopa ”massatuhoa”?

Algoritmit toistavat aineistojen vinoumia. Keskeinen seikka on, että algoritmit eivät ole täysin yksilöityjä, vaan voivat perustua mihin tahansa ihmisten välisiin samankaltaisuuksiin, joita kone löytää. Ja nämä samankaltaisuudet sisältävät rakenteellisia epäoikeudenmukaisuuksia, joita se kohtelee neutraalina datana. Kenties harvinainen etunimesi sattuu olemaan monella sarjamurhaajalla. Kenties postinumerosi alueella tapahtuu paljon rikoksia. Tämä on epäreilua yksilöä kohtaan, ainakin jos ajatellaan mahdollisuuksien tasa-arvoa, jonka mukaan jokaisella tulisi syntyperästä huolimatta olla samat mahdollisuudet elämässä. Syrjinnän kielto vaatii jättämään osan datasta sivuun silloinkin, kun se olisi merkityksellistä: vaikka postinumero korreloisikin joidenkin riskien kanssa, niin tiedon käyttö saattaa olla rodullista syrjintää.  (Osa datasta, joka saattaa vinouttaa päätelmiä, voi olla yksilöllistäkin: omat aiemmat mielenterveysongelmat, sovitetut rikokset tai luottohäiriöt voivat vaikuttaa algoritmin arvioon työntekijän sopivuudesta. Yhdysvalloissa esimerkiksi Americans with Disability Act rajoittaa tällaisen tiedon käyttöä).

Algoritmit tekevät virheitä. Ne tarvitsevat palautetta virheiden karsimiseksi. Joskus palautetta on helppo antaa: Käyttäjä voi lisätä sanoja tekstinkäsittelyohjelman oikolukuohjelmaan. Urheilujoukkueiden suoritustilastoihin perustuvia ennusteita seurataan ja menestystä ennustavien tekijöiden painoarvoa viilataan jatkuvasti. Sen sijaan laajoihin joukkoihin kohdistuvia esimerkiksi työnhakualgoritmeihin sisältyviä vinoumia ja virheitä kenelläkään ei ole motivaatiota poistaa, ainakaan ellei tätä lainsäädännöllisesti tehdä pakolliseksi.

Koneoppimista toteuttavat algoritmit eivät ole läpinäkyviä, vaan ovat mustia laatikoita, joiden toimintaperiaatetta ei ole ennalta ohjelmoitu. Koneoppiminen ei noudata ennalta koodattua kaavaa, vaan edes ohjelmoijat eivät tiedä millä perusteella algoritmit suosituksiinsa päätyvät. Eräs tapa yrittää puuttua tähän on testata algoritmia koeaineistolla, ja saada tietoa millaisia mahdollisia vinoumia se sisältää, vaikka ”musta laatikko” jääkin avaamatta. Tällaista tutkimusta onkin meneillään (joskin yritykset saattavat vaikeuttaa hypoteettisten henkilöiden syöttämistä systeemeihinsä testausmielessä). Saattaa kuitenkin olla, että joissain asioissa tämäkään ei riitä. Vuodelle 2018 suunniteltu EU-laki, General Data Protection Regulation, (erityisesti artiklat 12-15 ja 22), jonka vaikutuksia esitellään täällä, ja vaikutuksia markkinoinnille eritellään myös esim. täällä, antaa yksilöille ”oikeuden selityksen saamiseen”. Kyse on juuri sellaisesta läpinäkyvyyttä edistävästä regulaatiosta, jolla algoritmien vahingollisuutta voi rajoittaa. (Ongelmia jää yhä: voi olla että ihmiset joutuvat antamaan suostumuksensa kaikenlaiseen datan käyttöön, joten lain vaatima kielto käyttää dataa ”ilman suostumusta” saattaa jäädä pelkäksi kirjaimeksi).

Läpinäkyvyys, periaatteellinen avoimuus ja julkisuus ovat aivan keskeisiä sosiaalisen oikeudenmukaisuuden kannalta: vaikka algoritmi toimisi virheettömästi, ilman vinoumia, tämän voi tietää vain jos kyetään tietämään millä perusteella algoritmi on suosituksiinsa päätynyt. Yhteiskunnallisen luottamuksen kannalta oikeudenmukaisuuden pitäisi paitsi tapahtua, myös näkyä. On mahdotonta ylläpitää luottamusta algoritmeihin, joiden toimintaperiaatteita ei tunneta – etenkin kun on syytä epäillä, että kaikkia virheitä ei ole vielä kitketty pois, ja niiden alkuperäinen data sisältää vinoumia. Oikeus selityksen saamiseen muistuttaa filosofi Rainer Forstin perusperiaatetta ”oikeus oikeutuksen saamiseen”, vaikka toisinaan selitykset eivät vielä ole oikeutuksia; epäoikeutetulla toiminnallakin on selityksensä.

”Tekoälyllä on aikaa antaa yksilöllistä palautetta jokaiselle kandidaatille, toisin kuin ihmisellä”, toteaa Saku Valkama Ylen haastattelussa. Kuten yllä on tullut esiin, ongelman ydin on, että ihmisille ymmärrettävässä muodossa olevaa palautetta ei välttämättä lainkaan ole annettavaksi (hakija lainantakaisinmaksukykyä on arvioitu suhteessa samantapaisiin tapauksiin sadoin eri tavoin, ja hakija on vain kaikkiaan luokiteltu riskiluokkaan), tai sitä ei haluta liikesalaisuus- tai muista syistä paljastaa (paljastetaan vain, että nämä ja nämä ostotapahtumat on otettu huomioon, ei sitä että henkilö on niiden perusteella luokiteltu ”juuri ja juuri toimeentulevaksi”), tai yhtiöllä ei ole henkilökuntaa tähän tarkoitukseen. Valkaman kommentti kuitenkin tuo esiin, mihin suuntaan asioita voisi parantaa.

Lopuksi, jotkut asiat, kuten ”opetuksen taso” tai ”tutkimuksen taso” ovat ylipäätään hankalasti mitattavia. Jos niitä halutaan määrällisesti mitata, on seurattava jotain muita muuttujia, joiden oletetaan korreloivan opetuksen ja tutkimuksen tason kanssa. O’Neil käyttää esimerkkinään Yhdysvaltalaisia collegeja vertailevaa U.S. Newsiä. Kun aluksi mittarit otettiin käyttöön, haluttiin että maineikkaimmat oppilaitokset sijoittuvat mittareidenkin mukaan kärkeen, jotta mittarit vaikuttaisivat uskottavilta. Aikaa myöten niistä tulee itsensä toteuttavia ennusteita. Jos mittarit ovat tiedossa (eli kyse ei ole mustasta laatikosta), vaarana on, että oppilaitosten ja tutkimuslaitosten on rahoituksesta kilpaillakseen optimoitava näitä mitattavissa olevia asioita, jolloin toiminnan tarkoitus vääristyy. Olisi kaikkien etu, että tieto mahdollisimman tarkasti koskisi kyseisten instituutioiden toiminnan oikeita päämääriä.

Yleiskommenttina voisi siis sanoa, että algoritmit eivät sovellu kaikkeen ja ovat enintään yhtä hyviä, kuin ne yhteiskunnat, joissa niitä käytetään. Yhteiskunnallinen eriarvoisuus ei ole algoritmien synnyttämää, mutta se voi tehdä siitä salakavalampaa. Algoritmeja voi pyrkiä määrittämään sellaisiksi, että ne eivät syrji ketään. Alkuperäinen hyvä tarkoitus (esimerkiksi pätevimpien hakijoiden valinta) voi osoittautua liian kapeasti määritellyksi: tavoitteisiin pitää lisätä työntekijöiden hyvinvointi, työntekijöiden diversiteetti, mahdollisuuksien tasa-arvo jne. koska muutoin algoritmiavusteinen päätöksenteko polkee niitä jalkoihinsa. Sallitut tai toivotut keinot (”syrjimättä ketään”) pitäisi osata asettaa alkuperäisten päämäärien rinnalle, kun algoritmien tavoitteita määritellään.

Pitäisikö tekoälyn käyttö siis lopettaa? Emme halunne paluuta yhteiskuntaan, jossa syrjintä ja eriarvoisuus oli vapaata algoritmeista, vaan mieluummin yhteiskunnan, jossa algoritmitkin ovat vapaita syrjinnästä ja eriarvoisuudesta.

Arto Laitinen