Kuva Nainen osoittaa kaaviota kokoushuoneen ruudulla.

Tekoäly ja data – luottaako vai ei?

Julkisella sektorilla on tekoälylle useita käyttökohteita. Tietosuojahaasteina ovat mm. hallusinaatiot, tiedon anonymisointi ja tietoturva.


    Lyhyesti:

    • Tekoälyn käyttökohteet julkisella sektorilla painottuvat hyödyntämiseen mm. tiedonhallinnassa, datan visualisoinnissa ja päätöksenteon tuessa.
    • Tekoälyn kehitykseen ja käyttöön liittyy tietosuojahaasteita, kuten hallusinaatiot, henkilötiedon anonymisointi ja käsittelyn turvallisuus.
    • Tietosuojaa voidaan parantaa esimerkiksi rakentamalla generatiiviseen malliin ’itsekritiikkiä’ ja käyttämällä synteettistä dataa tekoälyn kehityksessä.

    Aiheeseen liittyvä artikkeli

    Tekoäly yskii ilman kunnon dataa

    Tekoäly ei ole taikasauva, jota heilauttamalla saadaan asiat kuntoon ja tehdään kilpailukykyloikka, jos organisaatio ei ole tehnyt pohjatöitä kunnolla.

      Sitran kattavassa tekoälyä koskevassa selvityksessä vuodelta 2022 tekoälyn mahdolliset käyttöalat julkisella sektorilla luokitellaan neljään luokkaan: 

      • Luokka I: Optimaalisiksi tekoälyn hyödyntämisen aloiksi nähdään esimerkiksi tietojohtaminen tilastollisen analyysin avulla, dokumenttien tuottaminen ja kääntäminen sekä tutkimus ja datan visualisointi. 
      • Luokat II ja III: Tekoäly voi Sitran selvityksen mukaan myös tukea päätöksentekoa, kuten esimerkiksi ehdottaa potilaan oireisiin sopivia diagnooseja terveydenhuollossa ja etsiä datasta anomalioita esimerkiksi veropetosten tunnistamista varten. 
      • Luokka IV: Tekoälyn käyttö harkinnanvaraisten päätösten tuottamiseen sen sijaan nähdään mahdottomaksi edes erillisen lainsäätämisen kautta mm. perusoikeuksien kunnioittamisen vuoksi. 

      Kansallinen lainsäädäntö automaattisesta päätöksenteosta julkisessa hallinnossa tuli voimaan 2023 mutta laki ei koske oppivia järjestelmiä, eli käytännössä, tekoälyä. Tekoäly ei siis saa julkishallinnossa yksin tehdä päätöksiä, joilla on henkilöön kohdistuvia oikeusvaikutuksia tai jotka muuten merkittävästi vaikuttavat yksilön elämään. Tämä on linjassa EU:n tekoälyasetuksen artikla 14 kanssa, joka koskee ihmisen suorittamaa valvontaa, kun kyseessä on suuririskinen tekoälyjärjestelmä. DigiFinlandin tuottaman esiselvitystyön loppuraportti tekoälyn käytöstä hyvinvointialueilla kuitenkin suosittelee, että nykyistä lainsäädäntöä tulisi kehittää tekoälyn tekemien päätösten osalta suotuisampaan suuntaan, mikäli pystyttäisiin todentamaan, että tekoäly tekee ihmistä parempia päätöksiä sosiaali- ja terveydenhuoltoon liittyen. Tekoälyn tehdessä lopullisia päätöksiä nousee toki kiinnostava kysymys virkavastuusta. 

      Niissä tapauksissa, joissa tekoälyratkaisuja voidaan käyttää julkisessa hallinnossa tämänhetkisen lainsäädännön nojalla, teknologiaan liittyy tiettyjä tietosuojahaasteita sekä teknologiaa kehittäessä, että sen tuottamissa lopputuotoksissa. Näitä haasteita ovat muun muassa generatiivisen tekoälyn tuottamat hallusinaatiot, tietojen anonymisointi ennen tietojen käyttöä toissijaisiin käyttötarkoituksiin ja käsittelyn turvallisuus.

      Aiheeseen liittyvä artikkeli

      Työn vetovoimaloikka: tekoäly julkisella sektorilla

      Tekoälyn hyödyntäminen julkisella sektorilla: mahdollisuuksia ja visioita tulevaisuuteen.

        Hallusinaatiot
         

        Dokumenttien tuottamiseen ja kääntämiseen tarvitaan generatiivista eli sisältöä tuottavaa tekoälyä, joiden pohjalla on laaja kielimalli. Turun yliopisto on kehittänyt suomenkielisen kielimallin FinGPT ja suomalainen kielimalli onkin ollut jo kokeilussa lainvalmistelutyössä Liikenne- ja viestintäministeriössä sekä kirjausten tekemisessä hyvinvointialueella. Laajoihin kielimalleihin liittyy tietosuojahaasteita, jotka liittyvät siihen, miten nämä kielimallit on rakennettu.  Euroopan tietosuojaneuvosto perusti työryhmän, joka tutki yhdysvaltalaisen OpenAI:n ChatGPT-työkalun tietosuojahaasteita EU:n yleistä tietosuoja-asetusta vasten. Haasteiksi mainittiin etenkin henkilötietojen automaattinen kerääminen internetistä eli verkkoharavointi (web scraping) sekä kielimallin tuottamat hallusinaatiot. Hallusinaatiot tarkoittavat generatiivisen tekoälyn piirrettä sepittää tietoa. 
         

        EU:n yleisen tietosuoja-asetuksen (myöhemmin tietosuoja-asetus) mukaan henkilötietojen tulee olla täsmällisiä ja tarvittaessa päivitettyjä. Mahdollisten hallusinaatioiden vuoksi on tärkeää, että ihminen tarkastaa koneen tuottaman tekstin esimerkiksi ennen sen siirtämistä potilastietojärjestelmään. Mitä enemmän työtä tehdään tekoälyavusteisesti, sitä suurempi riski on siihen, että hallusinoitu data aiheuttaa lumipalloilmiön, joka mahdollisesti vaikuttaa tekoälyn tuottamiin kategoriointeihin ja suosituksiin — esimerkiksi lääketieteessä tuleviin diagnoosivaihtoehtoihin ja hoitosuosituksiin. 
         

        Hallusinaatioita generatiivisessa tekoälyssä voidaan vähentää käyttämällä tekoälyjärjestelmän kouluttamiseen tietoaineistoja, jotka ovat monimuotoisia ja laadukkaita. Esimerkkisektorillamme lääketieteessä järjestelmä tulisi kouluttaa pääasiassa lääketieteellisten julkaisujen pohjalta, jotta vältytään esimerkiksi poliittisista syistä laajasti levinneen virheellisen tiedon laaja edustus mallissa. Myös järjestelmään sisäänrakennettu ’itsekritiikki’ tuottamaansa tekstiä kohtaan sekä oikea palaute tarjottuna palautesilmukan kautta kehittävät järjestelmää vähemmän hallusinoivaksi. Lisäksi on tärkeää muistaa, että generatiivinen tekoäly on hyvä ratkaisu esimerkiksi dokumenttien tuottamiseen, mutta ei aina ole paras ratkaisu ongelmaan. 
         

        Tietojen anonymisointi toisiokäytössä
         

        Julkisista rekistereistä saatavien arkaluonteisten tietojen toisiokäyttö ja henkilöiden tunnistaminen tietoaineistosta, joka anonymisoinnin sijaan on vain pseudonymisoitu, on noussut viime aikoina otsikoihinFinRekisterit on THL:n tutkimusprojekti, jonka puitteissa tutkitaan koko Suomen väestön tietoja. Se on yksi maailman laajimpia rekisteridatan toisiokäyttöön perustuvia tutkimuksia ja FinRekisterit-projekti kertoo hyödyntävänsä rekisteridataa koneoppimismallien kehittämiseen. FinRekisterien tutkijoille tarjoamaan pseudonymisoituun tietoaineistoon on jätetty esimerkiksi henkilön syntymäpäivä ja ensimmäinen väestörekisteriin merkitty postinumero eli syntymäpaikka. Henkilö on siis melko helposti tunnistettavissa, mikäli aineisto pääsee vuotamaan.  
         

        Tekoälymallien kehittäminen vaatii paljon dataa, ja datan anonymisointi on keskeinen turvatoimi henkilötietojen suojaamiseksi tekoälyä kehitettäessä. Henkilötietoja on mahdollista anonymisoida esimerkiksi maskaamalla tai aggregoimalla tietoa. Yhdistelemällä dataa toisista lähteistä on kuitenkin joissain tapauksissa mahdollista kumota anonymisointi. Rekisterinpitäjän tuleekin jatkuvasti pysyä tietoisena muun muassa teknologisesta kehityksestä, joka saattaa vaikuttaa mahdolliseen anonymisoinnin kumoutumiseen. 

        Algoritmeja on jo pitkään käytetty tunnistamaan henkilötietoa ja esimerkiksi varoittamaan henkilötietojen lähettämisestä sähköpostitse liitetiedostossa. Koska tekoälyratkaisut ymmärtävät nyt paremmin kontekstia, pystyvät ne tunnistamaan laajemmin, millaisesta tiedosta henkilö on mahdollisesti tunnistettavissa, mitä voidaan hyödyntää henkilötietoja maskatessa. Lisäksi generatiivinen tekoäly voi tuottaa synteettistä dataa, joka ei ole yhdistettävissä henkilöön mutta sisältää tutkimukseen tarvittavat tilastolliset ominaisuudet. Synteettistä dataa voidaan kuitenkin luoda vain olemassa olevien datajoukkojen pohjalta. Differentiaalinen tietosuoja on datan anonymisointiin liittyvä mekanismi, joka on ollut isoilla amerikkalaisilla toimijoilla käytössä jo vuosia ja näyttää nyt olevan tulossa myös Suomeen, ainakin tutkimuksen tasolla.
         

        Käsittelyn turvallisuus
         

        Etenkin lääketieteessä tekoälyn mahdollisuuksiin on tartuttu innostuneesti. Suomessa on esimerkiksi kehitetty pään alueen kuvantamiseen neuroverkkopohjainen ratkaisu, jonka toivotaan tulevan markkinoille muutaman vuoden kuluessa. Julkisella sektorilla on paljon tekoälyjärjestelmiä, jotka luokitellaan EU:n tekoälyasetuksessa ’suuririskisiksi’ järjestelmiksi eli järjestelmiksi, jotka aiheuttavat merkittävän riskin ihmisten turvallisuudelle, terveydelle tai perusoikeuksille. Tällaisiin järjestelmiin kuuluvat muun muassa maahanmuuton ja rajavalvonnan järjestelmät, lainvalvonta sekä julkinen terveydenhuolto. 
         

        Tekoälyasetuksen mukaan, jos tekoälyjärjestelmä kehitetään ko. viranomaisen käyttöä varten, katsotaan kyseinen viranomainen tällöin järjestelmän tarjoajaksi ja siten asetuksessa määritellyt turvallisuusvelvoitteet koskevat julkista toimijaa. Tekoälyasetuksen kyberturvavaatimuksiin kuuluu muun muassa riskien-, haavoittuvuuksien- ja jatkuvuudenhallinnan vaatimuksia. Laadunhallintajärjestelmän määräajoittaisiin auditointeihin ilmoituslaitoksen puolesta on hyvä varautua kolmannen osapuolen tuottamalla tarkastuksella. Tekoälyasetuksen määrittämissä sääntelyn testiympäristöissä (regulatory sandbox) tekoälyjärjestelmiä voi simuloida turvallisessa ympäristössä. Toivottavasti tämä perustetaan mahdollisimman nopeasti.
         

        Lopuksi
         

        Kaiken uuden teknologian käyttöön liittyy riskejä, mutta teknologiasta saatavat hyödyt ovat tässä kohtaa niin suuret että Saara Malkamäki kirjoittaa kiinnostavassa Akavan artikkelissaan, kuinka suurin riski on olla ottamatta tekoälyä käyttöön. Kokeneet riskienhallinnan ammattilaisemme ovat tukenasi myös tekoälyratkaisujen käyttöönotossa toimialasta riippumatta. Ota yhteyttä, mikäli tekoälyn tietosuoja- ja tietoturvariskit mietityttävät. 

        Yhteenveto

        Tekoälyn hyödyntämisessä on paljon potentiaalia julkisella sektorilla, erityisesti tiedonhallinnassa ja päätöksenteon tuessa. Sen sijaan nykyinen lainsäädäntö ei salli tekoälyn tehdä itsenäisiä oikeusvaikutteisia päätöksiä. Tekoälyyn liittyy tietosuojahaasteita, kuten generatiivisen tekoälyn hallusinaatiot, tietojen anonymisointi ja käsittelyn turvallisuus. Tietosuojariskejä on mahdollista kuitenkin pienentää muun muassa rakentamalla generatiivisiin malleihin ’itsekritiikkiä’, käyttämällä tekoälyn kehityksessä synteettistä dataa ja huomioimalla järjestelmätestauksessa erityisesti tekoälyyn kohdistuvat hyökkäysmenetelmät.

        Tästä artikkelista

        Kirjoittajat