Hallusinaatiot
Dokumenttien tuottamiseen ja kääntämiseen tarvitaan generatiivista eli sisältöä tuottavaa tekoälyä, joiden pohjalla on laaja kielimalli. Turun yliopisto on kehittänyt suomenkielisen kielimallin FinGPT ja suomalainen kielimalli onkin ollut jo kokeilussa lainvalmistelutyössä Liikenne- ja viestintäministeriössä sekä kirjausten tekemisessä hyvinvointialueella. Laajoihin kielimalleihin liittyy tietosuojahaasteita, jotka liittyvät siihen, miten nämä kielimallit on rakennettu. Euroopan tietosuojaneuvosto perusti työryhmän, joka tutki yhdysvaltalaisen OpenAI:n ChatGPT-työkalun tietosuojahaasteita EU:n yleistä tietosuoja-asetusta vasten. Haasteiksi mainittiin etenkin henkilötietojen automaattinen kerääminen internetistä eli verkkoharavointi (web scraping) sekä kielimallin tuottamat hallusinaatiot. Hallusinaatiot tarkoittavat generatiivisen tekoälyn piirrettä sepittää tietoa.
EU:n yleisen tietosuoja-asetuksen (myöhemmin tietosuoja-asetus) mukaan henkilötietojen tulee olla täsmällisiä ja tarvittaessa päivitettyjä. Mahdollisten hallusinaatioiden vuoksi on tärkeää, että ihminen tarkastaa koneen tuottaman tekstin esimerkiksi ennen sen siirtämistä potilastietojärjestelmään. Mitä enemmän työtä tehdään tekoälyavusteisesti, sitä suurempi riski on siihen, että hallusinoitu data aiheuttaa lumipalloilmiön, joka mahdollisesti vaikuttaa tekoälyn tuottamiin kategoriointeihin ja suosituksiin — esimerkiksi lääketieteessä tuleviin diagnoosivaihtoehtoihin ja hoitosuosituksiin.
Hallusinaatioita generatiivisessa tekoälyssä voidaan vähentää käyttämällä tekoälyjärjestelmän kouluttamiseen tietoaineistoja, jotka ovat monimuotoisia ja laadukkaita. Esimerkkisektorillamme lääketieteessä järjestelmä tulisi kouluttaa pääasiassa lääketieteellisten julkaisujen pohjalta, jotta vältytään esimerkiksi poliittisista syistä laajasti levinneen virheellisen tiedon laaja edustus mallissa. Myös järjestelmään sisäänrakennettu ’itsekritiikki’ tuottamaansa tekstiä kohtaan sekä oikea palaute tarjottuna palautesilmukan kautta kehittävät järjestelmää vähemmän hallusinoivaksi. Lisäksi on tärkeää muistaa, että generatiivinen tekoäly on hyvä ratkaisu esimerkiksi dokumenttien tuottamiseen, mutta ei aina ole paras ratkaisu ongelmaan.
Tietojen anonymisointi toisiokäytössä
Julkisista rekistereistä saatavien arkaluonteisten tietojen toisiokäyttö ja henkilöiden tunnistaminen tietoaineistosta, joka anonymisoinnin sijaan on vain pseudonymisoitu, on noussut viime aikoina otsikoihin. FinRekisterit on THL:n tutkimusprojekti, jonka puitteissa tutkitaan koko Suomen väestön tietoja. Se on yksi maailman laajimpia rekisteridatan toisiokäyttöön perustuvia tutkimuksia ja FinRekisterit-projekti kertoo hyödyntävänsä rekisteridataa koneoppimismallien kehittämiseen. FinRekisterien tutkijoille tarjoamaan pseudonymisoituun tietoaineistoon on jätetty esimerkiksi henkilön syntymäpäivä ja ensimmäinen väestörekisteriin merkitty postinumero eli syntymäpaikka. Henkilö on siis melko helposti tunnistettavissa, mikäli aineisto pääsee vuotamaan.
Tekoälymallien kehittäminen vaatii paljon dataa, ja datan anonymisointi on keskeinen turvatoimi henkilötietojen suojaamiseksi tekoälyä kehitettäessä. Henkilötietoja on mahdollista anonymisoida esimerkiksi maskaamalla tai aggregoimalla tietoa. Yhdistelemällä dataa toisista lähteistä on kuitenkin joissain tapauksissa mahdollista kumota anonymisointi. Rekisterinpitäjän tuleekin jatkuvasti pysyä tietoisena muun muassa teknologisesta kehityksestä, joka saattaa vaikuttaa mahdolliseen anonymisoinnin kumoutumiseen.
Algoritmeja on jo pitkään käytetty tunnistamaan henkilötietoa ja esimerkiksi varoittamaan henkilötietojen lähettämisestä sähköpostitse liitetiedostossa. Koska tekoälyratkaisut ymmärtävät nyt paremmin kontekstia, pystyvät ne tunnistamaan laajemmin, millaisesta tiedosta henkilö on mahdollisesti tunnistettavissa, mitä voidaan hyödyntää henkilötietoja maskatessa. Lisäksi generatiivinen tekoäly voi tuottaa synteettistä dataa, joka ei ole yhdistettävissä henkilöön mutta sisältää tutkimukseen tarvittavat tilastolliset ominaisuudet. Synteettistä dataa voidaan kuitenkin luoda vain olemassa olevien datajoukkojen pohjalta. Differentiaalinen tietosuoja on datan anonymisointiin liittyvä mekanismi, joka on ollut isoilla amerikkalaisilla toimijoilla käytössä jo vuosia ja näyttää nyt olevan tulossa myös Suomeen, ainakin tutkimuksen tasolla.
Käsittelyn turvallisuus
Etenkin lääketieteessä tekoälyn mahdollisuuksiin on tartuttu innostuneesti. Suomessa on esimerkiksi kehitetty pään alueen kuvantamiseen neuroverkkopohjainen ratkaisu, jonka toivotaan tulevan markkinoille muutaman vuoden kuluessa. Julkisella sektorilla on paljon tekoälyjärjestelmiä, jotka luokitellaan EU:n tekoälyasetuksessa ’suuririskisiksi’ järjestelmiksi eli järjestelmiksi, jotka aiheuttavat merkittävän riskin ihmisten turvallisuudelle, terveydelle tai perusoikeuksille. Tällaisiin järjestelmiin kuuluvat muun muassa maahanmuuton ja rajavalvonnan järjestelmät, lainvalvonta sekä julkinen terveydenhuolto.
Tekoälyasetuksen mukaan, jos tekoälyjärjestelmä kehitetään ko. viranomaisen käyttöä varten, katsotaan kyseinen viranomainen tällöin järjestelmän tarjoajaksi ja siten asetuksessa määritellyt turvallisuusvelvoitteet koskevat julkista toimijaa. Tekoälyasetuksen kyberturvavaatimuksiin kuuluu muun muassa riskien-, haavoittuvuuksien- ja jatkuvuudenhallinnan vaatimuksia. Laadunhallintajärjestelmän määräajoittaisiin auditointeihin ilmoituslaitoksen puolesta on hyvä varautua kolmannen osapuolen tuottamalla tarkastuksella. Tekoälyasetuksen määrittämissä sääntelyn testiympäristöissä (regulatory sandbox) tekoälyjärjestelmiä voi simuloida turvallisessa ympäristössä. Toivottavasti tämä perustetaan mahdollisimman nopeasti.
Lopuksi
Kaiken uuden teknologian käyttöön liittyy riskejä, mutta teknologiasta saatavat hyödyt ovat tässä kohtaa niin suuret että Saara Malkamäki kirjoittaa kiinnostavassa Akavan artikkelissaan, kuinka suurin riski on olla ottamatta tekoälyä käyttöön. Kokeneet riskienhallinnan ammattilaisemme ovat tukenasi myös tekoälyratkaisujen käyttöönotossa toimialasta riippumatta. Ota yhteyttä, mikäli tekoälyn tietosuoja- ja tietoturvariskit mietityttävät.