Tietoturvattu tekoäly

Tekoäly on keskeinen teknologia, jolla on suuri vaikutus elämäämme yhteiskunnallisella sekä organisaatio- ja yksilötasolla. Suomessa on lanseerattu kansallinen tekoälyohjelmakin tukemaan tätä kehitystä. Tekoälyn hyödyntäminen kasvaa nopeasti toimialasta riippumatta. Hidasteitakin kasvulle on tunnistettu, ja yksi suurimmista on luottamuksen puute tekoälyratkaisujen antamille tuloksille. Koneoppimisen algoritmien tarkkuus ja luotettavuus ovatkin tärkeitä kehityskohteita. Lisäksi luottamuksen ansaitsemiseksi tarvitaan tietoa myös tekoälypalveluiden tietoturvallisuudesta ja alkuperästä.

Yleisiä tekoälyratkaisuille asetettuja vaatimuksia ovat mm. tulosten oikeudenmukaisuus, läpinäkyvyys, oikeellisuus ja luotettavuus. Tietoturvalla taas käsitetään järjestelyjä, joilla pyritään varmistamaan tiedon saatavuus, eheys ja luottamuksellisuus. Tietoturvan tavoitteet ovat siis yhdenmukaiset ja niihin pääsy on edellytys hyvälle tekoälyratkaisulle.

Uhkat

Tekoälyratkaisusta saatu hyöty on riippuvainen sille syötetyn lähtödatan laadusta. Tuttu sanonta roskaa sisään – roskaa ulos pitää paikkansa tässäkin. Tämä voitaisiin myös muuntaa muotoon vääristeltyä dataa sisään – ohjailtuja tuloksia ulos.  Esimerkiksi itseohjautuvan auton tapauksessa muokkaamalla hahmontunnistusalgoritmin opetuksessa käytettävää dataa, voidaan auton kykyä tunnistaa tiettyjä liikennemerkkejä manipuloida. Toki opetuksessa käytettyyn dataan voi syntyä vääristymää myös tahattomasti, joten suojautumiskeinoissa molemmat vaihtoehdot on kyettävä eliminoimaan.

Pieni huomaamaton datan peukalointi saattaa aiheuttaa sen, että 1) tekoälyratkaisu luokittelee dataa virheellisesti tietyn ominaisuuden suhteen; 2) opetusdata ja mallit voidaan saastuttaa, jolloin mallin tarkkuus huononee ja luotettavuus katoaa ja 3) luottamuksellista tietoa voidaan varastaa vertailemalla ratkaisun antamia tuloksia sille annettuun syötteeseen.

Koneoppimisen uhkamallin voi rakentaa arvioimalla hyökkääjän…

  • tavoitetta: mikä on haettu vaikutus, esimerkiksi tulosten oikeellisuuden heikentäminen aiheuttamalla vääriä positiivisia tuloksia luokittelijoista
  • tietoa kohteesta: missä määrin hyökkääjä tuntee käytettyä opetusdataa, algoritmeja, malleja, parametreja jne.
  • kyvykkyyttä kontrolloida opetus- ja testidataa
  • hyökkäysstrategiaa: mitä spesifejä keinoja käytetään, esimerkiksi datan manipulointia vai luokkien tunnusten peukalointia jne.

Suojautuminen

Koska hyökkääjät käyttävät erityyppisiä hyökkäystekniikoita eri koneoppimisen elinkaaren vaiheissa, suojautuminenkin kannattaa rakentaa elinkaarivaiheisiin sitoen. Idea on sama kuin sovelluskehityksen DevSecOps-mallissa – tietoturvaa ei voida tehokkaasti rakentaa muutoin kuin sisällyttämällä toimenpiteet työn eri vaiheisiin. Jälkikäteen tehty päälleliimausyritys ei toimi.

Datan keräysvaiheessa hyökkääjät voivat pyrkiä saastuttamaan datan. Hyökkääjän lisäämän sisällön tunnistus ja puhdistus ovat varautumiskeinoja tähän. Yksityisyyden turvaamiseksi data voidaan myös anonymisoida. Opetusvaiheessa algoritmien koventaminen eri menetelmillä auttaa. Testaus- ja soveltamisvaiheessa uhkia ovat identiteetin kaappaus sekä evaasio-, ja inversio-tyyppiset hyökkäykset. Testaustekniikat keskittyvät yleensä algoritmien suorituskyvyn määrälliseen arviointiin, eivät tietoturvan arviointiin. Tähän on kehitetty ”entä-jos” -tyyppisiä menetelmiä. Näissä algoritmin suunnittelija tekee proaktiivisesti uhkamallinnusta algoritmin haavoittuvuuksiin perustuen, suorittaa penetraatiotestausta, analysoi hyökkäyksen vaikutuksen ja lopuksi luo suojausmekanismeja hyökkääjiä vastaan. Yksityisyydensuoja varmistetaan datan salaamisella.

Jos opetusdataan on kaikesta huolimatta kertynyt vinoumaa, joko tahallisesti tai tahattomasti, voidaan tilanne korjata vielä uudella teknologialla. AI OpenScale auttaa tuomaan läpinäkyvyyttä tekoälyratkaisun tekemään päättelyyn automaattisen vinouman havaitsemisen, poistamisen sekä näiden selittämisen avulla. Tätä voidaan hyödyntää sekä ratkaisun kehityksen sekä tuotantokäytön aikana tuomaan näkyvyyttä mallien suorituskykyyn ja oikeudenmukaisuuteen.

Tekoälyratkaisuja on aiemmin jouduttu rakentamaan julkisten pilvipalveluiden avulla. Nykyisin koko data- ja koneoppimisalustan voi sijoittaa yksityiseen pilveen. Tällöin kokonaisuus on täysin omassa kontrollissa, eikä dataa tarvitse siirtää oman organisaation verkkoalueen ulkopuolelle.

Luonnollisesti data- ja koneoppimisalustan sekä tuotetun tekoälyratkaisun pitää sisältää muut yleiset tietoturvan elementit, kuten identiteetin- ja pääsynhallinnan sekä verkko- että sovellustietoturvan.

Luottamusta läpinäkyvyydellä

Läpinäkyvyys tekoälyratkaisun suorituskykyyn ja luotettavuuteen, käytettyihin turvallisuus- ja tietoturvatekniikoihin sekä testaustapaan ympäristöineen lisää luottamusta ratkaisuun. Edelleen pitää tuntea käytetty data, opetusalgoritmit sekä mallit.

Onkin ehdotettu, että tekoälyratkaisuilta edellytettäisiin kuvaus (supplier’s declaration of conformity, SDoC) edellä mainituista oleellisista tekijöistä. Tämä edesauttaisi kehitystä, jossa tämän merkittävän teknologian avulla tuotettuihin ratkaisuihin voidaan suhtautua luottavaisemmin.

Tietoturvattu tekoäly

Tekoälyn merkityksen kasvaessa yhteiskunnassa on huolehdittava ratkaisujen tietoturvallisuudesta, jotta pääsemme nauttimaan luotettavista tuloksista.

Tekoälyratkaisut saadaan tietoturvallisiksi tunnistamalla ja vastaamalla tekoälyspesifeihin haasteisiin ketterällä kehityssykliin integroidulla tavalla. Tässä uudet työkalut, kuten AI OpenScale:n automaattinen vinoumanpoisto helpottaa merkittävästi. Tarvittaessa koko koneoppimisalustan siirtäminen omaan ympäristöön lisää myös luottamusta.

Jos haluat kuulla lisää tekoälyn tietoturvauhkista ja ratkaisuista, tule juttelemaan kanssamme 600Minutes Information and Cyber Security -tapahtumaan, tai ole yhteydessä jouko.poutanen@fi.ibm.com.

Avainsanat: AI, AI OpenScale, DevSecOps, ICP for Data, koneoppiminen, läpinäkyvyys, ML, private cloud, tekoäly, tietoturva, watson, yksityisyys

Kommentit