Itseoppiva tiedon luettelointi – tietoaltaiden pelastus vai populistinen lupaus?

Monimutkaisessa maailmassa moni haluaisi nähdä helppoja ratkaisuja vaikeisiin ongelmiin. Ovatko tietoa luetteloivat data catalog -ratkaisut vastaus huutoon vai ylimitoitettu lupaus kasvavan datan räjähtäessä yritysten käsiin?

Johdanto aiheeseen

Tekoälyn (AI) kehittäminen perustuu korkealaatuiseen ja monipuoliseen dataan. Hyväkään tieto ei auta, jos se on piilossa tietojärjestelmissä ja dokumenteissa. Tässä blogitekstissä luon katsauksen tietovarastoinnin ja analytiikan lähihistoriaan ja peilaan sieltä, millaisia haasteita on kohdattu ja miten niitä on yritetty ratkaista. Tämän jälkeen vilkaisen data catalogien periaatteita ja arvolupausta, hyppään hetkeksi vuoteen 2044 ja lopuksi yritän vastata otsikon kysymykseen.

90-luvun tietovarastoinnista tekoälyyn

Yksityiset ja julkiset organisaatiot ovat yrittäneet saada järjestystä datan aiheuttamaan kaaokseen niin kauan kuin toimintaa on yritetty systemaattisesti ohjata tiedon avulla. 90-luvun loppupuolella yleistyivät relaatiokantapohjaiset tietovarastot, joita hyödynnettiin raportointityökaluilla. Tiedon louhinta (data mining) oli tuolloin mm. tilastotieteilijöiden, aktuaarien ja tutkijoiden lempimenetelmä tiedon analysointiin.

Tietovarastojen kehitysprojektit törmäsivät ongelmiin, kun tietoa piti yhdistää eri lähteistä. Datan tekninen synkronointi oli vielä suhteellisen suoraviivaista, kun esimerkiksi asiakasyrityksen nimi oli taloushallinnon järjestelmässä 20 merkkiä ja toimitusjärjestelmässä 30 merkkiä pitkä. Ongelman ratkaisuun käytettiin tietovarastojen lataukseen kehitettyjä ETL-työkaluja (Extract, Transform and Load), joilla sekä tiedon yhdistely että muokkaus sujuivat helposti. Aiemmin käytettyyn koodaukseen verrattuna ETL-työkalut olivat joustavia ja helppokäyttöisiä, minkä vuoksi niillä tehtiin yhä monimutkaisempia operaatioita. Tyypillisessä tietovarastoprojektissa ETL-toteutus ylsi hallitsevaksi työllistäjäksi. Monet asiakkaat ovat arvioineet sen osuudeksi 80 % koko työstä.

Tietovaraston latauksessa teknistä yhdistelyä vaikeampaa oli hallita sisältöön liittyviä eroja: liiketoiminnan termillä yritysasiakas saattoi jopa olla järjestelmäkohtainen merkitys. Lisäksi yhteisesti sovittujen asiakas- ja tuote- yms. käsitteiden harmonisointia tarvittiin tietovaraston lisäksi kaikissa tietojärjestelmissä, joissa ne esiintyivät. Tähän kehitettiin ydintiedon hallintajärjestelmä (master data management), jolla toteutettiin liiketoiminnan avainasioille sekä yhteiset käsitteet että näiden integrointi eri järjestelmien välille.

Asiakkaan vaikutusverkoston visualisointi ydintietojärjestelmässä

Ydintiedon kehitysprojektit ovat osoittautuneet haastaviksi erityisesti silloin, kun niiden avulla täytyy pakottaa erilaisia prosesseja ja liiketoimintoja samaan muottiin. Hyvä esimerkki on yksityisasiakkaan osoitteen muuttaminen yrityksessä, jolla on sekä pankki- että vakuutustoimintaa. Pankkiasiakkaan osoitteenmuutos voidaan tietoturvasyistä tehdä vain vahvan tunnistuksen kautta. Uusi osoite voidaan sen jälkeen välittää ydintietojärjestelmän kautta vakuutusjärjestelmään ilman suurempia ongelmia. Vakuutusyksikkö taas vaatii käyttäjäystävällisyyden nimissä, että vakuutusasiakkaan tulee saada muuttaa osoite puhelimitse ilman vahvoja tunnistusmenetelmiä. Tällöin yrityksen tietoturvapäällikkö ei voi hyväksyä, että ydintietojärjestelmä kopioi uuden osoitteen pankkijärjestelmiin vakuutuspuolelle tulleen osoitteenmuutosilmoituksen pohjalta.

Suurten datamäärien (big data) lisäksi erilaiset datatyypit ja -lähteet ovat yleistyneet nopeasti viime vuosina. Yritysten perinteisissä operativiisissa järjestelmissä syntyneen tiedon rinnalle on ilmaantunut muun muassa teksti-, sensori-, kuva- ja äänidataa. Valitettavasti se on harvoin yhtä rakenteista ja helposti tulkittavaa kuin operatiivisten systeemien tapahtumatieto.

Tietoaltaista tekoälyyn

Tietoaltaiden (data lake) tuli ratkaista eri datatyyppien yhdistäminen, mihin relaatiokantoja hyödyntävät tietovarastot eivät kohtuutyöllä kyenneet. Nopeasti tarkasteltuna ihanteellinen ratkaisu oli löytynyt – varsinkin, kun tietoaltaan tekniseksi ratkaisuksi vielä ehdotettiin kaikkien datatyyppien sulatusuuniksi kehitettyä Hadoop-teknologiaa. Hyvin pian huomattiin, että yksinkertaista ja helppoa ratkaisua ei tietoaltaistakaan löytynyt. Ilman kunnollista hallinnointia, metadataa ja käyttöoikeuksia tietoallas rämettyy nopeasti. Sen sijaan tietoallas toimii hyvin referenssiarkkitehtuurina, kun vain muistetaan, että kokonaisuus vaatii kurinalaista hallinnointityötä suoraan suhteessa datan määrään ja monimuotoisuuteen. (Lisätietoa: http://www.redbooks.ibm.com/redpapers/pdfs/redp5486.pdf )

Uudentyyppisen datan sekä sen runsaan tarjonnan lisäksi analysoinnin kysyntää lietsovat tekniikan luomat uudet mahdollisuudet. Tiedon louhinnan rinnalle on syntynyt muun muassa aistien toimintaa matkivia kognitiivisia ratkaisuja tuettuna koneoppimisella. Parhaimmillaan uusista tekniikoista koostetut systeemit muodostavat tekoälyratkaisuja, vaikka ne muistuttavat enemmän hyönteisparvea kuin ihmisen geneeristä älyä ja ratkaisukykyä. Parviäly on senkin vuoksi hyvä vertaus, että jos tekoälyä tutkitaan kooditasolla, ei algoritmeista löydy sen enempää viisautta kuin muurahaisen päästä.

Parviälystä voimaa tekoälyn laskentaan

Syväanalytiikan ja tekoälyn luomien mahdollisuuksien hyödyntämistä varten yrityksiin on syntynyt uusi datatieteilijöiden (data scientist) ammattikunta. Näiden tulisi osata tilastomatematiikkaa, liiketoiminnan tarpeita ja syväanalytiikan uusia työkaluja – mukaan lukien koneoppiminen, kognitiivinen tietojenkäsittely ja muut tekoälyn osa-alueet. Kovista vaatimuksista johtuen datatieteilijöitä etsitään työmarkkinoilta kissojen ja koirien kanssa, mutta kun nämä arvokkaat ammattilaiset saadaan lopulta tietokoneen ääreen, kuluu tuottavan analysointityön sijaan 80 % työajasta datan etsimiseen ja valmisteluun.

Data catalog – uusi lupaus tietoaltaiden pelastamiseksi

Data catalog on uusi ehdokas tietoaltaiden pelastamiseksi ja datatieteilijöiden tehokkuuden parantamiseksi. Toisin kuin dataa varastoivissa ratkaisuissa data catalogeissa tallennetaan nimensä mukaisesti vain luettelo tiedosta ilman varsinaista dataa. Kyseessä on metadata, joka on tekninen ja toiminnallinen kuvaus datasta. Tuotteiden myyjät lupaavat, että data catalog -ratkaisut tarjoavat sekä datatieteilijöille että raporttien tekijöille helpon käyttöliittymän kaikkeen olennaiseen tietoon. Monipuolisimmat ratkaisut lupaavat huolehtia samalla tietoturvasta.

Ovatko data catalogit taas yksi toimimaton patenttiratkaisu tietovarastoinnin ja analysoinnin ikuisiin haasteisiin, vai onko nyt keksitty jotain todella uutta? Arvolupaus ainakin muistuttaa analytiikan historiassa säännöllisin väliajoin lanseerattuja uusia työkaluja (esim. ad hoc -raportointi, OLAP, mittaristot ja visualisointi), joiden avulla tiedon käyttäjien piti tulla riippumattomiksi tietohallinnon jokapäiväisestä tuesta. Data catalog -ratkaisuja on myös ollut markkinoilla pitkään. Miksi markkinoilla on herätty vasta nyt?

Alan pioneerien, kuten IBM:n, ensimmäiset ratkaisut kehitettiin teknisen metadatan näkökulmasta. Liiketoimintaa kuvaavasta sanastosta suunniteltiin puuttuva linkki liiketoiminnan ja tekniikan välille. Ratkaisut heijastivat silti oman aikakautensa tietovarastoinnin kehitysfilosofiaa, koska ne hyödynsivät pääosin rakenteellista dataa.

Viimeisen parin vuoden aikana markkinoille on ilmestynyt data catalog -ratkaisuja, jotka on kehitetty käyttäjien tarpeiden pohjalta. Näissä on käytetty hyväksi uusia ratkaisuja kuten tietolähteiden suosittelut (Netflix), käyttäjien antamat arvostelut ja koneoppimisen hyödyntäminen metadatan luomisessa. Myös uudet tietolähteet (some, IoT, dokumentit jne.) on otettu huomioon. Ratkaisut ovat näyttäviä ja niiden käyttöönoton pitäisi mainoslauseiden mukaan sujua helposti ilman mittavia tietoteknisiä kehitysprojekteja. Lisäksi ne osaavat jalostaa tietoa tekstipohjaisesta lähteestä kuten dokumentista, sähköpostista, chat botista tai asiakaspalautejärjestelmästä.

Data catalogien kehittämisessä ei pidä unohtaa perinteisten ydintietojärjestelmien mahdollisuuksia. Integroidut hybdriratkaisut syöttävät ydintiedon sovittuja ja standardoituja käsitteitä data catalogin metadatan tueksi. Ydintietojärjestelmissä on myös pitkälle kehitettyjä tilastollisia päättelymekanismeja datan laadun parantamiseen, joita voidaan hyödyntää data catalogin itseoppivissa prosesseissa.

Hyppy tulevaisuuteen

On helmikuu 2044 ja ensimmäinen virtuaaliyritys on äskettäin listattu Helsingin pörssiin. Sen strategia, toiminta ja tavoitteet on simuloitu tietomalliin, jonka kaukaisena esikuvana olivat toimialakohtaiset tietovarastoinnin ja sovelluskehityksen tietomallit 25 vuotta aiemmin. Tuoreen yrityksen tietomallin tarkkuustaso, kattavuus, joustavuus ja ajantasaisuus on kuitenkin kehitetty täysin uudelle tasolle.

Malliin on integroitu data catalog, joka osaa automaattisesti tulkita saatavilla olevat tietolähteet ja niiden sisältämän datan soveltuvuuden. Catalog ruokkii edelleen tekoälypohjaisia analysointialgoritmeja, jotka tutkivat avainmuuttujat ja tekevät toimenpide-ehdotuksia yrityksen markkinoinnille, tuotannolle ja logistiikalle. Tarvittaessa analysointirobotit kutsuvat avuksi optimointiratkaisun, joka laskee liiketoimintaprosessien ohjausparametrit uusiksi. Koko prosessi on iteratiivinen siten, että se jatkuvasti oppii ja kehittää itseään. Samalla liiketoiminnan ulkoistamista on käytetty laajalti siten, että myös alihankinverkoston ohjaus on delegoitu mahdollisimman pitkälti virtuaaliyrityksen tekoälylle.

Toki ihmistäkin tarvitaan vielä, ja tekoäly kutsuu yrityksen avainhenkilöitä auttamaan prosessien päätöspisteiden arvovalinnoissa. Erityisesti johtoryhmää tarvitaan eettisissä kysymyksissä, mutta myös markkinoilla tapahtuvien yllättävien muutosten vuoksi. Yrityksen toiminta kasvaa kannattavasti, ja liikevaihto ylitti juuri 300 miljoonan euron vuositason, mutta yrityksen henkilöstö on hieman huolestunut. Koko työvoima, kaikki viisi henkilöä, on huomannut viime aikoina, että tekoäly tarvitsee heitä yhä harvemmin. Itse asiassa tekoäly ehdotti huhtikuun alussa toimitusjohtajalle yt-neuvottelujen aloittamista työntekijöiden vähentyneen tarpeen vuoksi, mutta paljasti pian ehdotuksen aprillipilaksi. Toimitusjohtaja tuumi, että ei ollut ensimmäinen kerta, ja olikohan virhe kehittää mainostensuunnittelualgoritmiin huumorintajua.

Tekoäly voi oppia jopa murjaisemaan vitsin

Mikä olikaan vastaus kysymykseen?

Kovaa ja tylsää työtä vaativassa metadatamaailmassa itseoppiva järjestelmä kuulostaa liian hyvältä ollakseen totta. Onko lopultakin keksitty viisasten kivi, joka itsenäisesti kahlaa läpi kaiken saatavilla olevan tiedon ja poimii sieltä tiedon kultajyvät analysointia varten? Valitettavasti vastaus on ei.

Jos kysymys kuuluukin onko itseoppivista data catalog -järjestelmistä tietoaltaiden pelastajiksi, vastaus on ehkä. Ne helpottavat olennaisesti datatieteilijöiden ja muiden analyytikoiden työtä ja nopeuttavat kehitysprojekteja. Tämän vuoksi data catalog -ratkaisuihin kannattaa ehdottomasti tutustua. Parhaimmillaan ne suodattavat tietoaltaisiin kertyneen datakuonan ja opastavat käyttäjän oikean ja vain hänelle sallitun tiedon äärelle.

Miten IBM:n ratkaisut tukevat tekoälykehitystä?

Tarkoitukseni on kirjoittaa jatko-osa, jossa kerron IBM:n ratkaisujen periaatteista ja miten ne auttavat yritysten ja julkishallinnon organisaatioiden tekoäly- ja analytiikkakehitystä.

Data Catalog -aamiaisseminaari tiistaina 2.4.

Jos olet kiinnostunut näkemään Data Catalog -esityksen englanniksi, osallistu aamiaisseminaariin IBM:n Helsingin toimistolla Munkkiniemessä: https://www-01.ibm.com/events/wwe/grp/grp312.nsf/Registration

 

Lisätietoa:

IBM Watson Knowledge Catalog:
https://www.ibm.com/cloud/watson-knowledge-catalog
https://ibm-dte.mybluemix.net/watson-knowledge-catalog

Avainsanat: data, data catalog, tekoäly

Kommentit