Ennen kuin aletaan tutkimaan tekoälyä ja muita maailman ihmeitä, käydään läpi muutama aihetta sivuava termi ja teknologia. Yritän selittää ne yksinkertaisesti. Mutta jos joku nurkka menee liian suoraksi tai vieläkin vaikuttaa sekavalta, niin sori siitä! Iso osa näistä teknologioista on ollut käytössä jo pitkään, mutta tekoälybuumi on nostanut ne nyt yleiseen tietoon.
Tekoäly (Artificial Intelligence, lyhennettynä AI). Tätä jo valotin edellisessä blogissani. Se on kuin tietokoneohjelma, joka on suunniteltu ajattelemaan ja oppimaan samalla tavalla kuin ihmiset tekevät. Se voi tehdä päätöksiä, ymmärtää kieltä, tunnistaa kuvia ja jopa luoda uutta sisältöä, kuten tekstiä tai kuvia, oppiessaan erilaisista tiedoista ja kokemuksista. Se eroaa ohjelmasta siten, että ohjelma tekee vain niitä asioita ja siten, kuin se on ohjelmoitu tekemään. Tekoäly on kuitenkin oikeasti tilasto- ja todennäköisyyslaskentaan pohjaava systeemi, ja vaatii toimiakseen suuren määrän sille syötettyä dataa.
Kielimalli (Language Model). Kielimalli on kehittynyt tekoälyn malli, joka ymmärtää ja pystyy tuottamaan ihmiskieltä. Esimerkkejä kielimalleista ovat ChatGPT ja Googlen Gemini. Kielimalli on opetettu syöttämällä siihen valtavia tekstimassoja, jotkut voivat myös tehdä nettihakuja. Kielimalli osaa ennustaa, miten sanat ja lauseet tyypillisesti liittyvät toisiinsa. Sen tuottama teksti pohjaa kuitenkin todennäköisyyslaskentaan eikä ihmismäiseen ajatteluun. Kielimalli voi siksi paitsi luoda hyvää asiatekstiä, myös hallusinoida eli suoltaa aidolta näyttävää, mutta täysin virheellistä ja jopa absurdia tekstiä.
Kuvageneraattori (Image Generator). Kuvageneraattori toimii kielimallin tavoin mutta luo kuvia ja visuaalisia sisältöjä tekstin tai muiden syötteiden, promptien, pohjalta. Esimerkkejä kuvageneraattoreista ovat Dall-e, Midjourney ja Stable Diffusion. Kuvageneraattorit on kielimalleista poiketen koulutettu syöttämällä niihin valtavia kuvamääriä, ja osa niistä pystyy tekemään myös nettihakuja.
Koneoppiminen (Machine Learning, ML). Koneoppiminen on tekoälyn osa-alue, jossa sovellukset oppivat asioita, enemmän ja vähemmän itsenäisesti, niihin syötetyn tai niiden hakeman aineiston pohjalta. Vaikka näyttämällä niille lukemattomia kuvia kissoista ja koirista, samalla kertoen ”tämä on kissa” ja ”tämä on koira”. Lopulta tekoäly alkaa hahmottamaan niiden eron. Aika monet meistä on tietämättään opettanut tekoälyä esim vastaamalla nettisivuilla ”valitse kaikki kuvat, joissa näkyy suojatie” -tyyppisiin tehtäviin.
Konenäkö (Machine Vision). Tietokoneen kyky tulkita visuaalista materiaalia (kuvia, videota, grafiikkaa jne) ja muuttaa se analysoitavaksi dataksi. Esimerkkejä tästä on kasvojen tunnistus, kuittien tai dokumenttien sisällön lukeminen, kasvien tunnistusapit tai vaikka automaattinen hitsaussaumojen tarkastus. Konenäön ei tarvitse pohjata näkyvään valoon, vaan se voi toimia myös vaikka laserin avulla.
Puheentunnistus (Automatic Speech Recognition, ASR) ja konekuulo (Computer Audition). Tietokoneen kyky kuulla ja tulkita ihmisen puhetta ja/tai muuta ääntä. Tämä on hyvin tärkeä osa virtuaaliavustajien toimintaa, palaan tähän aiheeseen myöhemmin. Muita esimerkkejä ovat eläinten äänten analysointi, mekaanisten vikojen etsintä tai vaikka avaruusteleskooppien keräämien radiosignaalien tulkinta.
Tekstistä puheeksi (Text To Speech, TTS) ja neuraaliääni (Neural Voice). Puhuva tietokone tai robotti on kuulunut pitkään sci-fi maailmaan (esim Ritari Ässän KITT), mutta tunnetuin varhainen oikea esimerkki lienee Stephen Hawkingin puhesyntetisaattori. Uudempia esimerkkejä ovat Applen Siri ja Ylen alueuutisten säätietojen ”lukija”. Nykyiset tekoälyllä koulutetut synteettiset äänet ovat hyvin aidon kuuloisia, mikä mahdollistaa niiden käytön mitä erilaisimmissa sovelluksissa. Valitettavasti myös monissa huijauksissa ja rikollisessa toiminnassa. Tähänkin palaan myöhemmin.
Promptaus (Prompting) Promptaus tarkoittaa sellaisen ohjeen antamista tekoälylle, joka ohjaa sitä tuottamaan halutun vastauksen tai sisällön. Se liittyy erityisesti generatiiviseen eli luovaan tekoälyyn, sekä kielimalleihin. Esimerkkeinä ”Kirjoita yhden kappaleen mittainen helppotajuinen kuvaus tekoälystä” tai ”piirrä 10-vuotias suomalaistyttö niityllä keräämässä päivänkakkaroita”. Promptauksesta on tullut oma tieteen- tai taiteenlajinsa, palaan siihenkin tuonnempana.
Ennakkoasenne tai vääristymä (Bias). Varsinkin generatiivisen tekoälyn yksi haaste on stereotyyppiset sukupuoli- ja etniset roolit. Tekoälyhän tekee vain niin hyviä tuloksia kuin minkä tasoista sen koulutukseen käytetty materiaali on ollut. Erityisesti kuvageneraattorit ovat saaneet kritiikkiä niiden asenteellisuudesta: Johtavissa asemissa olevat on kuvattu valkoisina miehinä, rikolliset värillisinä. Ihmiset kuvataan edelleen pääsääntöisesti nuorina, hoikkina ja hyvännäköisinä – naiset usein isorintaisina. Koska tekoäly-yritykset ovat pääsääntöisesti amerikkalaisia, niiden koulutusaineisto ja näkökulma heijastaa usein länsimaalaista teknokraattista maailmankuvaa.
Otan mielelläni vastaan kommentteja, kysymyksiä ja kritiikkiä. Itse olen ollut tällä tutustumismatkalla siitä alkaen kun 2019 aloitin Applella, eli mikään huippuasiantuntija en ole. Mutta jonkinlainen käsitys on syntynyt jo siitä, mikä on totta ja mikä toiveunta – ja mihin ehkä ollaan pitkässä juoksussa matkalla.
Juha Pihanen