Tekoälyn kehittäminen alusta asti vaatii uuden koneoppimismallin rakentamista ja sen kouluttamista valitulla datalla – sekä usein myös mallin mukauttamista ennalta määriteltyyn tehtävään. Tämä kaikki on kuitenkin kallista etenkin, jos kyse on esimerkiksi isosta kielimallista. Tutkijapiireissä puhutaankin jo suurten kielimallien jälkeisestä aikakaudesta.
”Kehitys pelkästään laskentatehoa lisäämällä on ehkä tullut tiensä päähän. Vaikka laskentaresurssit tuplattaisiin, ei lopputulos enää parane samassa suhteessa kuin tähän saakka”, LUT-yliopiston ohjelmistotekniikan apulaisprofessori Tuukka Ruotsalo toteaa.
Koneoppimismalleja pyritään nyt tehostamaan
Kaikki moderni tekoäly perustuu koneoppimiselle. Siksi tutkimuspiireissä tekoälystä käytetään usein mieluummin nimeä koneoppiminen. Tällä hetkellä esimerkiksi kaikki generatiiviset tekoälypalvelut käyttävät oppimiseen laskennallisia neuroverkkomalleja, jotka ovat yhden tyyppisiä koneoppimismalleja.
”Lisäksi iso osa tekoälyä käyttävistä palveluista on pohjimmiltaan interaktiivisia ohjelmistoja. Tekoälyn toiminta- ja oppimistapa on koodattu ohjelmistoon. Sen myötä ohjelmiston on mahdollista oppia toimimaan ja muuttamaan toimintaansa, minkä se tekee sille syötetyn datan ja ihmisen antaman palautteen pohjalta”, Ruotsalo kertoo.
Tällä hetkellä yksi kiinnostava alue koneoppimismallien kehitystyössä on pienemmät, vähemmän resursseja kuluttavat mallit.
Malleja pyritään kehittämään tehokkaammiksi arvioimalla, miten riittävän hyvään lopputulokseen päästään pienemmällä datamäärällä. Se voi tarkoittaa esimerkiksi olemassa olevien mallien mukauttamista uusiin käyttötarkoituksiin ja suurilla laskentaresursseilla koulutettujen perusmallien käyttämistä uusien mallien pohjana.
Yksi tapa mallien koon pienentämiseen on jo olemassa olevien, suurien ja toiminnaltaan tarkkojen mallien karsiminen, mistä käytetään tutkimuksessa nimitystä pruning. Näin malleja voidaan tehostaa koon rajaamiseksi ilman uudelleenkoulutusta.
”Rahan lisäksi motivaationa on sähkönkulutus. Kun voidaan käyttää olemassa olevia malleja pohjana tai tehdä malleista jo koulutusvaiheessa pienempiä, ne kuluttavat vähemmän energiaa ja niitä voidaan käyttää monipuolisemmin. Mallien pienentäminen mahdollistaa tekoälyn hyödyntämisen laitteissa, joissa laskentateho on rajallinen.”
Tavoitteena tasapuolinen ja läpinäkyvä tekoäly
Toisena kehityssuuntana Ruotsalo nostaa esiin tasapuolisuuden ja selitettävyyden.
Tasapuolisuus eli fairness ei tarkoita pelkästään tekoälyn vääristymien korjaamista, vaan se viittaa myös läpinäkyvyyteen ja mahdollisuuksiimme arvioida mallin toimintaa erilaisissa käyttötapauksissa ja eri yksilöiden ja ryhmien välillä. Olennaista on pystyä selittämään mallin toimintaa ja arvioimaan, millä perusteella se on päätynyt juuri kyseiseen tulokseen.
Tasapuolisuus on tärkeää etenkin käyttökohteissa, joissa miellyttävyyden sijaan haetaan edustavuutta. Aiheen tutkimus sai aikoinaan voimakkaan sysäyksen Yhdysvaltojen oikeusjärjestelmän käyttämän COMPAS-ohjelmiston arvioinnista. Ohjelmisto luokittelee rikoksista syytettyjä sen perusteella, miten todennäköisesti heistä voi tulla rikoksenuusijoita.
”Selitettävyys ja tasapuolisuuden mittaaminen auttavat arvioimaan ja mittaamaan tekoälyohjelmiston luotettavuutta, mikä on monissa sovelluksissa tärkeää – usein jopa tärkeämpää kuin vain näennäisesti tarkat tulokset.”
Ruotsalo itse tutkii tällä hetkellä koneoppimis- ja neuroverkkomallien tehostamista sekä mallien tasapuolisuutta. Lisäksi hänen tutkimuksensa käsittelee ihmisen ja koneen vuorovaikutukseen perustuvia malleja, jotka oppivat ihmisen käyttäytymisestä ja reaktioista.
Ruotsalo tutkii myös näiden mahdollistamia uusia sovelluksia, kuten ihmisen fysiologiaa analysoivia malleja, tiedonhaku- ja suosittelujärjestelmiä sekä mallien selitettävyyttä ja läpinäkyvyyttä ihmisille. LUTin lisäksi hän työskentelee koneoppimisen apulaisprofessorina Kööpenhaminan yliopistossa.
Tulevaisuudessa tekoälyn pitäisi tuntea meidän maailmamme
Kolmas kehityssuunta tutkimuksessa on tekoälyn kehittäminen multimodaaliseksi.
”Monet tutkijat ovat sitä mieltä, että nykyisenlainen mallien kouluttaminen kuvilla, videolla ja tekstillä ei riitä älykkyyteen, johon pyritään. Mukaan pitäisi saada enemmän dataa fyysisestä maailmasta.”
Ruotsalon mukaan kysymystä voi ajatella sen kautta, miten paljon maailmasta voi tietää ja sen toimintaa ennakoida, jos ainoa tapa sen havainnointiin on internetin selaaminen.
“Robotiikassa ja esimerkiksi itseajavissa autoissa multimodaalisia signaaleja pyritään jo hyödyntämään, mutta lopulta nekin perustuvat kulloinkin käytössä olevilla sensoreilla mitattuun rajattuun dataan. Siksi ihan yksinkertaisissakin tehtävissä huomaa, että mallit eivät vielä ymmärrä riittävästi meidän fyysisestä todellisuudestamme.”
Kehitys etenee kuitenkin myös tällä saralla vauhdikkaasti. Tulevaisuudessa voi olla, että kehittyneet mallit pystyvät käsittelemään monenlaisia signaaleja erilaisista sensoreista – mukaan lukien dataa, joka auttaa niitä analysoimaan ja ymmärtämään ihmisen aistikokemuksia.
Lisätietoja: