Tekoäly elvyttää saamea
Aalto-yliopiston tutkijat kehittävät puheentunnistusta ja litterointityökaluja, jotka helpottavat saamen kielten säilymistä ja käyttöä arjessa.

Saamen kielet ovat uhanalaisia, mutta tekoäly voi auttaa elvyttämään niitä. Aalto-yliopiston puheen- ja kielenkäsittelyn professori Mikko Kurimo ryhmineen kehittää pohjoissaamelle puheentunnistusta ja äänitearkistojen litterointityökaluja.
”Meiltä on viime aikoina pyydetty usein, voisiko saamenkielisiä haastatteluäänitteitä saada tekstimuotoon tekoälyn avulla. Litteroimattomia aineistoja on paljon”, Kurimo sanoo.
”Toisaalta jos litterointityökaluja ja muuta tekoälyä ei saada toimimaan saameksi, kielen merkitys vähenee, kun saamen puhujat hoitavat asioitaan sujuvammin englanniksi, suomeksi, norjaksi ja ruotsiksi.”
Ensimmäisenä haasteena ryhmä on tarttunut pohjoissaameen, joka on Suomessa puhutuista saamenkielistä puhujamäärältään selvästi suurin. Silti sitäkin puhuu vain noin 20 000 ihmistä.
Mikko Kurimo”Jos litterointityökaluja ja muuta tekoälyä ei saada toimimaan saameksi, kielen merkitys vähenee, kun saamen puhujat hoitavat asioitaan sujuvammin englanniksi, suomeksi, norjaksi ja ruotsiksi.”
Yhteistyössä Suomen Kansallisen audiovisuaalisen instituutin (Kavi) kanssa Kurimon ryhmä on opettanut suuret suomen, suomenruotsin ja saamen puhemallit radio- ja televisio-ohjelmien avulla.
Saamen mallin opetukseen valittiin 30 000 tuntia ohjelmia 15 viime vuoden ajalta. Vastaavien suomen ja suomenruotsin puhemallien opetukseen valittiin kumpaankin 200 000 tuntia. Kurimon mukaan vain englanniksi on aiemmin tehty puhemalleja näin suurilla yhden kielen aineistoilla.
”Tämä puhemalli oppii rakenteita ja toistuvia kaavoja puheesta itsekseen. Osa puheesta peitetään, ja malli ennustaa puuttuvan osuuden. Näin se yrityksen ja erehdyksen kautta sisäistää kielen sanat ja rakenteen”, Kurimo selittää.
Suuri puhemalli ei silti yksin riitä puheentunnistukseen. Sille pitää vielä litteroidun puheaineiston avulla opettaa, miten puhe kuvataan tekstinä. Näin saadaan puhetta tekstiksi muuntava työkalu.
Litteroituina aineistoina Kurimon ryhmä on käyttänyt saamelaiskäräjien litteroituja kokousäänitteitä.
”Tämä aineisto ei luultavasti kovin hyvin edusta arkista puhetta ja pohjoissaamen murteita. Kunnollisen litterointityökalun opetusta ja testausta varten tarvittaisiin paljon lisää litteroitua puhetta.”
Ensin kaikki alkoi ’naa’, ’nii’ tai ’noo’
Kuten kaikille ChatGPT:tä ja muita keskustelurobotteja kokeilleille on selvää, koneäly tuottaa neroutta mutta myös hassuutta. Niin käy myös litterointityökalujen kehityksessä.
”Aluksi puheentunnistin aloitti kaikki lauseet toteamalla ’naa’. Kun sitten kysyimme asiasta saamen tuntijoilta, niin selvisi, että on tosiaan tavallista aloittaa puhe toteamuksella ’naa’, ’nii’ tai ’noo’. Koska puheen ensimmäistä sanaa on yleensä vaikea arvata ja nämä ovat äänteellisesti lähellä toisiaan, tekoäly oli tulkinnut ne samaksi sanaksi”, Kurimo kertoo.
Aalto-yliopiston tutkijat eivät itse osaa saamea, vaan kielipulmissa heitä auttavat Lapin yliopiston kielitieteilijät.

Oikeastaan koko hanke lähti liikkeelle siitä, että Aallosta pyydettiin apua puheäänitteiden litterointiin puheentunnistuksen avulla. Aaltolaiset kehittivät malliaan kappaleen matkaa, ja kun se osoittautui alustavasti kehityskelpoiseksi, Aalto-yliopiston ja Lapin yliopiston tutkijat tekivät yhdessä hakemuksen Suomen Kulttuurirahastolle.
Helmikuussa heille myönnettiin 200 000 euroa tutkimukseen, joka taltioi ja elvyttää saamen kieltä tekoälyä hyödyntäen ja sitä kehittäen.
Hankkeen aikana puhemallia on tarkoitus opettaa pohjoissaamessaan tarkemmaksi ja vivahteikkaammaksi syöttämällä sille lisää litteroituja aineistoja. Lapin yliopiston tutkijat professori Pigga Keskitalon johdolla tuottavat näitä aineistoja ja he myös tarkkailevat, että puhemallin pohjoissaame todella kehittyy paremmaksi.
Samalle viivalle isojen kielten kanssa
Tutkijat selvittävät mahdollisuuksia laajentaa puheentunnistusta harvinaisemmille Suomessa puhutuille saamen kielille eli inarinsaamelle ja koltansaamelle. Yhteensä näitä puhuu äidinkielenään alle tuhat ihmistä.
Aineistot ovat luonnollisesti hyvin pieniä, mutta pohjoissaamella opetettu malli tarjoaa vetoapua.
”Saamen kielissä on rakenteellisia ja sanastollisia samankaltaisuuksia, joten pohjoissaamen mallilla päästään alkuun. Lisäksi nykyisissä aineistoissa voi olla jo nyt mukana jonkin verran myös harvinaisempia saamen kieliä aivan kuin vaikkapa suomenkielisissä televisio-ohjelmissa puhutaan välillä englantia ja ruotsia”, Kurimo selittää.
Hankkeessa on tarkoitus kehittää oppimistyökaluja, jotta saamen kielestä vieraantuneet tai saamelaiset, jotka eivät kieltä lapsena oppineet, voisivat sitä tietokoneen avulla helposti harjoitella.
Saamen litterointityökalua saatetaan myös kehittää eteenpäin vaikkapa kokousmuistioiden kirjoittajien tai televisio-ohjelmien tekstittäjien avuksi.
”Haluamme saamen tietoteknisesti samalle viivalle isojen kielien kanssa.”
Kurimon ryhmäläiset ovat tietotekniikan tutkijoita, joten heillä on paljon tutkimuksellisia intohimoja, jotka liittyvät tietotekniikkaan sinänsä.
”Haluamme oppia kieliriippumattomasti monia asioita puheentunnistuksen tekniikasta. Silloin tutkimuksemme hyödyttää puhujia muissakin harvinaisissa kielissä, joille ei ole tarjolla kaupallisesti rahoitettuja tekoälytyökaluja.”