Hoppa yfir valmynd
4. desember 2020 Menningar- og viðskiptaráðuneytið

Tölum við tækin á íslensku: Framvinda máltækniáætlunar stjórnvalda

Máltækniáætlunin miðar að því að íslenska sé notuð á öllum sviðum tölvu- og upplýsingatækni sem varða daglegt líf alls almennings. Í því felst meðal annars að hugbúnaður í tækjum geti skilið og unnið með íslensku líkt og önnur tungumál.

Máltækni felur í sér alla þá tækni sem gerir hugbúnaði kleift að fást við tungumál en framtíð tölvunotkunar verður samofin slíkri tækni. Með aukinni notkun gervigreindar opnast áður óþekktir möguleikar til þess að hagnýta gríðarstór texta-, mál- og upplýsingasöfn.

Lilja Alfreðsdóttir mennta- og menningarmálaráðherra:

„Okkur er sem þjóð umhugað um að íslenskan þróist og dafni á sem flestum sviðum, ekki síst í auknum samskiptum okkar við tölvur og tæki. Það er spennandi að fylgjast með framvindu máltækniáætlunarinnar en með henni leggja stjórnvöld áherslu uppbyggingu innviða, nýsköpun og virkt samstarf þvert á stofnanir og fyrirtæki. Nýjar tæknilausnir munu hjálpa okkur að tryggja stafræna framtíð móðurmálsins.“

Almannarómur er miðstöð um máltækni og hefur yfirumsjón með framkvæmd máltækniáætlunar fyrir hönd ríkisins. Áætlunin er til fimm ára og er samstarfsverkefni á vegum mennta- og menningarmálaráðuneytisins þar sem saman vinna rannsakendur úr háskólasamfélaginu, opinberar stofnanir og frumkvöðlar úr atvinnulífinu. Heildarframlög ríkisins til máltækniáætlunarinnar nema um 1,8 milljörðum kr., þar af renna rúmar 1,3 milljarðar kr. til smíði máltækniinnviða sem verða grunnur nýsköpunar í máltækni.

Forgangsverkefni hafa verið skilgreind og samið um framkvæmd þeirra við rannsóknar- og þróunarhópinn SÍM (Samstarf um íslenska máltækni), til eins árs í senn, sem sl. ár hefur unnið að alls 34 verkefnum. Alls starfa um 50 sérfræðingar í 10 fyrirtækjum, háskólum og stofnunum að máltæknirannsóknum og þróun innan SÍM. Verkefnin eru:


Tal­grein­ir: Hugbúnaður sem breytir töluðu máli í ritmál. Tækniþróun færist í þá átt að við stýrum tækjum með talskipunum, þ.e. með röddinni, í stað þess að nota hendurnar.

Tal­gervill: Hugbúnaður sem breyt­ir rituðum texta í talað mál svo tækin geti bæði svarað okkur og lesið upp texta á sem eðlilegastan hátt.

Vélþýðing: Sjálfvirkar þýðingar milli íslensku og annarra tungumála sem gerðar eru af tölvu. Vélþýðingar flýta fyrir þýðingarstarfi og gera fjölbreyttari texta aðgengilega á íslensku.

Mál­rýn­ir: Hugbúnaður sem aðstoðar alla við að vinna með texta á íslensku, t.d. leiðrétta villur í stafsetningu, málfræði eða orðanotkun.

Málföng: Gagnasöfn og tól sem tengjast og nýtast í vinnu með máltækni fyrir íslensku. Þau eru meðal annars nauðsynleg til þess að greina tungumálið, safna orðforða, finna reglur og mynstur. Nægi­legt magn viðeig­andi gagna og áreiðan­leg stoðtól eru grunn­ur og for­senda allrar þró­un­ar í mál­tækni.


Dæmi um afurðir í máltækniverkefninu:


Á dögunum kom út smáforritið Embla sem reiðir sig á bæði tækni talgreinis og talgervils. Með nýjustu gerð Emblu má spyrja og fá svar við einföldum spurningum, bæði með skriflega og munnlega en vonir standa til þess að hún muni læra að svara fleiri tegundum spurninga og hafa áþekka virkni og sýndaraðstoðarmennin Siri og Google Assistant. Embla er þróuð af sprotafyrirtækinu Miðeind og nýtir afurðir máltækniáætlunar.


Unnið hefur verið að því að uppfæra gagnasafnið RMH sem þegar geymir 1,3 milljarða lesmálsorða úr íslensku. RHM – eða risamálheildin, er notuð í öllum kjarnaverkefnum máltækniáætlunarinnar, og nýtist meðal annars til þess að hugbúnaður geti lært eðlilegt málfar á íslensku.

Safnað hefur verið raddsýnum frá um 11.740 einstaklingum sem tala íslensku í gegnum verkefnið Samrómur, sem er opið raddgagnasafn unnið í samstarfi Almannaróms og Háskólans í Reykjavík. Raddsýnin á að nota til að þjálfa betri talgreina fyrir íslensku en gagnasafnið verður opið til að hver sem er geti notað það til að þróa sínar máltæknilausnir.

Nýr vefur og aðgengi


Ný vefsíða Almannaróms verður opnuð á næstu vikum en þar verður að finna allar útgefnar afurðir máltækniáætlunar, tæknilýsingar vegna framkvæmdar máltækniáætlunar, vörðuskýrslur frá SÍM ásamt fréttasafni úr starfi Almannaróms og SÍM.

Í lok annars verkefnisárs verða gefnar út frumgerðir grunnhugbúnaðar allra forgangsverkefna. Almenningur mun þá til að mynda hafa aðgang að málrýni og vélþýðingum gegnum vefviðmót, íslenskur talgreinir verður gefinn út og frumútgáfur nýrra íslenskra talgervilsradda munu heyrast.

Afurðir máltækniáætlunarinnar, s.s. talgreinar og talgervlar eru opnar svo allir geti samnýtt þau við þróun notendahugbúnaðar. Gengið er frá öllum gögnum á samræmdan hátt, þau stöðluð og persónugreinanlegar upplýsingar fjarlægðar. Gögnin eru síðan vistuð hjá íslensku CLARIN-miðstöðinni sem er vistuð hjá Stofnun Árna Magnússonar í íslenskum fræðum.

Þar eru þau aðgengileg til niðurhals og til leitar. Notendur gagnanna eru m.a. frumkvöðlar og nýsköpunarfyrirtæki, málfræðingar, talmeinafræðingar og sérfræðingar í máltækni, innan lands og erlendis. CLARIN er evrópskt samstarfsverkefni um stafræn málföng sem nota má í rannsóknum í hug- og félagsvísindum og innan máltækni. Markmið með íslensku CLARIN-miðstöðinni er að hún verði tæknileg þjónustumiðstöð fyrir alla þá sem vilja nýta íslensk málföng til frekari þróunar, rannsókna eða nýsköpunar.

 

Efnisorð

Hafa samband

Ábending / fyrirspurn
Ruslvörn
Vinsamlegast svaraðu í tölustöfum