Kan ein norsk ChatGPT redde fagspråket?

Snart kjem regjeringas handlingsplan for norsk fagspråk. Mange er spente på kva som vil stå om språkteknologi.

NTNUs KI-studentar genererte eit van Gogh-aktig måleri av statsminister Jonas Gahr Støre då han vitja NTNU for å sparke i gang arbeidet med ny nasjonal digitaliseringsstrategi. Foto: Tore Oksholen/Universitetsavisa

Av Kjerstin Gjengedal
Publisert 7. juni 2023 kl. 11:34

Medan debatten om språk i akademia ofte har handla om vitskapleg publisering, eller om tilbod om språkopplæring for internasjonalt tilsette, peikar no fleire på utfordringa språkteknologi kan representere for det norske fagspråket.

– Alle forstår at dette vil bli viktig, men ingen veit heilt korleis, seier Johan Myking, professor emeritus ved Universitetet i Bergen (UiB) og medlem av Nemnda for Norsk Ordbok, som ligg hos UiB.

Fakta

Språk i akademia:
Ifølgje Hurdalsplattforma vil regjeringa sørgje for at norsk språk blir løfta fram i høgare utdanning og forsking.

Kunnskapsdepartementet har varsla at ein handlingsplan for norsk fagspråk blir lagt fram før sommaren.

Mange aktørar i sektoren har levert skriftlege innspel til handlingsplanen.

Då Kunnskapsdepartementet ba om innspel til handlingsplanen, var nemnda for Norsk Ordbok ein av fleire instansar som peika på utfordringane ved digitalisering og kunstig intelligens i sitt svar. Nemnda skriv mellom anna: «At KI-reiskapar som ChatGPT, Nynorskroboten og anna kan laga tekstframlegg som ser rimeleg feilfrie ut, kan vera ei hjelp for den som skal skriva på eit språk han eller ho ikkje kan, men det overordna må vera at ein har kontroll på sanningsinnhaldet i teksten.»

Les også:
1 av 3 vil gjerne skrive mer på norsk. Dette hindrer dem.

UHR: – Kan ikkje berre overlate oppgåva til KI

Også Universitets- og høgskolerådet nemner språkteknologi og digitalisering i sitt innspel, og ber om at handlingsplanen tek omsyn til moglegheiter og utfordringar ved digitaliseringa. Styreleiar Sunniva Whittaker utdjuper:

– Språkmodellar som ChatGPT nyttar store mengder tekst, men det meste er på engelsk og blir omsett. Dersom ein overlet til ein slik modell å foreslå fagtermer på norsk, så misser ein kvalitetssikringa. Vi treng større medvit om at faguttrykk bør utviklast av fagpersonar på feltet.

– Vil det seie at det viktigaste tiltaket er meir satsing på terminologiarbeid?

– Det vil vere eit verkemiddel. Det er lett å seie at løysinga er meir pengar til utvikling av fagspråk, men det er også viktig å vere meir merksam på konsekvensane av å overlate denne oppgåva til kunstig intelligens, seier Whittaker.

Kontroll med kva som er sant

Nemnda for norsk ordbok minner i innspelet sitt på at det ikkje er tilstrekkeleg at ein forskartekst ser grei ut språkleg. Ein må kunne lite på at det som står der, høyrer heime innanfor faget og representerer noko fagfolk er samde om at er sant.

– Språkmodellane fungerer på den måten at dei tek tak i tekst som allereie er laga, tygg på det og spyttar ut noko som gjev meining. For kvar slik operasjon, fjernar du deg frå instansen som ein gong genererte tankane. Men det er mennesket som må stå i sentrum for kunnskapsutvikling, seier Myking.

Les også:
Dei som lagar fagspråket

– Frå vår synsvinkel er det essensielt med godt, kvalitetskontrollert terminologiarbeid. Ein kan ikkje berre be ein språkmodell om å omsetje frå engelsk til norsk, det må vere menneske som har kontroll og styring, og der kan offentlege styresmakter ta eit spesielt ansvar. Så kan spreiinga av uttrykka skje på mange ulike måtar.

Volda: Kva fôrar vi språkmodellane med?

Høgskulen i Volda trekk fram i sitt innspel at det er viktig at dei nye språkmodellane som ChatGPT har godt norsk fagspråk å byggje på.

– Alle som har leika seg med ChatGPT har vel erfaring for at resultata kan vere litt tvilsame, og det handlar om kva modellen er fôra med, seier rektor Johan Roppen.

– Eg er uroa for at berre eitt fagområde, IT, skal dominere denne utviklinga og at språk berre blir eit støttehjul og ikkje sjølve hovudpoenget. Men poenget må jo vere kva som kjem ut.

Roppen viser til at medan vi ventar på handlingsplanen, så har regjeringa nettopp sparka i gong arbeidet med ein nasjonal strategi for digitalisering, inkludert kunstig intelligens. Det skjedde ved NTNU, der statsminister Jonas Gahr Støre mellom anna fekk høyre om deira forsking på kunstig intelligens.

– Kva fôrar NTNU sin språkmodell med? Skal du ha ein nasjonal strategi, må du også ha nasjonale ressursar og ein politikk for det som skal skje. Her får vi håpe at styresmaktene hugsar på at dette er ei utvikling vi ønskjer å ha styring på, seier Roppen.

Redninga frå NTNU?

Den norske språkmodellen det her er snakk om, blir akkurat no utvikla ved The Norwegian Research Center for AI Innovation (NorwAI), som held hus ved NTNU, men er eit samarbeid med universiteta i Stavanger og Oslo, Norsk regnesentral, Sintef og ei rekkje industripartnerar. Ifølgje Universitetsavisa er språkmodellen ikkje eit trugsmål, men snarare redninga for det norske språket.

Men på kva måte kan ein chatterobot styrke norsk fagspråk?

– Det er eit godt spørsmål, seier NTNU-professor og direktør for NorwAI, Jon Atle Gulla.

– Ein ting han kan brukast til, er omsetjing mellom målformer. Vi brukar han også til å lage samandrag som gjev oversyn over til dømes ei bok eller eit artikkelsett. Modellen kan til dømes ta for seg alle publiserte avisartiklar om Ukraina dei siste to vekene, og gje deg ei oversikt. Det er typiske bruksområde.

Kan sjå ord i kontekst

– Men utvikling av fagspråk handlar gjerne om å finne nye ord. Kan ein språkmodell hjelpe med det?

– Nye ord er vanskelege for oss på alle plan. Språkmodellen er ikkje i stand til å foreslå nye fagtermer. Han tek inn alle ord han kjem over, og reknar på sannsynlegheiten for at dei kan brukast. Det vil seie at han må ha tilgang til tekstar der dei nye orda blir brukt, seier Gulla.

Derimot kan ein tenkje seg at modellen kan vere til hjelp på andre måtar. Sei til dømes at du treng ei forklaring på den engelske fagtermen X:

– Då kan du foreslå eit norsk ord, og så be modellen forklare ordet tilsvarande det engelske X, fortell Gulla.

Modellen kan også hjelpe med å rydde i fleirtydige ord og termar, fordi utrekningane er basert på samanhengar mellom ord.

– Alle ord som har fleire tydingar, vil samle seg i ulike klynger avhengig av kontekst. Slår vi opp eit ord i ein språkmodell, må vi vite kva kontekst vi er interesserte i. Ordet «ris» vil få ulike forklaringar avhengig om ein er interessert i maten eller avstraffingsmetoden. Det er litt av grunnen til at språkmodellane fungerer så godt til omsetjing: At orda alltid står i ein kontekst, seier Gulla.

Les også:
Kunstig intelligens kan endre alt, også forskeryrket

Verktøykasse for alle

Akkurat no ligg den norske språkmodellen i trening på NTNU si superdatamaskin. Tekstane han fordøyer, kjem for ein stor del frå det opne nettet, til dømes heile det norskspråklege Wikipedia, ifølgje Gulla. I tillegg hentar dei mykje frå Nasjonalbiblioteket og aviser, og ein del frå sosiale medium «for å få inn litt meir munnleg språk».

– Men når modellen er ferdig, satsar vi for fullt på å lage ei kasse med verktøy som skal vere tilgjengeleg for heile det norske samfunnet.

Les også:

– Vi har ikke noen god, norsk term for ‘research literacy’

Ledig stilling

Se alle stillinger

Mest lest

Kan ein norsk ChatGPT redde fagspråket?

Snart kjem regjeringas handlingsplan for norsk fagspråk. Mange er spente på kva som vil stå om språkteknologi.

UHR: – Kan ikkje berre overlate oppgåva til KI

Kontroll med kva som er sant

Volda: Kva fôrar vi språkmodellane med?

Redninga frå NTNU?

Kan sjå ord i kontekst

Verktøykasse for alle

Ledig stilling

Mest lest

Her kan det bli streik neste fredag

Forskningsbudsjettet krympes med over en halv milliard kroner

Akademisk skriving er fullt av uskrevne regler. Liza Reisel sitter på oppskiften.

UiT-ansatt etterforskes for mulig millionsvindel

Hvordan sikre en levelig startlønn? UiB har lagd en modell.

– Tilhengere av særlig uavhengige stillinger gjør seg selv en bjørnetjeneste

Aasland styrker klimaforskning som trues av Trump

Canvas-leverandør ble hacket – har betalt løsepenger