Forskerforum
Hamburgermeny
Forskerforum-logo
Mobilmeny
Forskerforum
Forskerforum-logo

Nyheter | Kunstig intelligens

Språkrådet fant flere språkfeil hos KI-tjenester

Språkrådet har testet språket til fire språkmodeller som ChatGPT og Copilot. De har funnet mange feil, og resultatene er svakest på nynorsk.

Språkrådet fant flere språkfeil hos KI-tjenestene de undersøkte. Foto: Jae C. Hong / AP / NTB.

Publisert 21. november 2025 kl. 13:05

– Vi fant mange språkfeil i tekstene de produserte, flest i tekstene på nynorsk. Feilene omfatter logiske og syntaktiske brister, engelske vendinger og manglende konsekvens i bruk av valgfrie former, skriver Språkrådet i en pressemelding.

De har testet fire KI-verktøy som er eller skal tas i bruk i skolen og offentlig forvaltning:

* ChatGPT 4.5

* Microsoft Copilot

* Le Chat med Mistral pro

* NorMistral-11b-warm-instruct (utviklet ved Universitetet i Oslo)

– Må sette av ressurser

Språkrådet understreker at loven slår fast at offentlige organer skal bruke et klart og korrekt språk.

– Hvis et offentlig organ vil bruke de praterobotene vi har testet, til å produsere tekst fra grunnen av, må de derfor vurdere bruksområdet nøye og sette av nok ressurser til etterarbeid, inkludert kontroll av språk, fakta og kilder, skriver Språkrådet.

De kommer også med flere råd til hvordan bruken bør fungere.

Flere feil

I testen Språkrådet gjorde, ble det generert til sammen 68.635 ord. Hos ChatGPT ble det funnet 1,5 feil per 100 ord på bokmål og 2,6 feil per 100 ord på nynorsk.

Le Chat hadde flest feil både på bokmål (2,2 per 100 ord) og på nynorsk (3,3 per 100 ord).

Copilot og NorMistral hadde færrest feil på bokmål (1,3 per 100 ord). Disse to gjorde det også best på nynorsk, med henholdsvis 2,4 og 2,3 feil per 100 ord.

– En feilprosent på 2,3 tilsvarer om lag én feil for annenhver setning i en typisk sakprosatekst i vårt materiale. Det svarer til minst 8 feil per side, skriver Språkrådet i rapporten.

– Ikke nok til å rangere

Språkrådet understreker at materialet de har undersøkt, ikke er stort nok til å rangere de ulike verktøyene.

– ChatGPT kommer litt dårligere ut i vårt materiale enn Copilot og NorMistral, men forskjellen er ikke signifikant når vi måler robotene mot hverandre direkte.

– Det vi kan slå fast, er at alle de fire robotene gjør mange feil av mange slag, og at Le Chat gjør flest.

Språkrådet kommer ikke med noen råd om hvordan problemene bør håndteres i skolen og den høyere utdanningen.

– Men det er viktig at problemene er kjent og tas på alvor, skriver de.

Hvordan sikre en levelig startlønn? UiB har lagd en modell.

– Tilhengere av særlig uavhengige stillinger gjør seg selv en bjørnetjeneste

Aasland styrker klimaforskning som trues av Trump

Canvas-leverandør ble hacket – har betalt løsepenger

Gikk av som PRIO-direktør etter under ett år

Munchmuseet kutter i forskningsstaben

Meklingen er i gang i lønnsoppgjøret i stat og kommune

– Det er en uheldig signaleffekt, dersom det virker som ikke absolutt alt annet er prøvd

Lukk meny