Debatt

Når det gjelder adgangen til å bruke store språkmodeller, har norske forskere et handicap. I motsetning til sine kolleger i EU og USA, kan de ikke benytte opphavsrettslig beskyttet materiale til å tilpasse modellene uten samtykke.
Forskerne må først innhente tillatelse fra rettighetshaverne til alle de verk som brukes ved tilpasningen. I praksis kan dette være nærmet umulig.
Bakgrunnen for problemstillingen er at forskerne har behov for å tilpasse språkmodellene. Modellene er utviklet for språkforståelse og -generering, ikke for å virke som kunnskapsdatabaser.
Svarene modellene produserer, bygger primært på mønstergjenkjenning. At modellene kan besvare faktaspørsmål, er i stor grad en bieffekt av måten de er trent på. Dette er også årsaken til at modellene kan «hallusinere» og gi uriktige svar.
For å sikre mer presise og etterrettelige svar, ønsker mange forskere å tilpasse modellene. Dette kan for eksempel gjøres ved å etter-trene modellen på relevant faglitteratur eller ved å koble den til en database.
Opphavsrettslig skaper dette utfordringer: Begge løsninger forutsetter nemlig kopiering (eksemplarfremstilling) av beskyttet materiale. Etter gjeldende åndsverklov finnes det ingen hjemler som tillater slik verksbruk.
Tilpasningen av språkmodellene er dermed ulovlig dersom den gjennomføres uten rettighetshavernes tillatelse. Situasjonen vil endres når Stortinget omsider gjennomfører Digitalmarkedsdirektivet, EUs direktiv om opphavsrett i det digitale indre marked, i åndsverkloven.
Arbeidet med implementeringen stoppet opp etter at departementet i 2023 sendte lovforslaget på høring. Direktivet er allerede innført i de øvrige europeiske opphavsrettslovene.
I USA kreves trolig ikke tilsvarende lovregler, ettersom fair use-doktrinen i mange tilfeller gir adgang til å bruke opphavsrettslig beskyttet materiale, også til trening og tilpasning av språkmodeller.
Én metode for å tilpasse språkmodellene, er «fine-tuning». Den generiske modellen etter-trenes da på et spesialisert datasett, for eksempel medisinsk litteratur, slik at svarene blir mer relevante og presise.
For å gjennomføre en slik tilpasning må kildene lagres, bearbeides og brukes aktivt i treningsprosessen. På samme måte som ved utviklingen av den opprinnelige modellen, innebærer fine-tuningen eksemplarfremstilling av opphavsrettslig beskyttet materiale. Uten samtykke eller lovhjemmel representerer dette et rettighetsinngrep.
En annen metode å tilpasse modellen på, er via Retrieval-Augmented Generation (RAG). Her kobles modellen til et dokumentlager eller en database, som den kan hente informasjon fra i sanntid. Basen kan typisk inneholde faglitteratur. Fordelen med RAG er at modellen ikke endres; den utvides kun med tilgang til en strukturert kunnskapsbase.
Også RAG innebærer kopiering, ettersom faglitteraturen må lagres og organiseres i databasen. Dermed oppstår samme opphavsrettslige utfordringer som ved pre-trening og fine-tuning.
Problemet er at Norge ikke har gjennomført Digitalmarkesdirektivet. Direktivet pålegger medlemsstatene å innføre særskilte regler om tekst- og datamining.
Artikkel 3 gir forskningsinstitusjoner og kulturarvsorganisasjoner rett til å bruke opphavsrettslig beskyttet materiale til modelltrening og -tilpasning, så lenge formålet er forskning og materialet er lovlig tilgjengelig. Rettighetshavere kan ikke motsette seg slik verksbruk.
Artikkel 4 åpner også for tekst- og datamining i kommersiell sammenheng, men her kan rettighetshavere reservere seg.
Norge er gjennom EØS-avtalen forpliktet til å implementere direktivet. Danmark, Sverige og øvrige EU-land har for lengst gjennomført reglene i sine opphavsrettslige lover.
Konsekvensene av denne rettslige ulikheten er alvorlige. Mens forskere i EU og USA kan tilpasse språkmodellene til forskningsformål uten hinder av opphavsrett, er norske forskere avskåret fra å gjøre det samme uten samtykke fra rettighetshaverne.
Dersom forskningsinstitusjonene gjennomfører fine-tuning elle etablerer RAG-baser uten rettighetshavernes tillatelse, risikerer de å gjøre opphavsrettslige inngrep. Dette kan utløse erstatningsansvar og i ytterste konsekvens også straffansvar etter åndsverkloven, selv om sistnevnte i praksis sjelden brukes overfor forskningsmiljøer.
Risikoen for økonomisk ansvar og omdømmetap er imidlertid reell.