Forskerforum
Hamburgermeny
Forskerforum-logo
Mobilmeny
Forskerforum
Forskerforum-logo

Kronikk | Opphavsrett

Tekst- og datautvinning: Forskningsfriheten må ikke hemmes

Når Norge innfører Digitalmarkedsdirektivet i åndsverkloven må man være seg bevisst forskjellen på forskningsbasert tekst- og datautvinning og trening av språkmodeller.

Hvis ikke, kan forskernes behov for å analysere tekst og data bli utilsiktet hemmet. Problemstillingen står på dagsorden for Forskerforbundets opphavsrettskurs i november.

Det er ikke bare viktig, men avgjørende at forskere kan foreta tekst- og datautvinning (TDM) fra opphavsrettslig beskyttet materiale uten å innhente rettighetshavernes samtykke. Forskningen er avhengig av å kunne analysere datamengder. Dersom forskerne må innhente samtykke fra rettighetshavere til det materialet som utvinningen bygger på, blir forskningen umulig.

Formålet med TDM i forskning er å identifisere mønstre og sammenhenger, ikke å frembringe «konkurrerende tekster». Det skader ikke rettighetshavernes interesser om forskerne bruker deres verk til å utvinne mønstre og tendenser. EU vedtok derfor i 2019 et Digitalmarkedsdirektiv som pålegger medlemslandene å innføre unntaksregler i sine opphavsrettslige lover, slik at det bl.a. åpnes for tekst- og datautvinning for forskningsformål.

Digitalmarkedsdirektivet

Når direktivet (DSM-direktivet) blir gjennomført i åndsverkloven, vil også norske forskere kunne foreta tekst- og datautvinning fra beskyttet materiale. Forutsetningen er at utvinningen, i direktivets forstand, utgjør TDM og skjer fra digitale eksemplarer som forskerne har lovlig tilgang til, for analyse- og forskningsformål. Forskerne behøver ikke innhente rettighetshavernes samtykke. Rettighetshaverne vil heller ikke kunne reservere seg, verken ved å oppstille vilkår eller via tekniske tiltak.

For andre aktører enn forsknings- og kulturarvsinstitusjoner, er det etter direktivet bare tillatt å foreta tekst- og datautvinning så lenge rettighetshaverne ikke har reservert seg. Slik reservasjon kan for eksempel gjøres via abonnementsvilkår eller tekniske tiltak. Forutsetningen er også her at utvinningen må medføre TDM i direktivets forstand og skje fra digitale eksemplarer som utvinneren har lovlig tilgang til, for analyseformål.

Opphavsrettslig handicap

Mens mesteparten av EU-landene allerede har innført DSM-direktivet i sine nasjonale lover, henger Norge fortsatt etter. Norske forskere må derfor – fremdeles – innhente rettighetshavernes tillatelse før det kan gjennomføres TDM fra opphavsrettslig beskyttet materiale. Det setter den norske forskningen i en uheldig konkurransesituasjon og hemmer datadrevet forskning.

Det har lenge hastet med å få innarbeidet DSM-direktivet i åndsverkloven. Etter at Kultur- og likestillingsdepartementet sendte ut sitt høringsnotat høsten 2023, har prosessen stoppet opp. Departementets proposisjon er nå varslet å foreligge i løpet av høsten 2025. Det er på tide.

Analyse, ikke reproduksjon

DSM-direktivet definerer tekst- og datautvinning som «enhver automatisert analytisk fremgangsmåte som har til formål å analysere tekst og data i digital form med henblikk på å generere opplysninger, herunder, men ikke begrenset til, mønstre, tendenser og korrelasjoner». Formålet er altså analyse og innsikt, ikke frembringelse av «konkurrerende tekster».

Direktivets bestemmelser i artikkel 3 og 4 retter seg kun mot den analytiske prosessen – ikke mot ulike former for «gjenbruk». Det var således ikke de generative språkmodellene (LLM’ene) som stod i fokus da direktivet ble vedtatt i 2019.

Uheldig sammenblanding

Retten til å foreta verksbruk i forbindelse med «klassisk» tekst- og datautvinning blandes ofte sammen med retten til å foreta verksbruk ved trening og tilpasning av generative språkmodeller. Dette er uheldig. Det er en vesensforskjell mellom klassisk TDM og trening av språkmodeller.

Treningen av språkmodellene har et formål som går vesentlig lenger. Her analyserer og generaliserer systemet strukturer mv. med det til formål å generere tekster som «konkurrerer» med tekstene i datasettet.

Det er derfor ikke gitt at DSM-direktivet – selv om det også antas å omfatte trening av språkmodeller – gir samme rett til å trene språkmodeller som det gjør til å gjennomføre klassisk TDM. Etter som direktivets TDM-hjemler har blitt kraftig utfordret i møtet med de generative språkmodellene, har flere etterspurt en ny versjon av direktivet – ofte referert til som «DSM 2.0» eller «DSM-revisjonen».

Viktig perspektiv

Følgende perspektiv er viktig når Norge gjennomfører DSM-direktivet i åndsverkloven: Dersom man ikke er seg tilstrekkelig bevisst forskjellen på klassisk TDM og språkmodelltrening, kan konsekvensen lett bli at forskernes rett til å foreta klassisk tekst og datautvinning blir utilsiktet innskrenket.

Én ting er om de kommende «TDM-hjemlene» snevres inn for å begrense bruken av opphavsrettslig beskyttet materiale ved språkmodelltrening. En slik praksis kan lettere forsvares ut fra DSM-direktivets formål og språkmodellenes evne til å frembringe «konkurrerende» tekster.

Men noe annet er om de nye TDM-hjemlene vedtas eller tolkes slik at de også begrenser retten til å frembringe generisk informasjon i form av mønstre, tendenser og korrelasjoner. Det vil være alvorlig.

«Menn blir ofte unnskyldt med at de 'er så flinke' dersom de unngår lite meritterende arbeidsoppgaver»

Kunstig intelligens er ikke vår krise, den speiler bare det vi har blitt

Kan KI hjelpe doktorgradskandidater med både gjennomføring og helsen?

Nasjonal sikkerhet viktig, men å diskvalifisere søkere allerede i utlysningsteksten er uakseptabelt

Studentrepresentasjon i klagenemndene hjelper ikke mot svak saksbehandling

Jeg sier ikke at studenter skal droppe pensumboka. Jeg sier de må tenke selv.

Marte Pupe Støyva Stipendiat i Utdanningsvitskap og Humaniora ved Nasjonalt Lesesenter, UiS

Nei, du bør ikkje bruke ChatGPT i staden for pensumboka

Vi beklagar at Nettskjema-diktafon ikkje leverte – automatikk kan svikte

Lukk meny