Forskerforum
Hamburgermeny
Forskerforum-logo
Mobilmeny
Forskerforum
Forskerforum-logo

Nasjonalbiblioteket lærer maskinen å tyde handskrift

Å tolke gamle handskrifter kan være krevjande. Ved Nasjonalbiblioteket er det datamaskinen som gjer jobben.

Då den 17-årige Sigrid Undset skulle sende postkort frå Roskilde til mor si, fekk ho ikkje plass på eitt kort, så ho måtte sende to. Foto: Erik Norrud

Den digitale utviklinga innan maskinlæring går i rasande fart, også ved Nasjonalbiblioteket.

– Ved hjelp av kunstig intelligens trener vi opp datamaskinen til å kjenne att gamle handskrifter. Dette er ei stor satsing hjå oss no, seier forskingsbibliotekar Yngvil Beyer. Ho er koordinator for eit treårig forskingsprosjekt om digital handskriftattkjenning ved Nasjonalbiblioteket i Oslo. Beyer har også koordineringsansvar for arbeidet med språkteknologi ved biblioteket, og i dag skal Forskerforum få sjå korleis gamle handskrivne brev skal bli del av den søkbare verda.

– Vi ønskjer å gjere handskrive materiale meir tilgjengeleg for forsking. I dag er ein avhengig av ein katalog der brev og manuskript er skildra med enkle metadata. Men ved handskriftattkjenning kan ein søke direkte i heile teksten, forklarer Beyer.

Ville søke i handskrivne brev

Nasjonalbiblioteket har jobba med digitalisering av trykte bøker, aviser og tidsskrift heilt sidan 2005. I dag er så godt som heile samlinga på 600 000 bøker digitalisert. Dessutan er 4,5 millionar aviser digitaliserte, noko som utgjer om lag halvparten av alle avisene i biblioteket.

– Vi har også ei stor samling med private arkiv som blir ein del brukt, og dette materialet er veldig skjørt. Så di sjeldnare vi treng å ta dette fram, di betre. Difor begynte vi å fotografere av ein del materiale og legge det ut på nettsidene. Der kan ein til dømes søke i katalogen over brevsamlingane til Camilla Collett og finne ut kven ho skreiv brev til. Ein kan også sjå eit bilete av brevet, fortel Beyer.

Men ved Nasjonalbiblioteket ønskte dei å gå vidare. Saman med kollega Andre Kåsen, som er språkteknolog ved biblioteket, begynte Beyer å jobbe med såkalla treningsdata, for å trene opp datamaskinen til å kjenne att handskrifter på norsk. Målet har vore å kunne søke direkte i handskrive materiale, slik ein kan med trykte bøker og aviser.

– Vi såg at det var mogleg å gjere handskrifter søkbare, men det ville krevje meir forsking. Difor tok vi kontakt med Høgskolen i Østfold, som har ekspertise på biletanalyse.

Saman med høgskulen søkte Nasjonalbiblioteket om støtte frå Forskingsrådet, og i 2021 fekk dei 12 millionar til prosjektet om handskriftattkjenning.

– Det spesielle er at vi nyttar den nye teknologien på historisk materiale med gammaldags språk, seier Yngvil Beyer og Andre Kåsen.

Maskinen må både sjå og lese

I eit rom i Spesiallesesalen har bibliotekarane funne fram bunkar av brev, postkort og manus skrivne av Sigrid Undset. Eit postkort frå Roskilde frå 17-årige Undset til mor hennar er skrive på toget til København. Og teksten, som kanskje er raskt rabla ned, er ikkje lett å tyde. I alle fall må ein bruke tid. Så korleis kan ein datamaskin greie dette?

Andre Kåsen forklarer at systemet bygger på den same teknologien som mange andre former for maskinlæring.

– Det spesielle i dette prosjektet er at vi kombinerer to intelligensar: éin maskin som kan sjå, og éin som kan lese. Dette gjer innlæringa meir kompleks. Maskinen må sjå biletet av bokstaven og i tillegg ha kunnskap om bokstavkombinasjonane for å finne ut kva som mest sannsynleg står der. Så det vi utviklar her, er ein kombinasjon av bilet- og tekstattkjenning.

Han fortel at Høgskulen i Østfold særleg jobbar med å utvikle algoritmar eller oppskrifter for biletattkjenning.

– Kva er til dømes relevant for at maskinen skal lære å kjenne att ulike variantar av ein s? seier Kåsen.

Lærer teknologien norsk

Beyer fortel at Nasjonalbiblioteket også samarbeider med det franske firmaet Teklia, der dei er ekspertar på tekstattkjenning. Men dei kan ikkje norsk språk.

– Det er her språkteknologien kjem inn. For datamaskinen må få nok informasjon om det norske språket og kva for bokstavkombinasjonar som oftast opptrer saman. Difor må vi utvikle eigne modellar for norsk språk, fordi språket er så forskjellig frå fransk, tysk og engelsk. Nasjonalbibliotekets bidrag i prosjektet er at vi kan ganske mykje om språkteknologi på norsk, seier ho.

Noko av det første forskingsbibliotekarane gjekk laus på, var ein stor bunke brev av biletkunstnaren Harriet Backer.

– Då vi øvde opp datamaskinen til å forstå skrifta til Harriet Backer, transkriberte vi først 50 brev og sende dataa gjennom programvara. Då fekk vi ut ein modell som kunne brukast til å kjenne att dei 450 breva vi ikkje hadde transkribert. Etter å ha lært opp programmet til å forstå visse handskrifter, er det datamaskinen som transkriberer. I nokre tilfelle må vi rette litt opp i teksten, men alt går veldig mykje raskare, seier Beyer.

Brevet frå Sigrid Undset til Andrea Forsberg (Dea) frå 1899 ligg søkbart på PC-en. Nede til høgre ser vi dei sju første linjene av det transkriberte brevet.

Trener opp handskriftmodell

Førebels er datamaskinen øvd opp til å tolke handskrifta til spesielle kunstnarar og forfattarar, som til dømes Harriet Backer, Camilla Collett, Sigrid Undset og Amalie Skram.

– Men etter kvart som vi får handskrifta til mange nok personar inn i systemet, er målet å lage ein generell modell for norsk handskrift. Så no trenar vi opp ein modell som skal kunne kjenne att handskrifter som maskinen ikkje har sett før eller øvd seg på.

I første omgang har forskarane konsentrert seg om handskrifter frå slutten av 1800-talet og første halvdel av 1900-talet, som er enklast å lese og kjenne att.

– Men målet er å kunne utvikle og bruke modellane på alle handskrifter i heile samlinga vår, i alle fall tilbake til 1700-talet. Skrift frå 1600-talet ser heilt annleis ut, og frå den perioden har vi svært lite materiale, seier Beyer.

Ho seier prosjektet førebels er i ein tidleg fase, men teknologien er allereie i bruk.

– Vi legg ut resultata på nettsidene våre, samtidig som vi utviklar nye løysingar.

Breva til Backer og Munch

Beyer viser på PC-en korleis ein kan utføre eit fulltekstsøk direkte i breva til Undset.

– Vi har laga ein funksjon på nettsidene der ein i tillegg til biletet av brevet får opp teksten i maskinskrift. Dette er meint som lesestøtte for handskrifter som er vanskelege å tolke, seier ho.

Nasjonalmuseet, som til hausten opnar ei ny utstilling om Harriet Backer, er blant dei første som har teke systemet i bruk.

– Ein kan til dømes finne ut når Backer bestemte seg for å måle Stange kyrkje. Om alle breva er digitaliserte og skrifta blir attkjend, vil alle brevsider der Stange er nemnd, kome opp.

Forskarane samarbeider også med Munchmuseet, som har jobba mykje med breva til Edvard Munch.

– Vi har fått tilgang til ferdig transkriberte brev av Munch som vi kan bruke direkte i prosjektet. Det same gjeld breva til Henrik Ibsen.

Biblioteket jobbar også med maskinskrift. Biletet syner ein detalj av ein tale som Sigrid Undset skreiv under krigen, publisert i Nordisk Tidende 2. des. 1943.

Prosjekt til nytte for andre

Både forskarar og bibliotekbrukarar vil kunne ha nytte av systemet som no blir utvikla.

– Vi lagar maskinlæringsmodellar som andre bibliotek kan få nytte seg av. Vi held også kurs for folk som er interesserte i korleis dei sjølve kan bruke programmet til å kjenne att handskriven tekst, fortel forskingsbibliotekarane.

Dei meiner prosjektet er svært viktig i ei tid der stadig færre kan lese handskrift.

– Men uansett kor flink ein er til å tolke gamle handskrifter, greier ein ikkje å lese gjennom så mykje og så raskt som ein datamaskin, seier Kåsen.

Og di lenger bakover i tid ein går, di vanskelegare er det å tyde kva som står.

– Eg trur ein skal ha lese ganske mykje handskrift for å forstå skrifta til Camilla Collett. Ho var ein av dei som brukte gotiske bokstavar langt utpå 1800-talet, fortel han.

– Det same gjeld skrift frå 1700-talet. Det var ikkje berre språket som var annleis, men også forma på bokstavane.

– Vi ønskjer å gjere handskrivne brev og dagbøker meir tilgjengelege for forsking ved at det blir lett å søke i dei, seier Yngvil Beyer og Andre Kåsen.

Handskrifta endrar seg

Beyer viser fram ei dagbok skriven av Petronelle Nielsen, som var fødd i 1797.

– Dagbøkene hennar vart ein del av Noregs dokumentarv i samband med skeivt kulturår i fjor. Nielsen var den første norske kvinna vi kjenner til som skreiv om kjærleik mellom to kvinner. Vi har studert dagboksband frå ho var i 20-åra, og reisedagbøker frå seinare i livet. Ser vi på dei siste sidene i reisedagboka, har skrifta endra seg ganske mykje. Då var ho nærare 90 år.

Så det er ikkje alltid så lett å kjenne att handskrifta til ein forfattar.

– Ei handskrift utviklar seg gjerne gjennom livet.

Professor vil ha meir forsking på korleis vi kan slutte å øydeleggje verda

Akademisk sjølvforsvar

Rocker fortsatt på laben

Blikket utenfra

Kor mykje data er nok?

Bak tallene er det fortellinger

Etter doktorgraden

Jakta på Twitter-kjensla

Lukk meny