Hopp til hovedinnhold
Nasjonalbiblioteket

OCR-modeller for samiske språk

Beskrivelse

Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på nordsamisk, sørsamisk, lulesamisk og inaresamisk.

Mer detaljert informasjon om trening og evaluering av modellene kan du lese i artikkelen 'Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway', se https://arxiv.org/abs/2501.07300.

Samlingen består tre forskjellige typer modeller: Transkribus-modeller, Tesseract-modeller og TrOCR-modeller.

Se dokumentasjonsfilen for mer informasjon.

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/100
Direkte nedlastning:
  1. https://www.nb.no/sbfil/samisk_ocr/README_no.pdf
    Genererer forhåndsvisning...
  2. https://www.nb.no/sbfil/samisk_ocr/README_eng.pdf
    Genererer forhåndsvisning...
  3. https://www.nb.no/sbfil/samisk_ocr/samisk_ocr.zip
    Genererer forhåndsvisning...
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang