Hopp til hovudinnhald
Nasjonalbiblioteket

OCR-modeller for samiske språk

Skildring

Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på nordsamisk, sørsamisk, lulesamisk og inaresamisk.

Mer detaljert informasjon om trening og evaluering av modellene kan du lese i artikkelen 'Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway', se https://arxiv.org/abs/2501.07300.

Samlingen består tre forskjellige typer modeller: Transkribus-modeller, Tesseract-modeller og TrOCR-modeller.

Se dokumentasjonsfilen for mer informasjon.

Distribusjonar
1

Last ned
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/100
Direkte nedlasting:
  1. https://www.nb.no/sbfil/samisk_ocr/samisk_ocr.zip
    Genererer førehandsvising...
  2. https://www.nb.no/sbfil/samisk_ocr/README_no.pdf
    Genererer førehandsvising...
  3. https://www.nb.no/sbfil/samisk_ocr/README_eng.pdf
    Genererer førehandsvising...
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang