Hopp til hovudinnhald
Nasjonalbiblioteket

OCR-modellar for samiske språk

  • Datasett
  • Allmenn tilgang 

    Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.

    Les meir om tilgangsnivå her

  • Opne data 

    Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Skildring

Dette er ei samling modellar for OCR (optical character recognition) av samiske språk. Desse kan nyttast til å gjenkjenne tekst i bilete av trykt tekst (skanna bøker, magasin, o.l) på nordsamisk, sørsamisk, lulesamisk og inaresamisk.

Meir detaljert informasjon om trening og evaluering av modellane kan du lese i artikkelen 'Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway', se https://arxiv.org/abs/2501.07300.

Samlinga inneheld tre ulike typar modellar: Transkribus-modellar, Tesseract-modellar og TrOCR-modellar.

Sjå dokumentasjonsfila for meir informasjon.

Distribusjonar
1

Namnlaus distribusjon
  • zip
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/100
Direkte nedlasting:
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt
Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang