Hopp til hovedinnhold
Nasjonalbiblioteket

Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk

Beskrivelse

Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage 'rene' linjebilder og tilføre støy ved hjelp av Augraphy.

Teksten i datasettet kommer fra Giellatekno sitt korpus.

Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger.

Se dokumentasjonsfilen for mer informasjon.

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/101
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang