Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk

Skildring

Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage 'rene' linjebilder og tilføre støy ved hjelp av Augraphy.

Teksten i datasettet kommer fra Giellatekno sitt korpus.

Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger.

Se dokumentasjonsfilen for mer informasjon.

Distribusjonar
1

Last ned

Skildring:

Ikkje oppgitt

Tilgjengeleg URL:

https://hdl.handle.net/21.11146/101

Direkte nedlasting:

https://www.nb.no/sbfil/samisk_ocr/syntetisk_data/README_eng.pdf
Genererer førehandsvising...
https://www.nb.no/sbfil/samisk_ocr/syntetisk_data/README_nob.pdf
Genererer førehandsvising...
https://www.nb.no/sbfil/samisk_ocr/syntetisk_data/parquet_files.zip
Genererer førehandsvising...

API:

Ikkje oppgitt

Dokumentasjon:

Ikkje oppgitt

Lisens:

https://creativecommons.org/licenses/by/3.0/

I samsvar med:

Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012	Nasjonalbiblioteket	Allmenn tilgang
SCARRIE Leksikon	Nasjonalbiblioteket	Allmenn tilgang
N-grammer fra NBdigital 2021	Nasjonalbiblioteket	Allmenn tilgang
ONOMASTICA uttaleleksikon 2	Nasjonalbiblioteket	Allmenn tilgang
Omsetjingsminne frå Semantix AS	Nasjonalbiblioteket	Allmenn tilgang

Fann du det du leitte etter?

Ta kontakt med oss her, eller spør om hjelp i Datalandsbyen.

Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk

Skildring

Distribusjonar1

Namnlaus distribusjonzip

API-ar som tilbyr dette datasettet0

Liknande datasett

Fann du det du leitte etter?

Distribusjonar
1

API-ar som tilbyr dette datasettet
0