Hopp til hovedinnhold
Nasjonalbiblioteket

Taggede bokmålstekster fra NBdigital

Beskrivelse

Dette korpuset inneholder 4.807 morfologisk taggede bokmålstekster fra NBs korpus av tekster som har falt i det fri eller ikke er beskyttet av opphavsrett. Alle tekstene er publisert etter 1960.

Tekstene er blitt automatisk tagget med Oslo-Bergen-taggeren (se http://www.tekstlab.uio.no/obt-ny/), og statistisk disambiguert. Dette skulle tilsi en nøyaktighet på 96,5 %. Samtidig må det tas hensyn til at tekstene er skannet og OCR-lest automatisk (gjennomsnittlig treffsikkerhet for denne samlingen ligger på cirka 90%), slik at nøyaktigheten jevnt over sannsynligvis er betydelig lavere.

Dataene er lagret som en xml-fil per tekst/bok, med en veldig enkel xml-struktur. Se dokumentasjonsfilen for et eksempel.

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/43
Direkte nedlastning:
  1. https://www.nb.no/sbfil/dok/20160229_nbdig_pos.pdf
    Genererer forhåndsvisning...
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang