Hopp til hovudinnhald
Nasjonalbiblioteket

Taggede bokmålstekster fra NBdigital

  • Datasett
  • Allmenn tilgang 

    Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.

    Les meir om tilgangsnivå her

  • Opne data 

    Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Skildring

Dette korpuset inneholder 4.807 morfologisk taggede bokmålstekster fra NBs korpus av tekster som har falt i det fri eller ikke er beskyttet av opphavsrett. Alle tekstene er publisert etter 1960.

Tekstene er blitt automatisk tagget med Oslo-Bergen-taggeren (se http://www.tekstlab.uio.no/obt-ny/), og statistisk disambiguert. Dette skulle tilsi en nøyaktighet på 96,5 %. Samtidig må det tas hensyn til at tekstene er skannet og OCR-lest automatisk (gjennomsnittlig treffsikkerhet for denne samlingen ligger på cirka 90%), slik at nøyaktigheten jevnt over sannsynligvis er betydelig lavere.

Dataene er lagret som en xml-fil per tekst/bok, med en veldig enkel xml-struktur. Se dokumentasjonsfilen for et eksempel.

Distribusjonar
1

Namnlaus distribusjon
  • gtar
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/43
Direkte nedlasting:
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt
Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang