Hopp til hovedinnhold
Nasjonalbiblioteket

NST N-gram - bokmål

Beskrivelse

N-grammene er laget med utgangspunkt i deler av tekstkorpuset etter Nordisk språkteknologi AS (NST). Datagrunnlaget for materialet er 510 millioner ord løpende tekst.

Materialet er også tilgjengelig som en oversikt over de 1000 mest frekvente n-grammene (n=1-6).

I den komplette versjonen er alle-n-grammene sortert henholdsvis alfabetisk og etter frekvens. Det er også laget frekvenslister over enkeltordene i materialet (unigram).

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/3
Direkte nedlastning:
  1. https://www.nb.no/sbfil/tekst/ngram_nob_avis.tar.gz
    Genererer forhåndsvisning...
  2. https://www.nb.no/sbfil/tekst/ngram_nob_avis_1000.zip
    Genererer forhåndsvisning...
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang