Hopp til hovedinnhold
Nasjonalbiblioteket

N-gram - bokmål

  • Datasett
  • Allmenn tilgang 

    Offentlig tilgjengelig for alle. Tilgang kan likevel kreve registrering og forespørsel om API-nøkler, så lenge hvem som helst kan be om slik registrering og/eller API-nøkler.

    Les mer om tilgangsnivåer her

  • Åpne data 

    Datasettet er klassifisert som allmenn tilgang og har minst 1 distribusjon med godkjent åpen lisens.

Beskrivelse

Disse n-grammene (n=1-6) er laget med utgangspunkt i tekstene i Norsk aviskorpus (24 nettaviser) og nyhetsdelen av tekstkorpuset etter Nordisk språkteknologi AS (NST). Det samlede tekstgrunnlaget for hele materialet er 1175 millioner ord med løpende tekst.

N-grammene er sortert henholdsvis alfabetisk og etter frekvens. Frekvenslister (unigram) er i tillegg publisert separat. En forenklet versjon med en liste over de 1000 mest frekvente n-grammene er også tilgjengelig.

Distribusjoner
1

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
SNOMED CT - engelske termer med oversettelse til bokmål og nynorskNasjonalbiblioteket
Allmenn tilgang
N-gram frå NBdigitalNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Amesto Translations ASNasjonalbiblioteket
Allmenn tilgang