Hopp til hovedinnhold
Nasjonalbiblioteket

N-grammer fra Nasjonalbiblioteket 2026

Distribusjoner 
1
API-er 
0
  • Navnløs distribusjon
    • application/zstd , application/json
    Last ned
Ingen registrerte API-er tilgjengeliggjør dette datasettet.
  • Datasett
  • Allmenn tilgang 

    Offentlig tilgjengelig for alle. Tilgang kan likevel kreve registrering og forespørsel om API-nøkler, så lenge hvem som helst kan be om slik registrering og/eller API-nøkler.

    Les mer om tilgangsnivåer her

  • Åpne data 

    Datasettet er klassifisert som allmenn tilgang og har minst 1 distribusjon med godkjent åpen lisens.

OversiktDistribusjoner og API-er 
1
DetaljerDiskusjoner 
0
RDF

Beskrivelse

Dette datasettet inneholder n-grammer – uni-, bi- og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per mars 2026. N-grammene er laget på basis av et materiale bestående av om lag 685.000 bøker og 4.720.000 avishefter, til sammen ca. 160 milliarder «tokens» (ord og tegnsetting). Filformatet er UTF-8-kodert JSONL, komprimert med den effektive Zstandard-algoritmen.

Innhold Nøklene i JSONL-filene med n-grammer er som følger: – first – det første ordet i n-grammet (i uni-, bi- og trigram) – second – det andre ordet i n-grammet (i bi- og trigram) – third – det tredje ordet i n-grammet (i trigram) – lang – språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå) – freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser – counts – et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i hhv. bok- og avismaterialet. Med disse kan man lett regne ut relativfrekvenser for sammenligning på tvers av år som i NB N-gram. ngram-2026-digibok-metadata.jsonl og ngram-2026-digavis-metadata.jsonl inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Tilrettelegging N-grammene ble ekstrahert fra fulltekstbasene til DH-labben ved Nasjonalbiblioteket (https://www.nb.no/dh-lab/). Følgende frekvenskutt ble gjennomført:

  • unigram (bøker): totalfrekvens på mindre enn fem i delkorpuset for norsk bokmål, mindre enn to i alle andre språk. I tillegg må n-grammet være brukt i mer enn ett år.
  • unigram (aviser): totalfrekvens på mindre enn fem. I tillegg må n-grammet være brukt i mer enn ett år.
  • bigram (bøker og aviser): tilsvarende kuttregler som for unigram. I tillegg ble alle hapax-bigrammer innenfor ett år fjernet.
  • trigram (bøker og aviser): tilsvarende kuttregler som for bigram. Alle hapax-trigrammer innenfor ett år ble fjernet.

Lisens Dataene stilles til disposisjon som CC-0 (fritt tilgjengelig).


Lignende datasett

Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norsk bokmålNasjonalbiblioteket
Allmenn tilgang
NB N-gramNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang

Kontaktinformasjon

Kontaktpunkt:
Ikke oppgitt
Nettside:
https://www.nb.no/sprakbanken/
E-post:
sprakbanken@nb.no
Telefon:
Ikke oppgitt

Om dataene

Språk:
Ikke oppgitt
Innholdsleverandører:
Ikke oppgitt
Opphav:
Ikke oppgitt
Oppdateringsfrekvens:
Ikke oppgitt
Først utgitt:

Denne datoen sier når dataene i dette datasettet første gang ble utgitt. Det kan ha skjedd før datasettet ble publisert på data.norge.no.

15. mars 2026
Sist oppdatert:
15. juni 2026
Nøyaktighet:
Ikke oppgitt
Tilgjengelighet:
Ikke oppgitt
Kompletthet:
Ikke oppgitt
Aktualitet:
Ikke oppgitt
Relevans:
Ikke oppgitt
Geografisk avgrensning:
Ikke oppgitt
Tidsmessig avgrensning:
Ikke oppgitt
I samsvar med:

Referanse til en implementasjonsregel eller annen spesifikasjon, som ligger til grunn for opprettelsen av datasettet.

Ikke oppgitt

Lovhjemler

Ikke oppgitt

Begreper brukt i datasett

Ikke oppgitt

Referanser

Ikke oppgitt

Gebyr

Ikke oppgitt

Om datasettet

Utgiver:
Nasjonalbiblioteket
Publisert:

Denne datoen sier når datasettet ble høstet av data.norge.no. Det kan ha vært tilgjengelig tidligere andre steder.

Les mer om høsting her

1. juli 2026
Sist oppdatert:
1. juli 2026
Landingsside:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Datasettype:
Ikke oppgitt
Metadatakvalitet:

Metadatakvalitet er en indikator på hvor godt datasettene er beskrevet ved hjelp avmetadata.

Les mer om metadatakvalitet her

URI:

Tema

Nøkkelord

Diskusjoner på Datalandsbyen
0

Ingen diskusjoner funnet

Hva er Datalandsbyen?

Datalandsbyen er vårt nettforum hvor du kan etterspørre data, dele erfaringer og spørre om råd som gjelder datadeling og informasjonsforvaltning.