Hopp til hovudinnhald
Nasjonalbiblioteket

N-grammer fra NBdigital 2022

Distribusjonar 
1
API-ar 
0
Ingen registrerte API-ar tilbyr dette datasettet.
  • Datasett
  • Allmenn tilgang 

    Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.

    Les meir om tilgangsnivå her

  • Opne data 

    Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

OversiktDistribusjonar og API-ar 
1
DetaljarDiskusjonar 
0
RDF

Skildring

Dette korpuset inneholder n-grammer – uni-, bi- og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per 15. juli 2022. N-grammene er laget på basis av et materiale bestående av om lag 610.000 bøker og 4.000.000 avishefter, til sammen ca. 138,5 milliarder "tokens" (ord og tegnsetting). Filformatet er UTF-8-kodert CSV.

Kolonnene i CSV-filene med n-grammer er som følger:

  • first - det første ordet i n-grammet (i uni-, bi- og trigram)
  • second - det andre ordet i n-grammet (i bi- og trigram)
  • third - det tredje ordet i n-grammet (i trigram)
  • lang - språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
  • freq - den totale frekvensen for n-grammet i samlingen av bøker eller aviser
  • json - et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i hhv. bok- og avismaterialet. Med disse kan man lett regne ut relativfrekvenser for sammenligning på tvers av år som i NB N-gram.

metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Se dokumentasjonsfilene for mer informasjon.


Liknande datasett

SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang

Kontaktinformasjon

Kontaktpunkt:
Ikkje oppgitt
Nettside:
https://www.nb.no/sprakbanken/
E-post:
sprakbanken@nb.no
Telefon:
Ikkje oppgitt

Om dataane

Språk:
, , , , ,
Innhaldsleverandørar:
Ikkje oppgitt
Opphav:
Ikkje oppgitt
Oppdateringsfrekvens:
Ikkje oppgitt
Først utgjeve:

Denne datoen seier når dataa i dette datasettet først blei utgitt. Det kan ha skjedd før datasettet blei publisert på data.norge.no.

15. juli 2022
Sist oppdatert:
21. desember 2022
Nøyaktigheit:
Ikkje oppgitt
Tilgjenge:
Ikkje oppgitt
Fullstendigheit:
Ikkje oppgitt
Aktualitet:
Ikkje oppgitt
Relevans:
Ikkje oppgitt
Geografisk område:
Ikkje oppgitt
Tidsrom:
Ikkje oppgitt
I samsvar med:

Referanse til ei implementeringsregel eller anna spesifikasjon som ligg til grunn for datasettet.

Ikkje oppgitt

Lovheimler

Ikkje oppgitt

Omgrep brukte i datasettet

Ikkje oppgitt

Referansar

Ikkje oppgitt

Om datasettet

Utgjevar:
Nasjonalbiblioteket
Publisert:

Denne datoen viser når datasettet vart henta inn av data.norge.no. Det kan ha vore tilgjengeleg tidlegare andre stader.

Les meir om innhenting her

3. mars 2026
Sist oppdatert:
13. mars 2026
Landingsside:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Datasettype:
Ikkje oppgitt
Metadatakvalitet:

Metadatakvalitet er ein indikator på kor godt datasettene er beskrive ved hjelp av metadata.

Les meir om metadatakvalitet her

God (59%)
URI:

Tema

Nøkkelord

Ikkje oppgitt

Diskusjonar på Datalandsbyen
0

Ingen diskusjonar funne

Kva er Datalandsbyen?

Datalandsbyen er vårt nettforum der du kan be om data, dele erfaringar og spørje om råd som gjeld deling av data og informasjonsforvalting.