N-grammer fra NBdigital 2022

Datasett
Allmenn tilgang
Offentlig tilgjengelig for alle. Tilgang kan likevel kreve registrering og forespørsel om API-nøkler, så lenge hvem som helst kan be om slik registrering og/eller API-nøkler.
Les mer om tilgangsnivåer her
Åpne data
Datasettet er klassifisert som allmenn tilgang og har minst 1 distribusjon med godkjent åpen lisens.

Oversikt

Distribusjoner og API-er

Detaljer

Diskusjoner

RDF

Beskrivelse

Dette korpuset inneholder n-grammer – uni-, bi- og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per 15. juli 2022. N-grammene er laget på basis av et materiale bestående av om lag 610.000 bøker og 4.000.000 avishefter, til sammen ca. 138,5 milliarder "tokens" (ord og tegnsetting). Filformatet er UTF-8-kodert CSV.

Kolonnene i CSV-filene med n-grammer er som følger:

first - det første ordet i n-grammet (i uni-, bi- og trigram)
second - det andre ordet i n-grammet (i bi- og trigram)
third - det tredje ordet i n-grammet (i trigram)
lang - språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
freq - den totale frekvensen for n-grammet i samlingen av bøker eller aviser
json - et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i hhv. bok- og avismaterialet. Med disse kan man lett regne ut relativfrekvenser for sammenligning på tvers av år som i NB N-gram.

metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Se dokumentasjonsfilene for mer informasjon.

Distribusjoner
1

Navnløs distribusjon

Beskrivelse:

Ikke oppgitt

TilgangsURL:

https://hdl.handle.net/21.11146/76

Status:

Ikke oppgitt

Direkte nedlastning:

API:

Ikke oppgitt

Dokumentasjon:

Ikke oppgitt

Lisens:

https://creativecommons.org/publicdomain/zero/1.0/

I samsvar med:

Ikke oppgitt

Rettigheter for bruk:

Ikke oppgitt

Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Omsetjingsminne frå Semantix AS	Nasjonalbiblioteket	Allmenn tilgang
Grafem-til-fonem-modeller for norsk bokmål	Nasjonalbiblioteket	Allmenn tilgang
NB N-gram	Nasjonalbiblioteket	Allmenn tilgang
NST uttaleleksikon for svensk	Nasjonalbiblioteket	Allmenn tilgang
Grafem-til-fonem-modeller for norsk	Nasjonalbiblioteket	Allmenn tilgang

Distribusjoner
1

Navnløs distribusjon

Beskrivelse:

Ikke oppgitt

TilgangsURL:

https://hdl.handle.net/21.11146/76

Status:

Ikke oppgitt

Direkte nedlastning:

API:

Ikke oppgitt

Dokumentasjon:

Ikke oppgitt

Lisens:

https://creativecommons.org/publicdomain/zero/1.0/

I samsvar med:

Ikke oppgitt

Rettigheter for bruk:

Ikke oppgitt

Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Kontaktinformasjon

Kontaktpunkt:: Ikke oppgitt
Nettside:: https://www.nb.no/sprakbanken/
E-post:: sprakbanken@nb.no
Telefon:: Ikke oppgitt

Om dataene

Språk:: , , , , ,
Innholdsleverandører:: Ikke oppgitt
Opphav:: Ikke oppgitt
Oppdateringsfrekvens:: Ikke oppgitt
Først utgitt: Denne datoen sier når dataene i dette datasettet første gang ble utgitt. Det kan ha skjedd før datasettet ble publisert på data.norge.no.: 15. juli 2022
Sist oppdatert:: 21. desember 2022
Nøyaktighet:: Ikke oppgitt
Tilgjengelighet:: Ikke oppgitt
Kompletthet:: Ikke oppgitt
Aktualitet:: Ikke oppgitt
Relevans:: Ikke oppgitt
Geografisk avgrensning:: Ikke oppgitt
Tidsmessig avgrensning:: Ikke oppgitt
I samsvar med: Referanse til en implementasjonsregel eller annen spesifikasjon, som ligger til grunn for opprettelsen av datasettet.: Ikke oppgitt

Lovhjemler

Ikke oppgitt

Begreper brukt i datasett

Ikke oppgitt

Referanser

Ikke oppgitt

Gebyr

Ikke oppgitt

Om datasettet

Utgiver:: Nasjonalbiblioteket
Publisert: Denne datoen sier når datasettet ble høstet av data.norge.no. Det kan ha vært tilgjengelig tidligere andre steder. Les mer om høsting her: 21. desember 2022
Sist oppdatert:: 13. mars 2026
Landingsside:: Ikke oppgitt
Dokumentasjon:: Ikke oppgitt
Datasettype:: Ikke oppgitt
Metadatakvalitet: Metadatakvalitet er en indikator på hvor godt datasettene er beskrevet ved hjelp avmetadata. Les mer om metadatakvalitet her: God (59%)
URI:

Tema

Vitenskap og teknologi

Nøkkelord

språkforskning språkteknologi korpus språkbanken ngram

Diskusjoner på Datalandsbyen
0

Ingen diskusjoner funnet

Hva er Datalandsbyen?

Datalandsbyen er vårt nettforum hvor du kan etterspørre data, dele erfaringer og spørre om råd som gjelder datadeling og informasjonsforvaltning.

N-grammer fra NBdigital 2022

Beskrivelse

Distribusjoner
1

API-er som tilgjengeliggjør dette datasettet
0

Lignende datasett

Distribusjoner
1

API-er som tilgjengeliggjør dette datasettet
0

Kontaktinformasjon

Om dataene

Lovhjemler

Begreper brukt i datasett

Referanser

Gebyr

Om datasettet

Tema

Nøkkelord

Diskusjoner på Datalandsbyen
0

Hva er Datalandsbyen?

Resource Description Framework (RDF)
Alle URL-er til ressurser på data.norge.no kan levere RDF-metadata i flere ulike formater, avhengig av hvilken Accept header man sender med.
Les mer om RDF og hvilke formater vi støtter her

Finner du det du leter etter?

N-grammer fra NBdigital 2022

Beskrivelse

Distribusjoner1

API-er som tilgjengeliggjør dette datasettet0

Lignende datasett

Distribusjoner1

API-er som tilgjengeliggjør dette datasettet0

Kontaktinformasjon

Om dataene

Lovhjemler

Begreper brukt i datasett

Referanser

Gebyr

Om datasettet

Tema

Nøkkelord

Diskusjoner på Datalandsbyen0

Hva er Datalandsbyen?

Resource Description Framework (RDF)Alle URL-er til ressurser på data.norge.no kan levere RDF-metadata i flere ulike formater, avhengig av hvilken Accept header man sender med.Les mer om RDF og hvilke formater vi støtter her

Finner du det du leter etter?

Distribusjoner
1

API-er som tilgjengeliggjør dette datasettet
0

Distribusjoner
1

API-er som tilgjengeliggjør dette datasettet
0

Diskusjoner på Datalandsbyen
0

Resource Description Framework (RDF)
Alle URL-er til ressurser på data.norge.no kan levere RDF-metadata i flere ulike formater, avhengig av hvilken Accept header man sender med.
Les mer om RDF og hvilke formater vi støtter her