N-grammer fra NBdigital 2021

Datasett
Allmenn tilgang
Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.
Les meir om tilgangsnivå her
Opne data
Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Oversikt

Distribusjonar og API-ar

Detaljar

Diskusjonar

RDF

Skildring

Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder "tokens" (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).

Kolonnene i CSV-filene med n-grammer er som følger:

first - det første ordet i n-grammet (i uni-, bi- og trigrammer)
second - det andre ordet i n-grammet (i bi- og trigrammer)
third - det tredje ordet i n-grammet (i trigrammer)
lang - språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
freq - den totale frekvensen for n-grammet i samlingen av bøker eller aviser
json - et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.

metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Se dokumentasjonsfilene for mer informasjon.

Distribusjonar
1

Namnlaus distribusjon

Skildring:

Ikkje oppgitt

Tilgjengeleg URL:

https://hdl.handle.net/21.11146/70

Status:

Ikkje oppgitt

Direkte nedlasting:

API:

Ikkje oppgitt

Dokumentasjon:

Ikkje oppgitt

Lisens:

https://creativecommons.org/publicdomain/zero/1.0/

I samsvar med:

Ikkje oppgitt

Rettigheter for bruk:

Ikkje oppgitt

Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Omsetjingsminne frå Semantix AS	Nasjonalbiblioteket	Allmenn tilgang
Grafem-til-fonem-modeller for norsk bokmål	Nasjonalbiblioteket	Allmenn tilgang
NB N-gram	Nasjonalbiblioteket	Allmenn tilgang
NST uttaleleksikon for svensk	Nasjonalbiblioteket	Allmenn tilgang
Grafem-til-fonem-modeller for norsk	Nasjonalbiblioteket	Allmenn tilgang

Distribusjonar
1

Namnlaus distribusjon

Skildring:

Ikkje oppgitt

Tilgjengeleg URL:

https://hdl.handle.net/21.11146/70

Status:

Ikkje oppgitt

Direkte nedlasting:

API:

Ikkje oppgitt

Dokumentasjon:

Ikkje oppgitt

Lisens:

https://creativecommons.org/publicdomain/zero/1.0/

I samsvar med:

Ikkje oppgitt

Rettigheter for bruk:

Ikkje oppgitt

Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Kontaktinformasjon

Kontaktpunkt:: Ikkje oppgitt
Nettside:: https://www.nb.no/sprakbanken/
E-post:: sprakbanken@nb.no
Telefon:: Ikkje oppgitt

Om dataane

Språk:: , , , , ,
Innhaldsleverandørar:: Ikkje oppgitt
Opphav:: Ikkje oppgitt
Oppdateringsfrekvens:: Ikkje oppgitt
Først utgjeve: Denne datoen seier når dataa i dette datasettet først blei utgitt. Det kan ha skjedd før datasettet blei publisert på data.norge.no.: 1. juni 2021
Sist oppdatert:: 28. oktober 2021
Nøyaktigheit:: Ikkje oppgitt
Tilgjenge:: Ikkje oppgitt
Fullstendigheit:: Ikkje oppgitt
Aktualitet:: Ikkje oppgitt
Relevans:: Ikkje oppgitt
Geografisk område:: Ikkje oppgitt
Tidsrom:: Ikkje oppgitt
I samsvar med: Referanse til ei implementeringsregel eller anna spesifikasjon som ligg til grunn for datasettet.: Ikkje oppgitt

Lovheimler

Ikkje oppgitt

Omgrep brukte i datasettet

Ikkje oppgitt

Referansar

Ikkje oppgitt

Gebyr

Ikkje oppgitt

Om datasettet

Utgjevar:: Nasjonalbiblioteket
Publisert: Denne datoen viser når datasettet vart henta inn av data.norge.no. Det kan ha vore tilgjengeleg tidlegare andre stader. Les meir om innhenting her: 2. mai 2022
Sist oppdatert:: 13. mars 2026
Landingsside:: Ikkje oppgitt
Dokumentasjon:: Ikkje oppgitt
Datasettype:: Ikkje oppgitt
Metadatakvalitet: Metadatakvalitet er ein indikator på kor godt datasettene er beskrive ved hjelp av metadata. Les meir om metadatakvalitet her: God (59%)
URI:

Tema

Vitskap og teknologi

Nøkkelord

Ikkje oppgitt

Diskusjonar på Datalandsbyen
0

Ingen diskusjonar funne

Kva er Datalandsbyen?

Datalandsbyen er vårt nettforum der du kan be om data, dele erfaringar og spørje om råd som gjeld deling av data og informasjonsforvalting.

N-grammer fra NBdigital 2021

Skildring

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Liknande datasett

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Kontaktinformasjon

Om dataane

Lovheimler

Omgrep brukte i datasettet

Referansar

Gebyr

Om datasettet

Tema

Nøkkelord

Diskusjonar på Datalandsbyen
0

Kva er Datalandsbyen?

Resource Description Framework (RDF)
Alle URL-ar til ressursar på data.norge.no kan levere RDF-metadata i fleire ulike format, avhengig av kva for ein Accept-header som blir sendt med.
Les meir om RDF og kva format vi støttar her

Fann du det du leitte etter?

N-grammer fra NBdigital 2021

Skildring

Distribusjonar1

API-ar som tilbyr dette datasettet0

Liknande datasett

Distribusjonar1

API-ar som tilbyr dette datasettet0

Kontaktinformasjon

Om dataane

Lovheimler

Omgrep brukte i datasettet

Referansar

Gebyr

Om datasettet

Tema

Nøkkelord

Diskusjonar på Datalandsbyen0

Kva er Datalandsbyen?

Resource Description Framework (RDF)Alle URL-ar til ressursar på data.norge.no kan levere RDF-metadata i fleire ulike format, avhengig av kva for ein Accept-header som blir sendt med.Les meir om RDF og kva format vi støttar her

Fann du det du leitte etter?

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Diskusjonar på Datalandsbyen
0

Resource Description Framework (RDF)
Alle URL-ar til ressursar på data.norge.no kan levere RDF-metadata i fleire ulike format, avhengig av kva for ein Accept-header som blir sendt med.
Les meir om RDF og kva format vi støttar her