Hopp til hovedinnhold
Nasjonalbiblioteket

N-gram - nyhetstekst på bokmål

  • Datasett
  • Allmenn tilgang 

    Offentlig tilgjengelig for alle. Tilgang kan likevel kreve registrering og forespørsel om API-nøkler, så lenge hvem som helst kan be om slik registrering og/eller API-nøkler.

    Les mer om tilgangsnivåer her

  • Åpne data 

    Datasettet er klassifisert som allmenn tilgang og har minst 1 distribusjon med godkjent åpen lisens.

Beskrivelse

Dette korpuset inneholder n-grammer på bokmål, hentet ut fra Norsk aviskorpus. Tekstgrunnlaget for korpuset er 665 millioner ord med løpende tekst høstet fra forskjellige norske nettaviser. Sekvenser av ett til seks ord er generert (unigrammer, bigrammer, trigrammer, 4-grammer, 5-grammer og 6-grammer) og ordnet etter frekvens. Dette arbeidet ble gjort av Uni Research på vegne av Nasjonalbiblioteket og Språkbanken.

For enkelhets skyld ble det også laget en samling med de 1000 mest frekvente n-grammene av alle typer nevnt ovenfor for nedlasting separat..

Distribusjoner
1

Navnløs distribusjon
  • gtar
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/29
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt
Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang