Hopp til hovudinnhald
Nasjonalbiblioteket

N-gram - nyhetstekst på bokmål

Skildring

Dette korpuset inneholder n-grammer på bokmål, hentet ut fra Norsk aviskorpus. Tekstgrunnlaget for korpuset er 665 millioner ord med løpende tekst høstet fra forskjellige norske nettaviser. Sekvenser av ett til seks ord er generert (unigrammer, bigrammer, trigrammer, 4-grammer, 5-grammer og 6-grammer) og ordnet etter frekvens. Dette arbeidet ble gjort av Uni Research på vegne av Nasjonalbiblioteket og Språkbanken.

For enkelhets skyld ble det også laget en samling med de 1000 mest frekvente n-grammene av alle typer nevnt ovenfor for nedlasting separat..

Distribusjonar
1

Last ned
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/29
Direkte nedlasting:
  1. https://www.nb.no/sbfil/tekst/ngram_nob_avis.tar.gz
    Genererer førehandsvising...
  2. https://www.nb.no/sbfil/tekst/ngram_nob_avis_1000.zip
    Genererer førehandsvising...
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang