Hopp til hovedinnhold
Nasjonalbiblioteket

NST N-gram - dansk nyhendetekst

Beskrivelse

Dette korpuset inneheld n-gram på dansk, henta frå eit korpus på 290 millionar ord med nyhendetekst på dansk frå avisene Berlingske Tidende, Ekstrabladet og Politiken. Avisene er frå tidsperioden 1995-1999. Korpuset vart opprinneleg utvikla av Nordisk Språkteknologi (NST) i perioden 1997-2003. N-gramma vart laga av Uni Research for Nasjonalbiblioteket og Språkbanken.

Sekvensar av eitt til seks ord er genererte (unigram, bigram, trigram, 4-gram, 5-gram og 6-gram), og deretter sorterte alfabetisk og etter frekvens. Det er òg laga ein forenkla versjon for nedlasting med dei 1000 mest frekvente n-gramma av alle typar nemnde ovanfor.

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/28
Direkte nedlastning:
  1. https://www.nb.no/sbfil/tekst/ngram_dan.tar.gz
    Genererer forhåndsvisning...
  2. https://www.nb.no/sbfil/dok/ngram_dan.pdf
    Genererer forhåndsvisning...
  3. https://www.nb.no/sbfil/tekst/ngram_dan_1000.zip
    Genererer forhåndsvisning...
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang