Hopp til hovedinnhold
Nasjonalbiblioteket

N-gram frå NBdigital

Beskrivelse

Dette korpuset inneheld n-gram - unigram, bigram og trigram - frå alle bøker og aviser som var digitaliserte ved Nasjonalbiblioteket fram til september 2013. Dei er laga på basis av eit material på om lag 220.000 bøker og 540.000 aviser.

N-gramma finst i to format, CSV og SQLite: CSV vil vera mest interessant for dei fleste utviklarar, sidan det er lett å importere desse inn i vanleg programvare. SQLite-filene inneheld ferdig indekserte SQL-databasar som vert brukte i tenesta NB N-gram. Brukarar som ynskjer å bidra i utviklinga av NB N-gram kan laste ned kjeldekoden på GitHub og SQLite-databasane frå denne sida.

Ei ordteljing fordelt på kjelde (avis/bok) og språkform (bokmål/nynorsk) finst i json-fila.

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/35
Direkte nedlastning:
  1. https://www.nb.no/sbfil/ngram/totals.json
    Genererer forhåndsvisning...
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang
Diskusjonstekster frå WikipediaNasjonalbiblioteket
Allmenn tilgang