Hopp til hovudinnhald
Nasjonalbiblioteket

N-gram frå NBdigital

Skildring

Dette korpuset inneheld n-gram - unigram, bigram og trigram - frå alle bøker og aviser som var digitaliserte ved Nasjonalbiblioteket fram til september 2013. Dei er laga på basis av eit material på om lag 220.000 bøker og 540.000 aviser.

N-gramma finst i to format, CSV og SQLite: CSV vil vera mest interessant for dei fleste utviklarar, sidan det er lett å importere desse inn i vanleg programvare. SQLite-filene inneheld ferdig indekserte SQL-databasar som vert brukte i tenesta NB N-gram. Brukarar som ynskjer å bidra i utviklinga av NB N-gram kan laste ned kjeldekoden på GitHub og SQLite-databasane frå denne sida.

Ei ordteljing fordelt på kjelde (avis/bok) og språkform (bokmål/nynorsk) finst i json-fila.

Distribusjonar
1

Last ned
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/35
Direkte nedlasting:
  1. https://www.nb.no/sbfil/ngram/totals.json
    Genererer førehandsvising...
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang