Hopp til hovudinnhald
Namnlaus verksemd

N-gram frå NBdigital

Skildring

Dette korpuset inneheld n-gram - unigram, bigram og trigram - frå alle bøker og aviser som var digitaliserte ved Nasjonalbiblioteket fram til september 2013. Dei er laga på basis av eit material på om lag 220.000 bøker og 540.000 aviser.

N-gramma finst i to format, CSV og SQLite: CSV vil vera mest interessant for dei fleste utviklarar, sidan det er lett å importere desse inn i vanleg programvare. SQLite-filene inneheld ferdig indekserte SQL-databasar som vert brukte i tenesta NB N-gram. Brukarar som ynskjer å bidra i utviklinga av NB N-gram kan laste ned kjeldekoden på GitHub og SQLite-databasane frå denne sida.

Ei ordteljing fordelt på kjelde (avis/bok) og språkform (bokmål/nynorsk) finst i json-fila.

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.