Hopp til hovudinnhald
Nasjonalbiblioteket

N-gram frå NBdigital

  • Datasett
  • Allmenn tilgang 

    Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.

    Les meir om tilgangsnivå her

  • Opne data 

    Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Skildring

Dette korpuset inneheld n-gram - unigram, bigram og trigram - frå alle bøker og aviser som var digitaliserte ved Nasjonalbiblioteket fram til september 2013. Dei er laga på basis av eit material på om lag 220.000 bøker og 540.000 aviser.

N-gramma finst i to format, CSV og SQLite: CSV vil vera mest interessant for dei fleste utviklarar, sidan det er lett å importere desse inn i vanleg programvare. SQLite-filene inneheld ferdig indekserte SQL-databasar som vert brukte i tenesta NB N-gram. Brukarar som ynskjer å bidra i utviklinga av NB N-gram kan laste ned kjeldekoden på GitHub og SQLite-databasane frå denne sida.

Ei ordteljing fordelt på kjelde (avis/bok) og språkform (bokmål/nynorsk) finst i json-fila.


Liknande datasett

ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
SNOMED CT - engelske termer med oversettelse til bokmål og nynorskNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Amesto Translations ASNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norsk bokmålNasjonalbiblioteket
Allmenn tilgang