Hopp til hovudinnhald
Nasjonalbiblioteket

Tekster fra norsk Wikipedia

Skildring

Dette korpuset inneholder en dump av samtlige Wikipediaartikler på bokmål, nynorsk og nordsamisk fra ca. 20. mars 2019. Korpuset inneholder 492.864 artikler for bokmål, 139.927 artikler for nynorsk og 7.626 artikler for nordsamisk. Korpuset er strukturert som et JSON-array over artiklene slik de foreligger på nettet. Hver artikkel er et strukturert element, med ett nivå av "nøkkel:verdi", som inneholder tekst og metadata. Det er åtte slike nøkkel:verdi-par i artiklene:

  • bytelength: lengde på teksten i bytes
  • pageid: identifikator for teksten
  • title: tittel som i Wikipedia
  • hiddencategories: metadata
  • text: teksten som i Wikipedia
  • revid: revisjonsinformasjon
  • contentcategories: metadata
  • wikidata: andre data

Et eksempel på JSON-formatet finnes i dokumentasjonsfilen.

Distribusjonar
1

Last ned
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/50
Direkte nedlasting:
  1. https://www.nb.no/sbfil/tekst/2019_wikipedia.tar.gz
    Genererer førehandsvising...
  2. https://www.nb.no/sbfil/dok/2019_wikipedia.pdf
    Genererer førehandsvising...
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang