Hopp til hovedinnhold
Nasjonalbiblioteket

Tekster fra norsk Wikipedia

DatasettAllmenn tilgang 

Beskrivelse

Dette korpuset inneholder en dump av samtlige Wikipediaartikler på bokmål, nynorsk og nordsamisk fra ca. 20. mars 2019. Korpuset inneholder 492.864 artikler for bokmål, 139.927 artikler for nynorsk og 7.626 artikler for nordsamisk. Korpuset er strukturert som et JSON-array over artiklene slik de foreligger på nettet. Hver artikkel er et strukturert element, med ett nivå av "nøkkel:verdi", som inneholder tekst og metadata. Det er åtte slike nøkkel:verdi-par i artiklene:

  • bytelength: lengde på teksten i bytes
  • pageid: identifikator for teksten
  • title: tittel som i Wikipedia
  • hiddencategories: metadata
  • text: teksten som i Wikipedia
  • revid: revisjonsinformasjon
  • contentcategories: metadata
  • wikidata: andre data

Et eksempel på JSON-formatet finnes i dokumentasjonsfilen.

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/50
Direkte nedlastning:
https://www.nb.no/sbfil/tekst/2019_wikipedia.tar.gz
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang