Hopp til hovedinnhold
Nasjonalbiblioteket

Diskusjonstekster frå Wikipedia

DatasettAllmenn tilgang 

Beskrivelse

Dette korpuset inneheld ein dump av diskusjonstrådar frå Wikipedia, der forfattarar diskuterer ulike problemstillingar i samband med publisering av bestemde artiklar på Wikipedia.

Artiklane er fordelte på to filer, ei for høvesvis bokmål (nb.wikipedia.json) og nynorsk (nn.wikipedia.json). Kvar diskusjon er eit element i eit json-array, med eitt nivå som inneheld tekst og diverse metadata. Det er åtte datafelt per diskusjon:

  • title: tittel på artikkelen som vert diskutert
  • pageid: identifikator for artikkelen
  • revid: revisjonsinformasjon
  • wikidata: ev. andre data
  • contentcategories: metadata
  • hiddencategories: metadata
  • text: diskusjonstekst
  • bytelength: lengde på teksten i bytes

Eit døme på dette finst i dokumentasjonsfila (2019_wikidisc.pdf).

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/66
Direkte nedlastning:
https://www.nb.no/sbfil/dok/2019_wikidisc.pdf
Genererer forhåndsvisning...
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang