Hopp til hovudinnhald
Nasjonalbiblioteket

Diskusjonstekster frå Wikipedia

Skildring

Dette korpuset inneheld ein dump av diskusjonstrådar frå Wikipedia, der forfattarar diskuterer ulike problemstillingar i samband med publisering av bestemde artiklar på Wikipedia.

Artiklane er fordelte på to filer, ei for høvesvis bokmål (nb.wikipedia.json) og nynorsk (nn.wikipedia.json). Kvar diskusjon er eit element i eit json-array, med eitt nivå som inneheld tekst og diverse metadata. Det er åtte datafelt per diskusjon:

  • title: tittel på artikkelen som vert diskutert
  • pageid: identifikator for artikkelen
  • revid: revisjonsinformasjon
  • wikidata: ev. andre data
  • contentcategories: metadata
  • hiddencategories: metadata
  • text: diskusjonstekst
  • bytelength: lengde på teksten i bytes

Eit døme på dette finst i dokumentasjonsfila (2019_wikidisc.pdf).

Distribusjonar
1

Last ned
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/66
Direkte nedlasting:
  1. https://www.nb.no/sbfil/tekst/2019_wikidisc.zip
    Genererer førehandsvising...
  2. https://www.nb.no/sbfil/dok/2019_wikidisc.pdf
    Genererer førehandsvising...
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang