Hopp til hovudinnhald
Nasjonalbiblioteket

Målfrid 2024 – Fritt tilgjengelege tekster frå norske statlege nettsider

Skildring

Dette korpuset inneheld dokument frå 497 internettdomene tilknytta norske statlege institusjonar. Totalt består materialet av omlag 2,6 milliardar "tokens" (ord og teiknsetting). I tillegg til tekster på bokmål og nynorsk inneheld korpuset tekster på nordsamisk, lulesamisk, sørsamisk og engelsk.

Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar.

Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom desember 2023 og januar 2024. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt.

For teknisk informasjon, sjå dokumentasjonsfilene.

Distribusjonar
1

Last ned
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/99
Direkte nedlasting:
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
spaCy for nynorskNasjonalbiblioteket
Allmenn tilgang