Hopp til hovedinnhold
Nasjonalbiblioteket

Målfrid 2021 - Fritt tilgjengelege tekster frå norske statlege nettsider

Distribusjoner 
1
API-er 
0
Ingen registrerte API-er tilgjengeliggjør dette datasettet.
OversiktDistribusjoner og API-er 
1
DetaljerDiskusjoner 
0
RDF

Beskrivelse

Dette korpuset inneheld dokument frå 339 internettdomene tilknytta norske, statlege institusjonar. Totalt består materialet av omlag 4,1 milliardar "tokens" (ord og teiknsetjing), noko som gjer korpuset til eit av dei største fritt tilgjengelege tekstkorpusa for bokmål og nynorsk. Korpuset inneheld òg tekster på nordsamisk, sørsamisk, lulesamisk og engelsk.

Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar.

Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom 11. desember 2020 og 18. januar 2021. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt.

Dei nedlasta dokumenta vart prosessert vidare. Bolkar med tekst vart ekstrahert frå HTML med Justext, eit system for "boilerplate removal" (http://corpus.tools/wiki/Justext). Textract (https://textract.readthedocs.io/en/stable/) vart brukt for å ekstrahere tekst frå Word/ODT-dokument, mens Cloud Vision OCR frå Google (https://textract.readthedocs.io/en/stable/) vart brukt til å ekstrahere tekst frå pdf-filer.

Dei ekstraherte tekstene vart klassifiserte ved bruk av TextCat språkidentifikasjon (https://www.let.rug.nl/~vannoord/TextCat/) på dokumentnivå. Eksakte duplikat av same dokument (innanfor same domene) vart fjerna.

Korpuset er lagt til rette som gzippa JSON-liner (jsonl), eitt dokument per line. Det er ei JSONL-fil for kvar kombinasjon av domene, språk og innhaldstype. Filene er på UTF-8 tekstformat, med ASCII lineskift. Kvart dokument inneheld dei følgande nyklane:

  • lang: språk i dokumentet (identifisert med TextCat)
  • url: url-en til dokumentet då det vart hausta
  • date: dato for innhausting av dokumentet
  • mimetype: (forenkla) mediatype for dokumentet: HTML, DOC eller PDF
  • fulltext: ei rekkje av strenger, der kvar streng representerer eitt avsnitt - ein tom streng angir ei ny side i PDF-dokumenta

Distribusjoner
1

Navnløs distribusjon
  • gtar
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/69
Status:
Ikke oppgitt
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt
Rettigheter for bruk:
Ikke oppgitt
Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang

Distribusjoner
1

Navnløs distribusjon
  • gtar
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/69
Status:
Ikke oppgitt
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt
Rettigheter for bruk:
Ikke oppgitt
Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Kontaktinformasjon

Kontaktpunkt:
Ikke oppgitt
Nettside:
https://www.nb.no/sprakbanken/
E-post:
sprakbanken@nb.no
Telefon:
Ikke oppgitt

Om dataene

Språk:
, , , , ,
Innholdsleverandører:
Ikke oppgitt
Opphav:
Ikke oppgitt
Oppdateringsfrekvens:
Ikke oppgitt
Først utgitt:

Denne datoen sier når dataene i dette datasettet første gang ble utgitt. Det kan ha skjedd før datasettet ble publisert på data.norge.no.

1. desember 2020
Sist oppdatert:
30. april 2021
Nøyaktighet:
Ikke oppgitt
Tilgjengelighet:
Ikke oppgitt
Kompletthet:
Ikke oppgitt
Aktualitet:
Ikke oppgitt
Relevans:
Ikke oppgitt
Geografisk avgrensning:
Ikke oppgitt
Tidsmessig avgrensning:
Ikke oppgitt
I samsvar med:

Referanse til en implementasjonsregel eller annen spesifikasjon, som ligger til grunn for opprettelsen av datasettet.

Ikke oppgitt

Lovhjemler

Ikke oppgitt

Begreper brukt i datasett

Ikke oppgitt

Referanser

Ikke oppgitt

Om datasettet

Utgiver:
Nasjonalbiblioteket
Publisert:

Denne datoen sier når datasettet ble høstet av data.norge.no. Det kan ha vært tilgjengelig tidligere andre steder.

Les mer om høsting her

3. mars 2026
Sist oppdatert:
13. mars 2026
Landingsside:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Datasettype:
Ikke oppgitt
Metadatakvalitet:

Metadatakvalitet er en indikator på hvor godt datasettene er beskrevet ved hjelp avmetadata.

Les mer om metadatakvalitet her

God (59%)
URI:

Tema

Nøkkelord

Diskusjoner på Datalandsbyen
0

Ingen diskusjoner funnet

Hva er Datalandsbyen?

Datalandsbyen er vårt nettforum hvor du kan etterspørre data, dele erfaringer og spørre om råd som gjelder datadeling og informasjonsforvaltning.