Hopp til hovedinnhold
Nasjonalbiblioteket

Stortingskorpuset 1.1

Distribusjoner 
1
API-er 
0
Ingen registrerte API-er tilgjengeliggjør dette datasettet.
  • Datasett
  • Allmenn tilgang 

    Offentlig tilgjengelig for alle. Tilgang kan likevel kreve registrering og forespørsel om API-nøkler, så lenge hvem som helst kan be om slik registrering og/eller API-nøkler.

    Les mer om tilgangsnivåer her

  • Åpne data 

    Datasettet er klassifisert som allmenn tilgang og har minst 1 distribusjon med godkjent åpen lisens.

OversiktDistribusjoner og API-er 
1
DetaljerDiskusjoner 
0
RDF

Beskrivelse

Dette er versjon 1.1 av Stortingskorpuset (engelsk forkorting NPSC).

Følgjande endringar skil versjon 1.1. frå versjon 1.0:

  • Dataa er delte opp i offisielle trenings-, evaluerings- og testsett.
  • Manuell dialektannotering er lagt til for kvar enkelt talar.
  • Sluttpunktet for ei setning (sentence_id 45886) i 20172018 er endra, av di setninga inneheldt ei 30 minutt lang pause i versjon 1.0. Den tilsvarande lydfila (20171208-085509_6122400_6124160.wav) vart forkorta i tråd med dette.
  • Nokre metadata til transkripsjonane i 20171213 mangla i json-filene. Desse er lagt til i versjon 1.2.
  • Dokumentasjonen er oppdatert med endringane over.

Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Betaversjonar av korpuset vart publiserte i 2020 og 2021. Me har kjørt postprosesseringsskript sidan siste versjon (0.2). Dette har ført til endringar i alle transkripsjonane, og transkripsjonane har ei anna formatering enn i dei tidligare versjonane. Dei gamle transkripsjonsfilane bør difor erstattast med filene i denne versjonen.

Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Distribusjoner
1

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang

Distribusjoner
1

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Kontaktinformasjon

Kontaktpunkt:
Ikke oppgitt
Nettside:
https://www.nb.no/sprakbanken/
E-post:
sprakbanken@nb.no
Telefon:
Ikke oppgitt

Om dataene

Språk:
Innholdsleverandører:
Ikke oppgitt
Opphav:
Ikke oppgitt
Oppdateringsfrekvens:
Ikke oppgitt
Først utgitt:

Denne datoen sier når dataene i dette datasettet første gang ble utgitt. Det kan ha skjedd før datasettet ble publisert på data.norge.no.

1. august 2019
Sist oppdatert:
30. november 2021
Nøyaktighet:
Ikke oppgitt
Tilgjengelighet:
Ikke oppgitt
Kompletthet:
Ikke oppgitt
Aktualitet:
Ikke oppgitt
Relevans:
Ikke oppgitt
Geografisk avgrensning:
Ikke oppgitt
Tidsmessig avgrensning:
Ikke oppgitt
I samsvar med:

Referanse til en implementasjonsregel eller annen spesifikasjon, som ligger til grunn for opprettelsen av datasettet.

Ikke oppgitt

Lovhjemler

Ikke oppgitt

Begreper brukt i datasett

Ikke oppgitt

Referanser

Ikke oppgitt

Om datasettet

Utgiver:
Nasjonalbiblioteket
Publisert:

Denne datoen sier når datasettet ble høstet av data.norge.no. Det kan ha vært tilgjengelig tidligere andre steder.

Les mer om høsting her

3. mars 2026
Sist oppdatert:
13. mars 2026
Landingsside:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Datasettype:
Ikke oppgitt
Metadatakvalitet:

Metadatakvalitet er en indikator på hvor godt datasettene er beskrevet ved hjelp avmetadata.

Les mer om metadatakvalitet her

God (59%)
URI:

Tema

Nøkkelord

Diskusjoner på Datalandsbyen
0

Ingen diskusjoner funnet

Hva er Datalandsbyen?

Datalandsbyen er vårt nettforum hvor du kan etterspørre data, dele erfaringer og spørre om råd som gjelder datadeling og informasjonsforvaltning.