Stortingskorpuset 1.1

Datasett
Allmenn tilgang
Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.
Les meir om tilgangsnivå her
Opne data
Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Oversikt

Distribusjonar og API-ar

Detaljar

Diskusjonar

RDF

Skildring

Dette er versjon 1.1 av Stortingskorpuset (engelsk forkorting NPSC).

Følgjande endringar skil versjon 1.1. frå versjon 1.0:

Dataa er delte opp i offisielle trenings-, evaluerings- og testsett.
Manuell dialektannotering er lagt til for kvar enkelt talar.
Sluttpunktet for ei setning (sentence_id 45886) i 20172018 er endra, av di setninga inneheldt ei 30 minutt lang pause i versjon 1.0. Den tilsvarande lydfila (20171208-085509_6122400_6124160.wav) vart forkorta i tråd med dette.
Nokre metadata til transkripsjonane i 20171213 mangla i json-filene. Desse er lagt til i versjon 1.2.
Dokumentasjonen er oppdatert med endringane over.

Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Betaversjonar av korpuset vart publiserte i 2020 og 2021. Me har kjørt postprosesseringsskript sidan siste versjon (0.2). Dette har ført til endringar i alle transkripsjonane, og transkripsjonane har ei anna formatering enn i dei tidligare versjonane. Dei gamle transkripsjonsfilane bør difor erstattast med filene i denne versjonen.

Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Distribusjonar
1

Namnlaus distribusjon

gtar

Skildring:

Ikkje oppgitt

Tilgjengeleg URL:

https://hdl.handle.net/21.11146/58

Status:

Ikkje oppgitt

Direkte nedlasting:

API:

Ikkje oppgitt

Dokumentasjon:

Ikkje oppgitt

Lisens:

https://creativecommons.org/publicdomain/zero/1.0/

I samsvar med:

Ikkje oppgitt

Rettigheter for bruk:

Ikkje oppgitt

Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Omsetjingsminne frå Semantix AS	Nasjonalbiblioteket	Allmenn tilgang
Grafem-til-fonem-modeller for norsk bokmål	Nasjonalbiblioteket	Allmenn tilgang
NB N-gram	Nasjonalbiblioteket	Allmenn tilgang
NST uttaleleksikon for svensk	Nasjonalbiblioteket	Allmenn tilgang
Grafem-til-fonem-modeller for norsk	Nasjonalbiblioteket	Allmenn tilgang

Distribusjonar
1

Namnlaus distribusjon

gtar

Skildring:

Ikkje oppgitt

Tilgjengeleg URL:

https://hdl.handle.net/21.11146/58

Status:

Ikkje oppgitt

Direkte nedlasting:

API:

Ikkje oppgitt

Dokumentasjon:

Ikkje oppgitt

Lisens:

https://creativecommons.org/publicdomain/zero/1.0/

I samsvar med:

Ikkje oppgitt

Rettigheter for bruk:

Ikkje oppgitt

Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Kontaktinformasjon

Kontaktpunkt:: Ikkje oppgitt
Nettside:: https://www.nb.no/sprakbanken/
E-post:: sprakbanken@nb.no
Telefon:: Ikkje oppgitt

Om dataane

Språk:
Innhaldsleverandørar:: Ikkje oppgitt
Opphav:: Ikkje oppgitt
Oppdateringsfrekvens:: Ikkje oppgitt
Først utgjeve: Denne datoen seier når dataa i dette datasettet først blei utgitt. Det kan ha skjedd før datasettet blei publisert på data.norge.no.: 1. august 2019
Sist oppdatert:: 30. november 2021
Nøyaktigheit:: Ikkje oppgitt
Tilgjenge:: Ikkje oppgitt
Fullstendigheit:: Ikkje oppgitt
Aktualitet:: Ikkje oppgitt
Relevans:: Ikkje oppgitt
Geografisk område:: Ikkje oppgitt
Tidsrom:: Ikkje oppgitt
I samsvar med: Referanse til ei implementeringsregel eller anna spesifikasjon som ligg til grunn for datasettet.: Ikkje oppgitt

Lovheimler

Ikkje oppgitt

Omgrep brukte i datasettet

Ikkje oppgitt

Referansar

Ikkje oppgitt

Gebyr

Ikkje oppgitt

Om datasettet

Utgjevar:: Nasjonalbiblioteket
Publisert: Denne datoen viser når datasettet vart henta inn av data.norge.no. Det kan ha vore tilgjengeleg tidlegare andre stader. Les meir om innhenting her: 24. august 2021
Sist oppdatert:: 13. mars 2026
Landingsside:: Ikkje oppgitt
Dokumentasjon:: Ikkje oppgitt
Datasettype:: Ikkje oppgitt
Metadatakvalitet: Metadatakvalitet er ein indikator på kor godt datasettene er beskrive ved hjelp av metadata. Les meir om metadatakvalitet her: God (59%)
URI:

Tema

Vitskap og teknologi

Nøkkelord

Ikkje oppgitt

Diskusjonar på Datalandsbyen
0

Ingen diskusjonar funne

Kva er Datalandsbyen?

Datalandsbyen er vårt nettforum der du kan be om data, dele erfaringar og spørje om råd som gjeld deling av data og informasjonsforvalting.

Stortingskorpuset 1.1

Skildring

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Liknande datasett

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Kontaktinformasjon

Om dataane

Lovheimler

Omgrep brukte i datasettet

Referansar

Gebyr

Om datasettet

Tema

Nøkkelord

Diskusjonar på Datalandsbyen
0

Kva er Datalandsbyen?

Resource Description Framework (RDF)
Alle URL-ar til ressursar på data.norge.no kan levere RDF-metadata i fleire ulike format, avhengig av kva for ein Accept-header som blir sendt med.
Les meir om RDF og kva format vi støttar her

Fann du det du leitte etter?

Stortingskorpuset 1.1

Skildring

Distribusjonar1

API-ar som tilbyr dette datasettet0

Liknande datasett

Distribusjonar1

API-ar som tilbyr dette datasettet0

Kontaktinformasjon

Om dataane

Lovheimler

Omgrep brukte i datasettet

Referansar

Gebyr

Om datasettet

Tema

Nøkkelord

Diskusjonar på Datalandsbyen0

Kva er Datalandsbyen?

Resource Description Framework (RDF)Alle URL-ar til ressursar på data.norge.no kan levere RDF-metadata i fleire ulike format, avhengig av kva for ein Accept-header som blir sendt med.Les meir om RDF og kva format vi støttar her

Fann du det du leitte etter?

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Distribusjonar
1

API-ar som tilbyr dette datasettet
0

Diskusjonar på Datalandsbyen
0

Resource Description Framework (RDF)
Alle URL-ar til ressursar på data.norge.no kan levere RDF-metadata i fleire ulike format, avhengig av kva for ein Accept-header som blir sendt med.
Les meir om RDF og kva format vi støttar her