Hopp til hovudinnhald
Nasjonalbiblioteket

Stortingskorpuset 2.0

  • Datasett
  • Allmenn tilgang 

    Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.

    Les meir om tilgangsnivå her

  • Opne data 

    Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Skildring

Dette er versjon 2.0 av Stortingskorpuset (engelsk forkorting NPSC). I versjon 2.0 er det gjort ein del større endringar i transkripsjonane, i tillegg er nokre påviste feil i korpuset blitt retta. Endringane er beskrevne i detalj i dokumentasjonen. (Versjon 1.1 er framleis tilgjengeleg, søk på "sbr-58" i søkjefeltet i katalogen.)

Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Distribusjonar
1

Namnlaus distribusjon
  • gtar
Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang