Hopp til hovudinnhald
Nasjonalbiblioteket

Stortinget Speech Corpus versjon 1.0

  • Datasett
  • Allmenn tilgang 

    Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.

    Les meir om tilgangsnivå her

  • Opne data 

    Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Skildring

Stortinget Speech Corpus (SSC) er eit taledatasett på meir enn 5000 timar for svakt overvaka taleattkjenning laga av lydopptak og tekst frå Stortingsforhandlingane. Det inneheld taleeiningar på inntil 30 sekund med transkripsjonar på bokmål og nynorsk frå dei offisielle Stortingsforhandlingane.

Datasettet vert distribuert som ei JSONL-fil. Lydfiler, tekstfiler og transkripsjonsfiler (med output frå taleattkjenninga) er inkluderte i datasettet, linka med relative filstiar i JSONL-fila. Merk at berre segmenterte lydfiler er del av korpuset.

Statistikk

  • Antall segment: 724 783
  • Total varigheit i timar: 5 190
  • Antal unike talarar: 729

For meir detaljert informasjon, sjå dokumentasjonsfilene.

Distribusjonar
1

Namnlaus distribusjon
  • gtar
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/91
Direkte nedlasting:
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt
Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang