Hopp til hovudinnhald
Nasjonalbiblioteket

Norsk talestyringskorpus

  • Namnlaus distribusjon
    • application/tar , application/pdf
    Last ned
  • Datasett
  • Allmenn tilgang 

    Tilgjengeleg for alle. Tilgang kan likevel krevje registrering og førespurnad om API-nøklar, så lenge kven som helst kan be om slik registrering og/eller API-nøklar.

    Les meir om tilgangsnivå her

  • Opne data 

    Datasettet er klassifisert som allmenn tilgang og har minst éi distribuering med godkjend open lisens.

Skildring

Norsk talestyringskorpus (engelsk forkorting NVCC) er eit tekst- og talekorpus som består av skrivne og innlesne setningar (spørjingar). Dette er spørjingar ein typisk nyttar til å styre t.d. mobiltelefonar med stemma, og dei er tilpassa typiske funksjonar i mobiltelefonar.

NVCC inneheld 10.706 skrivne spørjingar på både bokmål og nynorsk. Spjørjingane er delte inn i 183 forskjellige intent, fordelte på 24 intentgrupper innanfor ni overordna domene. 9.834 av spørjingane er lesne inn av 11 talarar frå fem forskjellige dialektområde for å femne dialektvariasjon. Opptaka er transkriberte med ei blanding av nynorsk og bokmål for å liggje så nære talaranes dialekt som mogleg. Transkripsjonane og metadata om talarane (dialekt, alder, kjønn) er med i korpuset. Sjå dokumentasjonsfila for meir detaljert informasjon.

NVCC er eit open source-datasett for utvikling av talestyrte mobilassistentar, men kan også vere nyttig for utvikling av tekstbasert språkteknologi som t.d. chatbotar.

NVCC er utvikla av Språkbanken ved Nasjonalbiblioteket. Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Distribusjonar
1

Namnlaus distribusjon
  • application/tar , application/pdf
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/75
Direkte nedlasting:
  1. https://www.nb.no/sbfil/nvcc/nvcc_1.0.tar
    Genererer førehandsvising...
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt
Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang