Hopp til hovedinnhold
Nasjonalbiblioteket

Norsk talestyringskorpus

  • Navnløs distribusjon
    • application/tar , application/pdf
    Last ned
  • Datasett
  • Allmenn tilgang 

    Offentlig tilgjengelig for alle. Tilgang kan likevel kreve registrering og forespørsel om API-nøkler, så lenge hvem som helst kan be om slik registrering og/eller API-nøkler.

    Les mer om tilgangsnivåer her

  • Åpne data 

    Datasettet er klassifisert som allmenn tilgang og har minst 1 distribusjon med godkjent åpen lisens.

Beskrivelse

Norsk talestyringskorpus (engelsk forkorting NVCC) er eit tekst- og talekorpus som består av skrivne og innlesne setningar (spørjingar). Dette er spørjingar ein typisk nyttar til å styre t.d. mobiltelefonar med stemma, og dei er tilpassa typiske funksjonar i mobiltelefonar.

NVCC inneheld 10.706 skrivne spørjingar på både bokmål og nynorsk. Spjørjingane er delte inn i 183 forskjellige intent, fordelte på 24 intentgrupper innanfor ni overordna domene. 9.834 av spørjingane er lesne inn av 11 talarar frå fem forskjellige dialektområde for å femne dialektvariasjon. Opptaka er transkriberte med ei blanding av nynorsk og bokmål for å liggje så nære talaranes dialekt som mogleg. Transkripsjonane og metadata om talarane (dialekt, alder, kjønn) er med i korpuset. Sjå dokumentasjonsfila for meir detaljert informasjon.

NVCC er eit open source-datasett for utvikling av talestyrte mobilassistentar, men kan også vere nyttig for utvikling av tekstbasert språkteknologi som t.d. chatbotar.

NVCC er utvikla av Språkbanken ved Nasjonalbiblioteket. Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Distribusjoner
1

Navnløs distribusjon
  • application/tar , application/pdf
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/75
Direkte nedlastning:
  1. https://www.nb.no/sbfil/nvcc/nvcc_1.0.tar
    Genererer forhåndsvisning...
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt
Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang