Hopp til hovedinnhold
Nasjonalbiblioteket

NST uttaleleksikon for bokmål

  • Datasett
  • Allmenn tilgang 

    Offentlig tilgjengelig for alle. Tilgang kan likevel kreve registrering og forespørsel om API-nøkler, så lenge hvem som helst kan be om slik registrering og/eller API-nøkler.

    Les mer om tilgangsnivåer her

  • Åpne data 

    Datasettet er klassifisert som allmenn tilgang og har minst 1 distribusjon med godkjent åpen lisens.

Beskrivelse

Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.

Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger.

Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil.

Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet.

Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).

Distribusjoner
1

Navnløs distribusjon
  • gtar
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/23
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt
Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikonNasjonalbiblioteket
Allmenn tilgang
N-grammer fra NBdigital 2021Nasjonalbiblioteket
Allmenn tilgang