Hopp til hovudinnhald
Nasjonalbiblioteket

NST norsk ATG-database (16 kHz) - reorganisert

Skildring

Denne databasen er laget av Nordisk språkteknologi som datagrunnlag for talegjenkjenning og diktering på norsk. I denne versjonen (fra 2022) er dataene strukturert på nytt, slik at databasen enklere kommer til anvendelse.

Datasettet ble gjennomgått på nytt i desember 2023; duplikater ble fjernet, det ble ryddet i metadataene og filnavn ble standardisert. Se dokumentasjonsfilen for detaljer.

I den opprinnelige versjonen av materialet var filene organisert i en bestemt mappestruktur der mappenavnene var meningsbærende. Filnavnene var imidlertid ikke meningsbærende, og det fantes også tilfeller av filer med samme navn i forskjellige mapper. Dette viste seg å være upraktisk, siden brukerne måtte beholde den opprinnelige mappestrukturen for å kunne benytte seg av dataene.

Filene har fått nye navn, slik at alle filnavn er unike og meningsbærende uavhengig av mappestrukturen. De opprinnelige metadatafilene var i spl-format; disse er konvertert til JSON-format. Metadatafilene er anonymisert, og tekstkodingen er endret fra ANSI til UTF-8. Metadata og transkripsjoner foreligger også som CSV-filer.

Se dokumentasjonsfilen for en full beskrivelse av dataene og endringene som er gjort.

Distribusjonar
1

Last ned
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/54
Direkte nedlasting:
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
I samsvar med:
Ikkje oppgitt

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
ONOMASTICA uttaleleksikon 2Nasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang