Hopp til hovudinnhald
Nasjonalbiblioteket

TeflonNorL2 NOCASA Challenge Dataset

Distribusjonar 
1
API-ar 
0
  • Namnlaus distribusjon
    • application/x-tgz , application/x-gzip
    Last ned
Ingen registrerte API-ar tilbyr dette datasettet.
OversiktDistribusjonar og API-ar 
1
DetaljarDiskusjonar 
0
RDF

Skildring

This is a specialized version of the data set that has been used for the Non-native Children’s Automatic Speech Assessment Challenge (NOCASA), https://teflon.aalto.fi/nocasa-2025/, hosted by the IEEE International Workshop on Machine Learning for Signal Processing (MLSP) 2025, https://2025.ieeemlsp.org/en/

The full dataset is described here:

Anne Marte Haug Olstad, Anna Smolander, Sofia Strömbergsson, Sari Ylinen, Minna Lehtonen, Mikko Kurimo, Yaroslav Getman, Tamás Grósz, Xinwei Cao, Torbjørn Svendsen, and Giampiero Salvi. 2024. Collecting Linguistic Resources for Assessing Children’s Pronunciation of Nordic Languages. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 3529–3537, Torino, Italia. ELRA and ICCL.

The specialized version of the data and the challenge are described here:

Getman, Y., Grósz, T., Kurimo, M., & Salvi, G. (2025). "Non-native Children's Automatic Speech Assessment Challenge (NOCASA)". IEEE International Workshop on Machine Learning for Signal Processing (MLSP), Istanbul, Turkey

Compared to the full dataset a number of modifications have been made to the challenge data:

  • some recordings were excluded
  • the data was split into training and test set following a procedure that should keep a similar distribution of speaker characteristics
  • the file names were anonymized to hide the speaker identities (it should not be possible to infer which recordings correspond to the same speaker)
  • metadata was limited to orthographic transcription and assessment score for the training data and only orthographic transcription for the test data

Here, we also release assessment scores for the test data separately.

Files:

  • train_audio.tgz: audio files for the training set
  • test_audio.tgz: audio files for the test set
  • train.csv.gz: metadata for the training data (orthographic transcriptions and assessment scores)
  • test.csv.gz: metadata for the test data (orthographic transcriptions)
  • test_full.csv.gz: metadata for the test data (orthographic transcriptions and assessment scores)

Scroll down to download the files.

Contact professor Giampiero Salvi (giampiero.salvi@ntnu.no) at NTNU if you have any questions about the dataset.

Distribusjonar
1

Namnlaus distribusjon
  • application/x-tgz , application/x-gzip
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/94
Status:
Ikkje oppgitt
Direkte nedlasting:
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
Ikkje oppgitt
I samsvar med:
Ikkje oppgitt
Rettigheter for bruk:
Ikkje oppgitt
Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Liknande datasett

SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang

Distribusjonar
1

Namnlaus distribusjon
  • application/x-tgz , application/x-gzip
Skildring:
Ikkje oppgitt
Tilgjengeleg URL:
https://hdl.handle.net/21.11146/94
Status:
Ikkje oppgitt
Direkte nedlasting:
API:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Lisens:
Ikkje oppgitt
I samsvar med:
Ikkje oppgitt
Rettigheter for bruk:
Ikkje oppgitt
Last ned

API-ar som tilbyr dette datasettet
0

Ingen registrerte API-ar tilbyr dette datasettet.

Kontaktinformasjon

Kontaktpunkt:
Ikkje oppgitt
Nettside:
https://www.ntnu.edu/employees/giampiero.salvi
E-post:
giampiero.salvi@ntnu.no
Telefon:
Ikkje oppgitt

Om dataane

Språk:
Ikkje oppgitt
Innhaldsleverandørar:
Ikkje oppgitt
Opphav:
Ikkje oppgitt
Oppdateringsfrekvens:
Ikkje oppgitt
Først utgjeve:

Denne datoen seier når dataa i dette datasettet først blei utgitt. Det kan ha skjedd før datasettet blei publisert på data.norge.no.

Ikkje oppgitt
Sist oppdatert:
23. mars 2024
Nøyaktigheit:
Ikkje oppgitt
Tilgjenge:
Ikkje oppgitt
Fullstendigheit:
Ikkje oppgitt
Aktualitet:
Ikkje oppgitt
Relevans:
Ikkje oppgitt
Geografisk område:
Ikkje oppgitt
Tidsrom:
Ikkje oppgitt
I samsvar med:

Referanse til ei implementeringsregel eller anna spesifikasjon som ligg til grunn for datasettet.

Ikkje oppgitt

Lovheimler

Ikkje oppgitt

Omgrep brukte i datasettet

Ikkje oppgitt

Referansar

Ikkje oppgitt

Om datasettet

Utgjevar:
Nasjonalbiblioteket
Publisert:

Denne datoen viser når datasettet vart henta inn av data.norge.no. Det kan ha vore tilgjengeleg tidlegare andre stader.

Les meir om innhenting her

3. mars 2026
Sist oppdatert:
13. mars 2026
Landingsside:
Ikkje oppgitt
Dokumentasjon:
Ikkje oppgitt
Datasettype:
Ikkje oppgitt
Metadatakvalitet:

Metadatakvalitet er ein indikator på kor godt datasettene er beskrive ved hjelp av metadata.

Les meir om metadatakvalitet her

God (53%)
URI:

Tema

Nøkkelord

Ikkje oppgitt

Diskusjonar på Datalandsbyen
0

Ingen diskusjonar funne

Kva er Datalandsbyen?

Datalandsbyen er vårt nettforum der du kan be om data, dele erfaringar og spørje om råd som gjeld deling av data og informasjonsforvalting.