Hopp til hovedinnhold
Nasjonalbiblioteket

TeflonNorL2 NOCASA Challenge Dataset

Distribusjoner 
1
API-er 
0
  • Navnløs distribusjon
    • application/x-tgz , application/x-gzip
    Last ned
Ingen registrerte API-er tilgjengeliggjør dette datasettet.
OversiktDistribusjoner og API-er 
1
DetaljerDiskusjoner 
0
RDF

Beskrivelse

This is a specialized version of the data set that has been used for the Non-native Children’s Automatic Speech Assessment Challenge (NOCASA), https://teflon.aalto.fi/nocasa-2025/, hosted by the IEEE International Workshop on Machine Learning for Signal Processing (MLSP) 2025, https://2025.ieeemlsp.org/en/

The full dataset is described here:

Anne Marte Haug Olstad, Anna Smolander, Sofia Strömbergsson, Sari Ylinen, Minna Lehtonen, Mikko Kurimo, Yaroslav Getman, Tamás Grósz, Xinwei Cao, Torbjørn Svendsen, and Giampiero Salvi. 2024. Collecting Linguistic Resources for Assessing Children’s Pronunciation of Nordic Languages. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 3529–3537, Torino, Italia. ELRA and ICCL.

The specialized version of the data and the challenge are described here:

Getman, Y., Grósz, T., Kurimo, M., & Salvi, G. (2025). "Non-native Children's Automatic Speech Assessment Challenge (NOCASA)". IEEE International Workshop on Machine Learning for Signal Processing (MLSP), Istanbul, Turkey

Compared to the full dataset a number of modifications have been made to the challenge data:

  • some recordings were excluded
  • the data was split into training and test set following a procedure that should keep a similar distribution of speaker characteristics
  • the file names were anonymized to hide the speaker identities (it should not be possible to infer which recordings correspond to the same speaker)
  • metadata was limited to orthographic transcription and assessment score for the training data and only orthographic transcription for the test data

Here, we also release assessment scores for the test data separately.

Files:

  • train_audio.tgz: audio files for the training set
  • test_audio.tgz: audio files for the test set
  • train.csv.gz: metadata for the training data (orthographic transcriptions and assessment scores)
  • test.csv.gz: metadata for the test data (orthographic transcriptions)
  • test_full.csv.gz: metadata for the test data (orthographic transcriptions and assessment scores)

Scroll down to download the files.

Contact professor Giampiero Salvi (giampiero.salvi@ntnu.no) at NTNU if you have any questions about the dataset.

Distribusjoner
1

Navnløs distribusjon
  • application/x-tgz , application/x-gzip
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/94
Status:
Ikke oppgitt
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
Ikke oppgitt
I samsvar med:
Ikke oppgitt
Rettigheter for bruk:
Ikke oppgitt
Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

SCARRIE LeksikonNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Tekster fra norsk WikipediaNasjonalbiblioteket
Allmenn tilgang

Distribusjoner
1

Navnløs distribusjon
  • application/x-tgz , application/x-gzip
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/94
Status:
Ikke oppgitt
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
Ikke oppgitt
I samsvar med:
Ikke oppgitt
Rettigheter for bruk:
Ikke oppgitt
Last ned

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Kontaktinformasjon

Kontaktpunkt:
Ikke oppgitt
Nettside:
https://www.ntnu.edu/employees/giampiero.salvi
E-post:
giampiero.salvi@ntnu.no
Telefon:
Ikke oppgitt

Om dataene

Språk:
Ikke oppgitt
Innholdsleverandører:
Ikke oppgitt
Opphav:
Ikke oppgitt
Oppdateringsfrekvens:
Ikke oppgitt
Først utgitt:

Denne datoen sier når dataene i dette datasettet første gang ble utgitt. Det kan ha skjedd før datasettet ble publisert på data.norge.no.

Ikke oppgitt
Sist oppdatert:
23. mars 2024
Nøyaktighet:
Ikke oppgitt
Tilgjengelighet:
Ikke oppgitt
Kompletthet:
Ikke oppgitt
Aktualitet:
Ikke oppgitt
Relevans:
Ikke oppgitt
Geografisk avgrensning:
Ikke oppgitt
Tidsmessig avgrensning:
Ikke oppgitt
I samsvar med:

Referanse til en implementasjonsregel eller annen spesifikasjon, som ligger til grunn for opprettelsen av datasettet.

Ikke oppgitt

Lovhjemler

Ikke oppgitt

Begreper brukt i datasett

Ikke oppgitt

Referanser

Ikke oppgitt

Om datasettet

Utgiver:
Nasjonalbiblioteket
Publisert:

Denne datoen sier når datasettet ble høstet av data.norge.no. Det kan ha vært tilgjengelig tidligere andre steder.

Les mer om høsting her

3. mars 2026
Sist oppdatert:
13. mars 2026
Landingsside:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Datasettype:
Ikke oppgitt
Metadatakvalitet:

Metadatakvalitet er en indikator på hvor godt datasettene er beskrevet ved hjelp avmetadata.

Les mer om metadatakvalitet her

God (53%)
URI:

Tema

Nøkkelord

Diskusjoner på Datalandsbyen
0

Ingen diskusjoner funnet

Hva er Datalandsbyen?

Datalandsbyen er vårt nettforum hvor du kan etterspørre data, dele erfaringer og spørre om råd som gjelder datadeling og informasjonsforvaltning.