IRISA & OPAB (2024)
De Arbres
Révision datée du 19 mai 2024 à 16:06 par Mjouitteau (discussion | contributions)
- IRISA & OPAB. 2024. 'Corpus audio de phrases en breton - Korpus klevet frazennoù brezhonek', sur github, mars 2024.
- set de données alignées texte-audio de 34h, avec une voix féminine ("Aziliz", 17h11) et une voix masculine ("Per", 16h28), enregistrées entre 2021 et 2022.
- Sans mention de licence ouverte, il est publié sous licence propriétaire.
histoire éditoriale
Ce corpus est publié à la suite de Guennec & al. (2022) sur la création d'une synthèse de la voix en breton.
Il ne s'agit pas du set de données mentionné dans Guennec & al. (2022), qui reste non-publié. La présentation github des données de IRISA & OPAB (2024) mentionne aussi en marge les voix de "Loeiz" et "Rozenn", non-quantifiées, enregistrées après 2022, aussi non-publiées.
Erratum
Le READ ME annonce 20h d'enregistrement, mais le récapitulatif pour "Aziliz" et "Per" en totalise plus de 34h.
références
- Guennec, David, Hassan Hajipoor, Gwénolé Lecorvé, Pascal Lintanf, Damien Lolive, Antoine Perquin, Gaëlle Vidal. 2022. 'BreizhCorpus: a Large Breton Language Speech Corpus and its use for Text-to-Speech Synthesis', The Speaker and Language Recognition Workshop (Odyssey 2022), 263-270, texte.