Duval-Guennoc (2022-)
- Duval-Guennoc, Gweltaz. 2022-présent. 'Anaouder, a VOSK model for the Breton language', texte et github.
- Anaouder est une boîte à outils en ligne de commande pour la reconnaissance vocale (speech-to-text) en breton, sous licence MIT.
- Anaouder est disponible dans la bibliothèque python, pour Linux, Windows et MacOS. Philippe Argouarc'h en fournit une interface consultable en ligne.
Les fonctionnalités proposées sont :
- Retranscription de fichiers audio ou vidéo (liste des formats supportés).
- Création automatique de sous-titres d'après un fichier audio ou video seul.
- Alignement automatique de texte d'après un fichier audio ou video.
- Inférence en temps réel à l'aide d'un microphone.
- Préservation des majuscules (>1500 noms propres, >200 acronymes)
- Normalisation et normalisation-inverse des nombres, dates, quantités...
- Fonctionnement en local, sans connexion internet.
Ces outils s'articulent autour d'un modèle hybride (réseau neuronal profond pour le modèle audio et modèle de langue de type N-Gram) au format Vosk, entrainé à l'aide du framework Kaldi.
Les modèles Vosk ne sont pas les plus récents, ni les plus performants, mais ils bénéficient d'un écosystème riche leur permettant de s'intégrer facilement dans de nombreuses applications existantes. Ils sont également très légers et peuvent s'exécuter, hors ligne, sur du matériel daté et même sur des smartphones Android d'entrée de gamme.
Entraîné sur un peu moins de 60 heures de données audio alignées, le modèle vosk-br-0.9 (version mars 2024) affiche une performance de 37,14% de WER (Word Error Rate, ou fréquence des mots erronés) sur le dataset de test de Mozilla Common Voice V13. Testé dans des conditions réelles (émissions en breton "Bali Breizh"), il affiche des performances variant entre 20% et 40% de WER, en fonction des conditions de prise de son et de l'accent des locuteurs.