Duval-Guennoc (2022-)

De Arbres
  • Duval-Guennoc, Gweltaz. 2022-présent. 'Anaouder, a VOSK model for the Breton language', texte et github.


Anaouder est une boîte à outils pour la reconnaissance vocale (speech-to-text) en breton, sous licence MIT.
Anaouder est disponible dans la bibliothèque python. Philippe Argouarc'h en fournit une interface consultable en ligne.

Les fonctionnalités proposées sont :

  • Retranscription de fichiers audio ou vidéo (liste des formats supportés).
  • Création automatique de sous-titres d'après un fichier audio ou video seul.
  • Alignement automatique de texte d'après un fichier audio ou video.
  • Inférence en temps réel à l'aide d'un microphone.

Ces outils s'articulent autour d'un modèle hybride (réseau neuronal profond pour le modèle audio et modèle de langue de type N-Gram) au format Vosk, entrainé à l'aide du framework Kaldi.

Les modèles Vosk ne sont pas les plus récents, ni les plus performants, mais ils bénéficient d'un écosystème riche leur permettant de s'intégrer facilement dans de nombreuses applications existantes. Ils sont également très légers et peuvent s'exécuter, hors ligne, sur du matériel daté et même sur des smartphones Android d'entrée de gamme.

Le modèle vosk-br-0.7 (version mai 2023) affiche une performance de 36,4% de WER (word error rate) sur le dataset de test de Mozilla Common Voice V11.