Leixa & al. (2014)

De Arbres
  • Leixa, Jérémy, Valérie Mapelli & Khalid Choukri. 2014. Inventaire des ressources linguistiques de langues de France, Organisme ELDA, ms. pour la DGLFLF.


synthèse pour la DGLFLF concernant le traitement automatique du breton


à propos, errata

L'approche est un brin parachutée. les auteurs comptent pour le breton 420 corpus utilisables, dont 403 corpus oraux et 17 corpus textes. "On trouve parmi ces ressources de petits enregistrements audio de quelques minutes, mais également d'importants corpus alignés pouvant servir de base à des technologies de la langue. Parmi les ressources audio, nous avons par exemple les enregistrements effectués par M. Jean Le Dû lors d'une enquête dialectologique réalisée en Bretagne, en vue de constituer le Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001). L'identification précise de l'ensemble des corpus listés "est disponible sur le CD qui est joint au rapport" à la DGLFLF.

Les auteurs se prononcent sur la réalisabilité d'outils numériques dont ils ignorent l’existence, au moins à l’état de développement ("la traduction automatique, ainsi que la correction orthographique sont des technologies tout à fait envisageables pour [...] le breton, notamment grâce à l’existence de nombreuses ressources écrites. En ce qui concerne la synthèse et la reconnaissance vocale, la faisabilité est moindre car cela nécessite d'importants corpus de parole, qui ne sont pas disponibles actuellement").