Traitement automatique des langues - Breton

De Arbres

Le traitement automatique des langues (TAL) concerne tout le champ de traitement des langues par le biais d'instruments automatiques.

Le traitement automatique de la parole concerne précisément le traitement automatique des réalisations (formes orales ou signées pour les langues signées). Ce champ comprend les systèmes de synthèse vocale.

Dans ses développements les plus avancés, le traitement automatique des langues utilise l'intelligence artificielle et les techniques de réalité augmentée, tant pour les outils de traduction automatique que pour les assistants virtuels ou la construction d'outils de pédagogie linguistique (pour une prospective et un état des lieux, voir Sayers & al. 2021). Ces outils émergents pour les langues économiquement favorisées se nourrissent de masses importantes de données qui ne sont pas disponibles pour les langues comme le breton. Les outils sont en évolution constante vers des possibilités de développement à partir de corpus plus restreints, mais tout retard se paye lourdement car dans ce domaine, le développement nourrit le développement. Cet article dresse un ineventaire de l'existant et mentionne quelques pistes.


Accessibilité en breton des outils numériques

Facebook est utilisable en breton depuis 2014 (Ar Mogn 2015). L'Office Public de la Langue Bretonne fournit la traduction en breton des données du CLDR (Common Locale Data Repository).


Matériel existant et en développement

traducteur br->fr

L'Office Public de la Langue Bretonne fournit en ligne un traducteur automatique breton > français. Le sens inverse de traduction n'est pas envisageable avant une perfection du traducteur, car le risque d'utilisation sans correction par des non-locuteurs est grand, et serait très dommageable.

En utilisant la technologie des réseaux de neurones, l'équipe OPUS-MT de l'université d'Helsinki développe un traducteur automatique multilingue qui comprend un traducteur anglais-breton et breton-anglais.


corpus existants

Le présent site ARBRES, développé depuis 2008, comporte une masse importante de données du breton localisées par leur dialecte, traduites mais aussi glosées. Ces données sont tirées de 398 sources de corpus différents, du vieux breton aux dialectes bretons modernes. Mélanie Jouitteau et Reun Bideault ont présenté en 2018 à la DGLFLF un projet de plate-forme numérique pouvant articuler ces données enrichies avec des données de dépôt libre, dont chaque collecteur pourrait rester indépendamment propriétaire, afin de pouvoir proposer un hébergement pérenne, dans une banque cross-interrogeable, des données rendues disponibles sur ARBRES mais aussi sur les différents sites de collecte comme les Dictionnaires bretons parlants (Cheveau & Kersulec 2012-évolutif), la banque sonore des dialectes du breton (Desseigne & al. 2013-2018), Brezhoneg Bro-Vear (Yekel, Georgelin & Ar C'hozh 2015-2021), et les futurs projets émergents. Le projet n'a pas été considéré pour financement.


Ar Mogn (2015:15m40s) mentionne l'existence d'un corpus de 43000 phrases bretonnes traduites par l'Office.

L'association An Drouizig revendique pour la construction de son correcteur orthographique Difazier [ver 4.4] l'analyse d'un corpus linguistique de 20 millions de mots bretons.

Leixa & al. (2014) recensent 420 corpus utilisables, dont 403 corpus oraux et 17 corpus textes. "On trouve parmi ces ressources de petits enregistrements audio de quelques minutes, mais également d’importants corpus alignés pouvant servir de base à des technologies de la langue. Parmi les ressources audio, nous avons par exemple les enregistrements effectués par M. Jean Le Dû lors d’une enquête dialectologique réalisée en Bretagne, en vue de constituer le Nouvel Atlas Linguistique de la Basse-Bretagne". L'utilisabilité de ces derniers corpus serait à vérifier au cas par cas, car il s'agit de séances d'élicitation de mots isolés de vocabulaire à partir de gestes produits par le chercheur, et qui sont donc par définitions absents de l'enregistrement. Sur l'enregistrement de Bourg-Blanc ici, la locutrice répond la plupart du temps par un mot isolé, et son intonation est souvent celle, interrogative, de la locutrice qui demande si sa réponse est satisfaisante. L'identification précise de l'ensemble des corpus listés dans Leixa & al. (2014) "est disponible sur le CD qui est joint au rapport" à la DGLFLF.


Les enregistrements audio de corpus libres existent dans les différents dialectes du breton, stockés dans les archives des différentes radios bretonnes, sous des formats différents allant de l'analogique au numérique.

Parole orale

 Aubry (2004:13):
 "En 1994, le responsable des collections à T.E.S. (Ti Embann ar Skolioù Brezhonek, maison d’édition pour les écoles bretonnes), R. Le Coadic, des personnes de Skol Vreizh, des enseignants linguistes (université de Rennes II et de Lampeter au pays de Galles), des chercheurs de l’I.R.I.S.A. (Institut de recherches en Informatique et Systèmes Aléatoires), enseignants à l’ENSSAT et des ingénieurs d’Alcatel et du C.N.E.T. (France Télécom), ayant travaillé dans le domaine du traitement du signal, de la parole ou dans l’informatique s’unissent pour former un groupe de travail informel. Ce groupe de travail se réunissant tous les mois essaie de faire le point sur l’état des différentes technologies de l’époque et sur les besoins pédagogiques des enseignants et des élèves des différentes filières de l’éducation (Diwan, écoles bilingues du public et du privé) enseignant le breton et en breton.
 En 1995, T.E.S., l’I.R.I.S.A., l’université de Rennes II, Skol Vreizh et les membres du groupe de travail décident de coopérer pour développer de nouveaux outils pédagogiques intégrant les technologies de l’information et les technologies vocales afin de tirer le meilleur parti de la rapidité, de la fiabilité et de la robustesse des techniques de traitement de la parole (analyse, synthèse, reconnaissance, visualisation) et pour lancer le projet K.G.B. (Kenaoz ar Gomz e Brezhoneg, synthèse de la parole en breton) dans le cadre du projet CORDIAL de l’IRISA."


synthèse vocale

A la fin des années 90, TES et l'équipe CORDIAL du laboratoire IRISA (U. Rennes I) sortent le dictionnaire parlant Favereau, IRISA & TES (1999), Ar geriadur a gomz brezhoneg a-vremañ à Morlaix aux éditions Skol Vreizh. Il s'agit d'un dictionnaire vocal de 36.000 mots sur CD-ROM, tirés des entrées du Dictionnaire du breton contemporain de F. Favereau, 1997. Le journal Le Télégramme annonce la sortie du CD-rom le 26 mars 1999. C'est selon l'article "l'aboutissement de trois années de recherche sur la synthèse vocale en langue bretonne qui, avec l'appui de l'Union européenne, a réuni une exceptionnelle moisson de compétences [avec] l'ENSSAT (École nationale supérieure des sciences appliquées et de technologie) à Lannion, [l'équipe CORDIAL du laboratoire] IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) à Rennes, les universités de Rennes 2, Mons (Belgique), Limerick (Irlande) et Lampeter (Pays de Galles)." L'article ajoute que la chanteuse Annie Ebrel a du pour ce faire prononcer "3.000 demi-syllabes sur tous les tons". Plusieurs publications universitaires retracent la genèse de ce travail (voir le résumé de Aubry 2004:12-13). Ar Barzh (1996) évoque la constitution d'un corpus de parole pour la synthèse de la langue bretonne, puis trois publications consécutives présentent l'aboutissement de ce projet de synthèse de la parole appelé Kenaoz ar Gomz e Brezhoneg (KGB): Messager, Gourmelon, Mercier & Siroux (1998), Gourmelon, Mercier, Messager & Siroux (1999) et Mercier, Guyomard & Siroux (1999).

La diffusion de ce travail important est disproportionnellement réduite. Mille exemplaires en ont été distribués aux écoles. William Marois, alors recteur d'académie, avait déclaré au Télégramme que "ce produit innovant marque la volonté de l’Éducation nationale de développer l'apprentissage de la langue". Au début des années 2000, le dictionnaire Favereau (1993) apparaît en ligne, mais sans parole associée. Le CD-ROM n'est plus au catalogue des éditions Skol Vreizh.

Dans Messager & al. (1998), le dictionnaire parlant est considéré comme réalisé, et l'équipe se tourne vers la création d'un entraineur prosodique pédagogique, et d'une amélioration globale de la prosodie obtenue. Irisa (2001) rend compte des progrès: "les principales améliorations concerne la modélisation prosodique. L’utilisation de nouveaux corpus de parole mis à notre disposition par l’université de Rennes I et le CRDP et la mise au point d’outils de segmentation automatique nous ont permis d’améliorer nos connaissances sur la prosodie du breton et d’améliorer les règles de calcul des paramètres prosodiques au niveau des syllabes accentuées et réduites."

En 2015, l'Office Public de la Langue Bretonne (OPLB) mentionne des travaux menés par l'ENSSAT (Rennes I) à Lannion (Ar Mogn 2015:18m24s). Pour la période 2020-2021, l'OPLB et la Région Bretagne ont financé un partenariat ENSSAT/Skol Vreizh pour un projet de synthèse de la voix en breton. Damien Lolive, enseignant-chercheur en Informatique au laboratoire Irisa (ENSSAT), coordonne le projet Breton TTS (Breton Text to Speech). Hervé Gourmelon, ingénieur de logiciel pour l'entreprise privée Ekinops (Lannion), indépendamment à Skol Vreizh, apporte un soutien sur la langue. Le laboratoire IRISA a annoncé sur son site la clôture de la première campagne d'enregistrement en octobre 2020.

Télégramme (1999) annonce pour 2001 "un logiciel de dictée avec un contrôle automatique adapté aux exercices individuels".

correcteur prosodique

Télégramme (1999) annonce "pour l'an 2.000 un cédérom de prosodie qui permettra ainsi, par un système de courbes, de corriger automatiquement en temps réel les défauts de prononciation de l'élève. Un apport fondamental dans une langue où l'accent tonique a tant d'importance." Irisa (2001) rend compte des progrès: "Les améliorations introduites dans ce logiciel ont porté principalement sur le module de comparaison dynamique entre la parole à segmenter et la parole « modèle ». Grâce à ce module, le tuteur peut maintenant créer ses propres exercices pédagogiques de manière plus conviviale car il peut segmenter ses enregistrements de manière quasi automatique en comparant la représentation spectrale de sa prononciation à la représentation acoustique de la même phrase produite par synthèse à partir du texte. Grâce à cette segmentation automatique, on peut synchroniser et superposer les différentes courbes prosodiques (énergie, fréquence fondamentale), syllabe par syllabe et ainsi bien visualiser les différences de production entre le maître et l’élève."

Aubry (2000, 2004) publie deux articles de compte-rendu détaillé de création de cet entraineur prosodique.


reconnaissance de la parole

Common voice de Mozilla a lancé en 2018 un module de collecte de la parole en crowdsourcing, qui permet aux utilisateurs d'enregistrer leur propre parole, ou d'évaluer les enregistrements laissés par d'autres (9h d'enregistrements validés en 2021).

Correcteurs orthographiques

Le compte rendu d'activités de l'IRISA (2001) mentionne qu'il "est désormais possible d’appeler le dictionnaire [vocal] comme outil de correction orthographique, dans une application de type traitement de texte".

Taggeurs

La DGLFLF a financé en 2018 un projet de développement des outils du TAL pour le breton par Annie Foret (IRISA, Rennes I), avec entre autres la réalisation ou amélioration d'analyseurs (aux niveaux morphologique, syntaxique), et lien réseau sémantique.


Intelligence artificielle

L'intelligence artificielle est sans équivoque la base des développements présents et futurs sur les technologies du langage (Sayers & al. 2021). La langue bretonne est encore loin de pouvoir aborder les réalisations dans ce domaine, mais il existe des pistes.

La fondation basque Alhuyar a reçu un soutien européen pour le développement sur 2020-2021 d'un assistant virtuel en basque (Smart euSpeaker project). Le logiciel comme l'assistant Mycroft voice (https://mycroft.ai/) sur lequel il est basé sont open source, et les développeurs promettent une réutilisabilité pour d'autres langues minorisées. Ces développements sont évidemment conditionnés à la synthèse de la voix, mais aussi à la reconnaissance vocale.


Ressources

La plateforme ELG (European Language Grid) regroupe au niveau européen les ressources concernant les technologies du langage et les langues d'Europe (Labropoulou & al. 2020, Rehm & al. 2021). La plate forme, en 2021, liste déja quelques ressources sur le breton concernant les technologie du langage.


Bibliographie

Cette bibliographie regroupe les références sur le traitement automatique de la langue bretonne, mais aussi plus globalement les projets numériques.


sur le breton

  • Aubry, Yves. 2000. Synthèse vocale en breton, mémoire de maîtrise, IUP MIME Le Mans, TES/ENSSAT.
  • Aubry, Y. 2004. Logiciel du traitement de la parole et d’aide à l’enseignement et à l’apprentissage de la prosodie: application au breton, travaux de D.R.T. d'ingénierie, Université du Maine.
  • Ar Barzh, H. 1996. Corpus de parole pour la synthèse de la langue bretonne, TES/IRISA.
  • Baxter, R.N. 2009. 'New technologies and terminological pressure in lesser-used languages. The Breton Wikipedia, from terminology consumer to potential terminology provider', Language Problems and Language Planning 33:1, 60-80, John Benjamins: Amsterdam/Philadelphia.
  • Blanchard, Jean-François. 2014. 'Pratiques langagières et processus dialogique d’identification pour une langue minorée. Le web en langue bretonne', Gaël Hily (dir.), Expression de l’identité dans le monde celtique, Rennes : TIR. 9-34.
  • Blanchard, Jean-François. 2015. Pratiques langagières et processus dialogiques d'identication sur les réseaux socionumériques. Le cas de la langue bretonne, ms. thèse. Université Rennes 2. texte.
  • Dauneau, Goulven. 2019. Brezhoneg, Niverel, Deskadurezh : hiziv ha warc’hoazh, mémoir de master, U. Rennes II. texte.
  • Dupin, J. 2001. Dictionnaire vocal multimédia français – breton, rapport de stage, TES/IRISA, IUP MIME Le Mans.
  • Favereau, IRISA & TES. 1999. Ar geriadur a gomz brezhoneg a-vremañ, Morlaix : Skol Vreizh - Dictionnaire vocal du breton contemporain sur CD-ROM, à partir du Dictionnaire du breton contemporain de F. Favereau, 1998.
  • Foret, Annie. 2017. 'Traitement automatique des langues, données légales, systèmes d’information et logique', CDN Convergences du droit et du numérique, Bordeaux, février 2017.
  • Foret, Annie. 2016. 'Enrichissement de données en breton avec Wordnet', présentation à la Conférence CLTW (Traitement automatique des langues celtiques).
  • Foret, Annie, Valérie Bellynck & Christian Boitet. 2015. 'Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton', présentation à la conférence TALARE (Traitement Automatique des Langues Régionales de France et d'Europe), texte.
  • Foret, Annie. 2018. 'Breton-français et numérique, projet LangNum-br-fr (phase conception)'. Conférence Langues et numérique 2018, Juillet 2018, Paris, France. texte ou texte.
  • Gourmelon, Herve. 1996. Speech synthesis software using the TDPSOLA method, rapport de stage IRESTE, université de Limerick, Computer sciences & Information System Department.
  • Gourmelon, Herve, G. Mercier, J. P. Messager, J. Siroux. 1999. 'Synthèse vocale en breton', actes du colloque : le bilinguisme précoce en Bretagne, en pays celtiques et en Europe atlantique, Klask 5, PUR, Rennes, 125-138.
  • Guillou, A. 2000. Correcteur de prosodie pour la langue bretonne, rapport de projet.
  • IRISA. 2001. Rapport d’activité 2001. Projet CORDIAL. Communication multimodale personne-machine à composantes orales : méthodes et modèles, texte.
  • Jouitteau, M. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte en ligne.
  • L’Hostis, E. 2002. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.
  • An Intanv, P. 1994. War hent fonetikadur ar Brezhoneg / Sur les chemins de la phonétisation du breton, mémoire de maîtrise, Université de Rennes II.
  • Madigou, X. 1997. Interface graphique d’un dictionnaire vocal en breton, rapport de projet TES/IRISA ENSAT.
  • Mercier, G., M. Guyomard & J. Siroux. 1999. Synthèse de la parole en breton – Didacticiels pour une langue minoritaire, Speech Technology Applications in CALL, Eurocall 99, 57-61.
  • Messager, Jean-Pierre, Herve Gourmelon, Guy Mercier & Jacques Siroux. 1998. 'Research in speech processing for breton language training', ESCA-STiLL-1998, 29-32. texte.
  • Mocquard, G. 1999. Correcteur de prosodie, rapport de stage IFSIC, TES/IRISA, ENSSAT.
  • Mocquard, C. 2001. Korpus prosodiezh, mémoire de maîtrise, Université de Rennes II.
  • Ar Mogn, Olier. 2015. 'Langue bretonne et nouvelles technologies : une vitalité à soutenir', présentation à Technologies pour les Langues Régionales de France, Meudon. vidéo.
  • Morvan, Pierre. 2019. Ha difaziañ a ra LanguageTool ar c’hemmadurioù? Peseurt hentenn sevel evit gellet gouzout peseurt barregezh a zo gant an difazier LanguageTool war ar c'hemmadurioù?, mémoire de maîtrise, Université de Rennes II.
  • Ofis. 2021a. Ar brezhoneg en oadvezh an niverel, diagnostik ha strategiezh diorren
  • Ofis. 2021b. La langue bretonne à l'ère du numérique, diagnostic et stratégie de développement
  • Petit, M. 2003. Correcteur orthographique de langue bretonne, rapport de projet, ENSSAT, 1-37.
  • Poibeau, Thierry. 2014. 'Processing Mutations in Breton with Finite-State Transducers', Proceedings of the Celtic Language Technology Workshop, Aug 2014, Dublin, Ireland. texte.
  • Tanguy, E. 2000. Dictionnaire vocal Gervogal breton / français, français / breton, mémoire de licence, IUP MIME, Le Mans TES/IRISA, Lannion.
  • Le Télégramme. 26 mars 1999. 'Synthèse vocale : les ordinateurs vont parler breton aux élèves'. texte.
  • Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.

sur le TAL en général, par des chercheurs ayant étudié le breton par ailleurs

  • Amblard, Maxime, Johannes Heinecke, Estelle Maillebuau. 2008. 'Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel', TALN 2008, 350-359.
  • Akrivas, Giorgo, Georgios Th. Papadopoulos, Matthijs Douze, Johannes Heinecke, Noel O'Connor, Carsten Saathoff, Simon Waddington. 2007. 'Knowledge-based Semantic Annotation and Retrieval of Multimedia Content', SAMT 2007 - 2nd International Conference on Semantic and Digital Media Technologies, 5-7 December 2007, Genoa, Italy.
  • Dasiopoulou, Stamatia, Johannes Heinecke, Carsten Saathoff, Michael Strintzis. 2007. 'Multimedia reasoning with natural language support', IEEE-International Conference on Semantic Computing, Irvine CA.
  • Heinecke, J. 2006. 'Génération automatique des représentation ontologiques', Mertens, Piet; Fairon, Cédrick; Dister, Anne; Watrin, Patrick (éds.), Verbum ex Machina, Actes de la 13e conférence sur le traitement automatique des langues naturelles, vol. 2 Louvain: Presses universitaires de Louvain, 502-511.
  • Heinecke, J. 2009. 'Matching natural language data on ontologies', Proceedings of the 4th International Workshop on Ontology Matching (OM-2009) Collocated with the 8th International Semantic Web Conference (ISWC-2009) Chantilly, USA, October 25, 2009. ISSN: 1613-0073.
  • Heinecke, J. 2013. 'Typologie et ressources pour le TALN des langues caucasiennes: le cas du tchétchène', Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d'Europe, Sables d'Olonne, 181-194
  • Heinecke, Johannes, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem. 2008. 'TiLT : plateforme pour le Traitement Automatique des Langues Naturelles', TAL 49:2.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paula Hobson, François Goasdoué. 2006. 'The Semantic Web from an Industrial Perspective', Barahona, Pedro; Bry, François; Franconi, Enrico; Henze, Nicola; Sattler, Ulrike (éds.), Reasoning Web. Second International Summer School 2006 [ =Lecture Notes in Computer Science 4126], Heidelberg: Springer, 232-268.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paola Hobson, François Goasdoué. 2008. 'The Semantic Web from an Industrial Perspective', García, Roberto (éd.), Semantic Web for Business: Cases and Applications. New York: IGI GLobal. ISBN: 978-1-60566-066-0, 232-268.
  • Lolive, Damien. 2008. Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix. Intelligence artificielle [cs.AI], thèse de l'Université Rennes 1. texte.
  • Park, Jungyeul; Maillebuau, Estelle; Guimier De Neef, Emilie; Vinesse, Jérôme; Heinecke, Johannes. 2007. 'Evaluating an Interlingual Semantic Representation', Gerdes, Kim; Reuther, Tilmann; Wanner, Leo (éds.), Meaning - Text Theory. München - Wien.
  • Plu, Michel, Heinecke, J. 2011. 'Interprétation linguistique de requêtes pour un moteur de questions-réponses', CORIA 2011, Avignon, France, 593-598.
  • Plu, Michel, Heinecke, J. 2011. 'Moteur de questions-réponses d'une base de connaissances', EGC 2011, Brest, France, 593-598.


autres langues minorisées

  • Millour, Alice & Karën Fort. 2018. 'À l’écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées', Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), texte.


prospectives régionales, françaises et européennes, DGLFLF

  • DGLFLF. 2015. Les technologies pour les langues régionales de France, Ministère de la Culture et de la Communication. [file:///C:/Users/melan/AppData/Local/Temp/TLRF.pdf texte].
  • Labropoulou, Penny & al. 2020. Making Metadata Fit for Next Generation Language Technology Platforms: The Metadata Schema of the European Language Grid. ms.
  • Rehm, Georg & al. 2021. 'European Language Grid: A Joint Platform for the European Language Technology Community', 16th EACL: Online - System Demonstrations, 221-230.
  • Leixa, Jérémy, Valérie Mapelli & Khalid Choukri. 2014. Inventaire des ressources linguistiques de langues de France, Organisme ELDA pour la DGLFLF.
  • Sayers, D., R. Sousa-Silva, S. Höhn et al. (2021). The Dawn of the Human-Machine Era: A forecast of new and emerging language technologies. Report for EU COST Action CA19102 'Language In The Human-Machine Era'. www.lithme.eu.