Traitement automatique des langues - Breton

De Arbres

Le traitement automatique des langues (TAL) concerne tout le champ de traitement des langues par le biais d'instruments automatiques. Le traitement automatique de la parole concerne précisément le traitement automatique des réalisations (formes orales ou signées pour les langues signées). Ce champ comprend les systèmes de synthèse vocale.


Accessibilité en breton des outils numériques

Facebook est utilisable en breton depuis 2014 (Ar Mogn 2015). L'Office Public de la Langue Bretonne fournit la traduction en breton des données du CLDR (Common Locale Data Repository).


Matériel existant

L'Office Public de la Langue Bretonne fournit en ligne un traducteur automatique breton > français.


Le présent site ARBRES, développé depuis 2009, comporte une masse importante de données du breton localisées par leur dialecte, traduites mais aussi glosées. Ces données sont tirées de 392 sources de corpus différents, du vieux breton aux dialectes bretons modernes. Mélanie Jouitteau et Reun Bideault ont présenté en 2018 à la DGLFLF un projet de plate-forme numérique pouvant articuler ces données enrichies avec des données de dépôt libre, dont chaque collecteur pourraient rester indépendamment propriétaire, afin de pouvoir proposer un hébergement pérenne, dans une banque cross-interrogeable, des données rendues disponibles sur ARBRES mais aussi sur les différents sites de collecte comme les Dictionnaires bretons parlants (Cheveau & Kersulec 2012-évolutif), la banque sonore des dialectes du breton (Desseigne & al. 2013-2018), Brezhoneg Bro-Vear (Yekel, Georgelin & Ar C'hozh 2015-2021), et les futurs projets émergents. Le projet n'a pas pu être considéré pour financement.


Ar Mogn (2015:15m40s) mentionne l'existence d'un corpus de 43000 phrases bretonnes traduites par l'Office.


Parole orale

synthèse vocale

A la fin des années 90, trois publications consécutives présentent un projet de synthèse de la parole à partir du dictionnaire Favereau (1993): Messager, Gourmelon, Mercier & Siroux (1998), Gourmelon, Mercier, Messager & Siroux (1999) et Mercier, Guyomard & Siroux (1999). En 2015, l'Office Public de la Langue Bretonne (OPLB) mentionne des travaux menés par l'ENSSAT (Rennes I) à Lannion (Ar Mogn 2015:18m24s). Pour la période pour 2020-2021, l'OPLB et la Région Bretagne ont financé un partenariat ENSSAT/Skol Vreizh pour un projet de synthèse du breton. Damien Lolive, enseignant-chercheur en Informatique au laboratoire Irisa (ENSSAT), y travaille avec Hervé Gourmelon, ingénieur de logiciel pour l'entreprise privée Ekinops (Lannion), indépendamment à Skol Vreizh.


reconnaissance de la parole

?

Taggeurs

La DGLFLF a financé en 2018 un projet de développement des outils du TAL pour le breton par Annie Foret (IRISA, Rennes I), avec entre autres la réalisation ou amélioration d'analyseurs (aux niveaux morphologique, syntaxique), et lien réseau sémantique.

Bibliographie

Cette bibliographie regroupe les références sur le traitement automatique de la langue bretonne, mais aussi plus globalement les projets numériques.


sur le breton

  • An Intanv, P. 1994. War hent fonetikadur ar Brezhoneg / Sur les chemins de la phonétisation du breton, mémoire de maîtrise, Université de Rennes II.
  • Ar Barzh, H. 1996. Corpus de parole pour la synthèse de la langue bretonne, TES/IRISA.
  • Aubry, Yves. 2000. Synthèse vocale en breton, mémoire de maîtrise, IUP MIME Le Mans, TES/ENSSAT.
  • Aubry, Y. 2004. Logiciel du traitement de la parole et d’aide à l’enseignement et à l’apprentissage de la prosodie: application au breton, travaux de D.R.T. d'ingénierie, Université du Maine.
  • Dupin, J. 2001. Dictionnaire vocal multimédia français – breton, rapport de stage, TES/IRISA, IUP MIME Le Mans.
  • Foret, Annie. 2016. 'Enrichissement de données en breton avec Wordnet', présentation à la Conférence CLTW (Traitement automatique des langues celtiques).
  • Foret, Annie, Valérie Bellynck et Christian Boitet. 2015. 'Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton', présentation à la conférence TALARE (Traitement Automatique des Langues Régionales de France et d'Europe).
  • Foret, Annie. 2018. 'Breton-français et numérique, projet LangNum-br-fr (phase conception)'. Conférence Langues et numérique 2018, Juillet 2018, Paris, France. texte ou texte.
  • Gourmelon, Herve. 1996. Speech synthesis software using the TDPSOLA method, rapport de stage IRESTE, université de Limerick, Computer sciences & Information System Department.
  • Gourmelon, Herve, G. Mercier, J. P. Messager, J. Siroux. 1999. 'Synthèse vocale en breton', actes du colloque : le bilinguisme précoce en Bretagne, en pays celtiques et en Europe atlantique, Klask 5, PUR, Rennes, 125-138.
  • Guillou, A. 2000. Correcteur de prosodie pour la langue bretonne, rapport de projet.
  • Jouitteau, M. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte en ligne.
  • L’Hostis, E. 2002. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.
  • Madigou, X. 1997. Interface graphique d’un dictionnaire vocal en breton, rapport de projet TES/IRISA ENSAT.
  • Mercier, G., M. Guyomard & J. Siroux. 1999. Synthèse de la parole en breton – Didacticiels pour une langue minoritaire, Speech Technology Applications in CALL, Eurocall 99, 57-61.
  • Messager, Jean-Pierre, Herve Gourmelon, Guy Mercier & Jacques Siroux. 1998. 'Research in speech processing for breton language training', ESCA-STiLL-1998, 29-32. texte.
  • Mocquard, G. 1999. Correcteur de prosodie, rapport de stage IFSIC, TES/IRISA, ENSSAT.
  • Mocquard, C. 2001. Korpus prosodiezh, mémoire de maîtrise, Université de Rennes II.
  • Ar Mogn, Olier. 2015. 'Langue bretonne et nouvelles technologies : une vitalité à soutenir', présentation à Technologies pour les Langues Régionales de France, Meudon. vidéo.
  • Morvan, Pierre. 2019. Ha difaziañ a ra LanguageTool ar c’hemmadurioù? Peseurt hentenn sevel evit gellet gouzout peseurt barregezh a zo gant an difazier LanguageTool war ar c'hemmadurioù?, mémoire de maîtrise, Université de Rennes II.
  • Petit, M. 2003. Correcteur orthographique de langue bretonne, rapport de projet, ENSSAT, 1-37.
  • Poibeau, Thierry. 2014. 'Processing Mutations in Breton with Finite-State Transducers', Proceedings of the Celtic Language Technology Workshop, Aug 2014, Dublin, Ireland. texte.
  • Tanguy, E. 2000. Dictionnaire vocal Gervogal breton / français, français / breton, mémoire de licence, IUP MIME, Le Mans TES/IRISA, Lannion.
  • Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.

sur le TAL en général, par des chercheurs ayant étudié le breton par ailleurs

  • Heinecke, J. 2013. 'Typologie et ressources pour le TALN des langues caucasiennes: le cas du tchétchène', Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d'Europe, Sables d'Olonne, 181-194
  • Plu, Michel; Heinecke, J. 2011. 'Interprétation linguistique de requêtes pour un moteur de questions-réponses', CORIA 2011, Avignon, France, 593-598.
  • Plu, Michel; Heinecke, J. 2011. 'Moteur de questions-réponses d'une base de connaissances', EGC 2011, Brest, France, 593-598.
  • Heinecke, J. 2009. 'Matching natural language data on ontologies', Proceedings of the 4th International Workshop on Ontology Matching (OM-2009) Collocated with the 8th International Semantic Web Conference (ISWC-2009) Chantilly, USA, October 25, 2009. ISSN: 1613-0073.
  • Léger, Alain; Heinecke, Johannes; Nixon, Lyndon, L.B.; Shvaiko, Pavel; Charlet, Jean; Hobson, Paola; François Goasdoué. 2008. 'The Semantic Web from an Industrial Perspective', García, Roberto (éd.), Semantic Web for Business: Cases and Applications. New York: IGI GLobal. ISBN: 978-1-60566-066-0, 232-268.
  • Johannes Heinecke, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem. 2008. 'TiLT : plateforme pour le Traitement Automatique des Langues Naturelles', TAL 49:2.
  • Maxime Amblard, Johannes Heinecke, Estelle Maillebuau. 2008. 'Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel', TALN 2008, 350-359.
  • Giorgo Akrivas, Georgios Th. Papadopoulos, Matthijs Douze, Johannes Heinecke, Noel O'Connor, Carsten Saathoff, Simon Waddington. 2007. 'Knowledge-based Semantic Annotation and Retrieval of Multimedia Content', SAMT 2007 - 2nd International Conference on Semantic and Digital Media Technologies, 5-7 December 2007, Genoa, Italy.
  • Stamatia Dasiopoulou, Johannes Heinecke, Carsten Saathoff, Michael Strintzis. 2007. 'Multimedia reasoning with natural language support', IEEE-International Conference on Semantic Computing, Irvine CA.
  • Park, Jungyeul; Maillebuau, Estelle; Guimier De Neef, Emilie; Vinesse, Jérôme; Heinecke, Johannes. 2007. 'Evaluating an Interlingual Semantic Representation', Gerdes, Kim; Reuther, Tilmann; Wanner, Leo (éds.), Meaning - Text Theory. München - Wien.
  • Alain Léger, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paula Hobson, François Goasdoué. 2006. 'The Semantic Web from an Industrial Perspective', Barahona, Pedro; Bry, François; Franconi, Enrico; Henze, Nicola; Sattler, Ulrike (éds.), Reasoning Web. Second International Summer School 2006 [ =Lecture Notes in Computer Science 4126], Heidelberg: Springer, 232-268.
  • Heinecke, J.2006. 'Génération automatique des représentation ontologiques', Mertens, Piet; Fairon, Cédrick; Dister, Anne; Watrin, Patrick (éds.), Verbum ex Machina, Actes de la 13e conférence sur le traitement automatique des langues naturelles, vol. 2 Louvain: Presses universitaires de Louvain, 502-511.