Différences entre les versions de « Traitement automatique des langues - Breton »

De Arbres
Ligne 85 : Ligne 85 :


* Guillou, A. 2000. ''Correcteur de prosodie pour la langue bretonne'', rapport de projet.
* Guillou, A. 2000. ''Correcteur de prosodie pour la langue bretonne'', rapport de projet.
* IRISA. 2001. ''Rapport d’activité 2001. Projet CORDIAL. Communication multimodale personne-machine à composantes orales : méthodes et modèles'', [http://www.irisa.fr/ra2001/cordial.pdf texte].


* [[Jouitteau (2013b)|Jouitteau, M. 2013b]], 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', ''[http://lapurdum.revues.org/ Lapurdum]'' XVI,  Charles Videgain (dir.), 93-115, [http://lapurdum.revues.org/2357 texte en ligne].
* [[Jouitteau (2013b)|Jouitteau, M. 2013b]], 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', ''[http://lapurdum.revues.org/ Lapurdum]'' XVI,  Charles Videgain (dir.), 93-115, [http://lapurdum.revues.org/2357 texte en ligne].
Ligne 123 : Ligne 125 :


* Trebossen, Y. 1998. ''Dictionnaire vocal français – breton'', mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.
* Trebossen, Y. 1998. ''Dictionnaire vocal français – breton'', mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.


=== sur le TAL en général, par des chercheurs ayant étudié le breton par ailleurs ===
=== sur le TAL en général, par des chercheurs ayant étudié le breton par ailleurs ===

Version du 27 octobre 2021 à 11:31

Le traitement automatique des langues (TAL) concerne tout le champ de traitement des langues par le biais d'instruments automatiques.

Le traitement automatique de la parole concerne précisément le traitement automatique des réalisations (formes orales ou signées pour les langues signées). Ce champ comprend les systèmes de synthèse vocale.

Dans ses développements les plus avancés, le traitement automatique des langues utilise l'intelligence artificielle et les techniques de réalité augmentée, tant pour les outils de traduction automatique que pour les assistants virtuels ou la construction d'outils de pédagogie linguistique (pour une prospective et un état des lieux, voir Sayers & al. 2021). Ces outils émergents pour les langues économiquement favorisées se nourrissent de masses importantes de données qui ne sont pas disponibles pour les langues comme le breton. Les outils sont en évolution constante vers des possibilités de développement à partir de corpus plus restreints, mais tout retard se paye lourdement car dans ce domaine, le développement nourrit le développement.


Accessibilité en breton des outils numériques

Facebook est utilisable en breton depuis 2014 (Ar Mogn 2015). L'Office Public de la Langue Bretonne fournit la traduction en breton des données du CLDR (Common Locale Data Repository).


Matériel existant

L'Office Public de la Langue Bretonne fournit en ligne un traducteur automatique breton > français.


corpus existants

Le présent site ARBRES, développé depuis 2009, comporte une masse importante de données du breton localisées par leur dialecte, traduites mais aussi glosées. Ces données sont tirées de 398 sources de corpus différents, du vieux breton aux dialectes bretons modernes. Mélanie Jouitteau et Reun Bideault ont présenté en 2018 à la DGLFLF un projet de plate-forme numérique pouvant articuler ces données enrichies avec des données de dépôt libre, dont chaque collecteur pourrait rester indépendamment propriétaire, afin de pouvoir proposer un hébergement pérenne, dans une banque cross-interrogeable, des données rendues disponibles sur ARBRES mais aussi sur les différents sites de collecte comme les Dictionnaires bretons parlants (Cheveau & Kersulec 2012-évolutif), la banque sonore des dialectes du breton (Desseigne & al. 2013-2018), Brezhoneg Bro-Vear (Yekel, Georgelin & Ar C'hozh 2015-2021), et les futurs projets émergents. Le projet n'a pas été considéré pour financement.


Ar Mogn (2015:15m40s) mentionne l'existence d'un corpus de 43000 phrases bretonnes traduites par l'Office.


L'association An Drouizig revendique pour la construction de son correcteur orthographique Difazier [ver 4.4] l'analyse d'un corpus linguistique de 20 millions de mots bretons.


Parole orale

synthèse vocale

A la fin des années 90, Ti Embann ar Skolioù(Maison d’Édition des Écoles bretonnes, TES) et l'équipe CORDIAL du laboratoire IRISA (U. Rennes I) sortent Favereau, IRISA & TES (1999), Ar geriadur a gomz brezhoneg a-vremañ à Morlaix aux éditions Skol Vreizh. Il s'agit d'un dictionnaire vocal de 36.000 mots sur CD-ROM, tirés des entrées du Dictionnaire du breton contemporain de F. Favereau, 1998. Le journal Le Télégramme annonce la sortie du CD-rom le 26 mars 1999. C'est selon l'article "l'aboutissement de trois années de recherche sur la synthèse vocale en langue bretonne qui, avec l'appui de l'Union européenne, a réuni une exceptionnelle moisson de compétences [avec] l'ENSSAT (École nationale supérieure des sciences appliquées et de technologie) à Lannion, [l'équipe CORDIAL du laboratoire] IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) à Rennes, les universités de Rennes 2, Mons (Belgique), Limerick (Irlande) et Lampeter (Pays de Galles)." L'article ajoute que la chanteuse Annie Ebrel a du pour ce faire prononcer "3.000 demi-syllabes sur tous les tons". Plusieurs publications universitaires retracent la genèse de ce travail (voir le résumé de Aubry 2004:12-13). Ar Barzh (1996) évoque la constitution d'un corpus de parole pour la synthèse de la langue bretonne, puis trois publications consécutives présentent l'aboutissement de ce projet de synthèse de la parole appelé Kenaoz ar Gomz e Brezhoneg (KGB): Messager, Gourmelon, Mercier & Siroux (1998), Gourmelon, Mercier, Messager & Siroux (1999) et Mercier, Guyomard & Siroux (1999). Dans Messager & al. (1998), le dictionnaire parlant est considéré comme réalisé, et l'équipe se tourne vers la création d'un entraineur prosodique pédagogique, et d'une amélioration globale de la prosodie obtenue, et Aubry (2000, 2004) poursuit les recherches sur un entraineur prosodique. Au début des années 2000, le dictionnaire Favereau (1993) apparaît en ligne, mais sans parole associée. Le CD-ROM n'est plus au catalogue des éditions Skol Vreizh.


En 2015, l'Office Public de la Langue Bretonne (OPLB) mentionne des travaux menés par l'ENSSAT (Rennes I) à Lannion (Ar Mogn 2015:18m24s). Pour la période 2020-2021, l'OPLB et la Région Bretagne ont financé un partenariat ENSSAT/Skol Vreizh pour un projet de synthèse de la voix en breton. Damien Lolive, enseignant-chercheur en Informatique au laboratoire Irisa (ENSSAT), coordonne le projet Breton TTS (Breton Text to Speech). Hervé Gourmelon, ingénieur de logiciel pour l'entreprise privée Ekinops (Lannion), indépendamment à Skol Vreizh, apporte un soutien sur la langue. Le laboratoire IRISA a annoncé sur son site la clôture de la première campagne d'enregistrement en octobre 2020.


reconnaissance de la parole

?

Taggeurs

La DGLFLF a financé en 2018 un projet de développement des outils du TAL pour le breton par Annie Foret (IRISA, Rennes I), avec entre autres la réalisation ou amélioration d'analyseurs (aux niveaux morphologique, syntaxique), et lien réseau sémantique.


Bibliographie

Cette bibliographie regroupe les références sur le traitement automatique de la langue bretonne, mais aussi plus globalement les projets numériques.


sur le breton

  • Aubry, Yves. 2000. Synthèse vocale en breton, mémoire de maîtrise, IUP MIME Le Mans, TES/ENSSAT.
  • Aubry, Y. 2004. Logiciel du traitement de la parole et d’aide à l’enseignement et à l’apprentissage de la prosodie: application au breton, travaux de D.R.T. d'ingénierie, Université du Maine.
  • Ar Barzh, H. 1996. Corpus de parole pour la synthèse de la langue bretonne, TES/IRISA.
  • Baxter, R.N. 2009. 'New technologies and terminological pressure in lesser-used languages. The Breton Wikipedia, from terminology consumer to potential terminology provider', Language Problems and Language Planning 33:1, 60-80, John Benjamins: Amsterdam/Philadelphia.
  • Blanchard, Jean-François. 2014. 'Pratiques langagières et processus dialogique d’identification pour une langue minorée. Le web en langue bretonne', Gaël Hily (dir.), Expression de l’identité dans le monde celtique, Rennes : TIR. 9-34.
  • Blanchard, Jean-François. 2015. Pratiques langagières et processus dialogiques d'identication sur les réseaux socionumériques. Le cas de la langue bretonne, ms. thèse. Université Rennes 2. texte.
  • Dupin, J. 2001. Dictionnaire vocal multimédia français – breton, rapport de stage, TES/IRISA, IUP MIME Le Mans.
  • Favereau, IRISA & TES. 1999. Ar geriadur a gomz brezhoneg a-vremañ, Morlaix : Skol Vreizh - Dictionnaire vocal du breton contemporain sur CD-ROM, à partir du Dictionnaire du breton contemporain de F. Favereau, 1998.
  • Foret, Annie. 2017. 'Traitement automatique des langues, données légales, systèmes d’information et logique', CDN Convergences du droit et du numérique, Bordeaux, février 2017.
  • Foret, Annie. 2016. 'Enrichissement de données en breton avec Wordnet', présentation à la Conférence CLTW (Traitement automatique des langues celtiques).
  • Foret, Annie, Valérie Bellynck & Christian Boitet. 2015. 'Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton', présentation à la conférence TALARE (Traitement Automatique des Langues Régionales de France et d'Europe), texte.
  • Foret, Annie. 2018. 'Breton-français et numérique, projet LangNum-br-fr (phase conception)'. Conférence Langues et numérique 2018, Juillet 2018, Paris, France. texte ou texte.
  • Gourmelon, Herve. 1996. Speech synthesis software using the TDPSOLA method, rapport de stage IRESTE, université de Limerick, Computer sciences & Information System Department.
  • Gourmelon, Herve, G. Mercier, J. P. Messager, J. Siroux. 1999. 'Synthèse vocale en breton', actes du colloque : le bilinguisme précoce en Bretagne, en pays celtiques et en Europe atlantique, Klask 5, PUR, Rennes, 125-138.
  • Guillou, A. 2000. Correcteur de prosodie pour la langue bretonne, rapport de projet.
  • IRISA. 2001. Rapport d’activité 2001. Projet CORDIAL. Communication multimodale personne-machine à composantes orales : méthodes et modèles, texte.
  • Jouitteau, M. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte en ligne.
  • L’Hostis, E. 2002. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.
  • An Intanv, P. 1994. War hent fonetikadur ar Brezhoneg / Sur les chemins de la phonétisation du breton, mémoire de maîtrise, Université de Rennes II.
  • Madigou, X. 1997. Interface graphique d’un dictionnaire vocal en breton, rapport de projet TES/IRISA ENSAT.
  • Mercier, G., M. Guyomard & J. Siroux. 1999. Synthèse de la parole en breton – Didacticiels pour une langue minoritaire, Speech Technology Applications in CALL, Eurocall 99, 57-61.
  • Messager, Jean-Pierre, Herve Gourmelon, Guy Mercier & Jacques Siroux. 1998. 'Research in speech processing for breton language training', ESCA-STiLL-1998, 29-32. texte.
  • Mocquard, G. 1999. Correcteur de prosodie, rapport de stage IFSIC, TES/IRISA, ENSSAT.
  • Mocquard, C. 2001. Korpus prosodiezh, mémoire de maîtrise, Université de Rennes II.
  • Ar Mogn, Olier. 2015. 'Langue bretonne et nouvelles technologies : une vitalité à soutenir', présentation à Technologies pour les Langues Régionales de France, Meudon. vidéo.
  • Morvan, Pierre. 2019. Ha difaziañ a ra LanguageTool ar c’hemmadurioù? Peseurt hentenn sevel evit gellet gouzout peseurt barregezh a zo gant an difazier LanguageTool war ar c'hemmadurioù?, mémoire de maîtrise, Université de Rennes II.
  • Ofis. 2021a. Ar brezhoneg en oadvezh an niverel, diagnostik ha strategiezh diorren
  • Ofis. 2021b. La langue bretonne à l'ère du numérique, diagnostic et stratégie de développement
  • Petit, M. 2003. Correcteur orthographique de langue bretonne, rapport de projet, ENSSAT, 1-37.
  • Poibeau, Thierry. 2014. 'Processing Mutations in Breton with Finite-State Transducers', Proceedings of the Celtic Language Technology Workshop, Aug 2014, Dublin, Ireland. texte.
  • Tanguy, E. 2000. Dictionnaire vocal Gervogal breton / français, français / breton, mémoire de licence, IUP MIME, Le Mans TES/IRISA, Lannion.
  • Le Télégramme. 26 mars 1999. 'Synthèse vocale : les ordinateurs vont parler breton aux élèves'. texte.
  • Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.

sur le TAL en général, par des chercheurs ayant étudié le breton par ailleurs

  • Amblard, Maxime, Johannes Heinecke, Estelle Maillebuau. 2008. 'Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel', TALN 2008, 350-359.
  • Akrivas, Giorgo, Georgios Th. Papadopoulos, Matthijs Douze, Johannes Heinecke, Noel O'Connor, Carsten Saathoff, Simon Waddington. 2007. 'Knowledge-based Semantic Annotation and Retrieval of Multimedia Content', SAMT 2007 - 2nd International Conference on Semantic and Digital Media Technologies, 5-7 December 2007, Genoa, Italy.
  • Dasiopoulou, Stamatia, Johannes Heinecke, Carsten Saathoff, Michael Strintzis. 2007. 'Multimedia reasoning with natural language support', IEEE-International Conference on Semantic Computing, Irvine CA.
  • Heinecke, J. 2006. 'Génération automatique des représentation ontologiques', Mertens, Piet; Fairon, Cédrick; Dister, Anne; Watrin, Patrick (éds.), Verbum ex Machina, Actes de la 13e conférence sur le traitement automatique des langues naturelles, vol. 2 Louvain: Presses universitaires de Louvain, 502-511.
  • Heinecke, J. 2009. 'Matching natural language data on ontologies', Proceedings of the 4th International Workshop on Ontology Matching (OM-2009) Collocated with the 8th International Semantic Web Conference (ISWC-2009) Chantilly, USA, October 25, 2009. ISSN: 1613-0073.
  • Heinecke, J. 2013. 'Typologie et ressources pour le TALN des langues caucasiennes: le cas du tchétchène', Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d'Europe, Sables d'Olonne, 181-194
  • Heinecke, Johannes, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem. 2008. 'TiLT : plateforme pour le Traitement Automatique des Langues Naturelles', TAL 49:2.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paula Hobson, François Goasdoué. 2006. 'The Semantic Web from an Industrial Perspective', Barahona, Pedro; Bry, François; Franconi, Enrico; Henze, Nicola; Sattler, Ulrike (éds.), Reasoning Web. Second International Summer School 2006 [ =Lecture Notes in Computer Science 4126], Heidelberg: Springer, 232-268.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paola Hobson, François Goasdoué. 2008. 'The Semantic Web from an Industrial Perspective', García, Roberto (éd.), Semantic Web for Business: Cases and Applications. New York: IGI GLobal. ISBN: 978-1-60566-066-0, 232-268.
  • Lolive, Damien. 2008. Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix. Intelligence artificielle [cs.AI], thèse de l'Université Rennes 1. texte.
  • Park, Jungyeul; Maillebuau, Estelle; Guimier De Neef, Emilie; Vinesse, Jérôme; Heinecke, Johannes. 2007. 'Evaluating an Interlingual Semantic Representation', Gerdes, Kim; Reuther, Tilmann; Wanner, Leo (éds.), Meaning - Text Theory. München - Wien.
  • Plu, Michel, Heinecke, J. 2011. 'Interprétation linguistique de requêtes pour un moteur de questions-réponses', CORIA 2011, Avignon, France, 593-598.
  • Plu, Michel, Heinecke, J. 2011. 'Moteur de questions-réponses d'une base de connaissances', EGC 2011, Brest, France, 593-598.


autres langues minorisées

  • Millour, Alice & Karën Fort. 2018. 'À l’écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées', Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), texte.


prospective européenne

  • Sayers, D., R. Sousa-Silva, S. Höhn et al. (2021). The Dawn of the Human-Machine Era: A forecast of new and emerging language technologies. Report for EU COST Action CA19102 'Language In The Human-Machine Era'. www.lithme.eu.