Grobol, Almeida Baretto & Jouitteau (2024)

De Arbres

Loic Grobol Modyco, U. Paris Nanterre, avec Sarah Almeida Barreto U. Sorbonne Nouvelle, Mélanie Jouitteau (IKER, CNRS)

30 min + 10 min questions

Le premier traducteur automatique pour le breton (Tyers, 2009) et le corpus parallèle qui l'accompagne auront 15 ans cette année. Ses performances modestes montraient déjà qu'un tel système était possible et pouvait être utile, au moins comme aide partielle à la compréhension pour les non-locuteurs. Depuis, quelques travaux proposant des améliorations ont été publiés (Sánchez-Cartagena & al. 2015, 2020), mais sans mise à disposition de logiciels ou de ressources utilisables. Pendant quinze ans, le breton n'a ainsi pas réellement bénéficié des progrès majeurs de la traduction automatique. Grobol et Jouitteau (2024) ont ensuite publié nouveau corpus parallèle extrait de la wikigrammaire ARBRES (Jouitteau, 2009-2024) et d'un traducteur automatique moderne, aux performances significativement améliorées. Les modèles aux entrainements non-documentés et aux ressources opaques sont évidemment ici hors-sujet car ils ne nourrissent pas les avancées des modèles futurs. Le breton fait également partie des langues annoncées comme qualitativement prises en charge par certains traducteurs multilingues (GPT3.5, Baidu, etc.), mais ils profitent principalement juste de la carence en matériel d’évaluation robuste pour le breton, et de rapport de force conséquent pour les imposer (Jouitteau & Grobol 2024a). En l’état, pour les développeurs qui ne volent pas leurs données aux communautés parlantes, les performances restent bien en deçà de celles de traducteurs pour des langues bien dotées, et les corpus parallèles de breton restent dispersés, mal documentés, et de qualité incertaine.

Cette présentation rend compte des travaux actuels du stage de master II de Sarah Almeida Barreto (Sorbonne nouvelle), dirigé par Loic Grobol (U. Paris Nanterre), en consultation avec Mélanie Jouitteau (IKER, CNRS). Nous présentons un inventaire complet des corpus parallèles existants, en les soumettant à une évaluation stricte pour constituer un corpus aussi complet que possible et en le soumettant à des évaluations systématiques pour nous assurer de sa qualité. Ces ressources sont mises à disposition en ligne en paquets téléchargeables, et recensées sur le site Entrelangues où leurs métadonnées peuvent être discutées par les locuteurs. Nous espérons pouvoir présenter en juin le résultat d’un premier entrainement. Ce travail permettra à tou.te.s de développer des nouveaux systèmes de traduction de meilleure qualité, de concevoir des jeux de données d'évaluation qui pourront à l'avenir servir de standards, mais également d'identifier clairement les besoins en ressources pour la traduction vers et du breton afin de guider les futurs travaux de collecte de données.

  • Grobol, Loïc, et Mélanie Jouitteau. 2024a. 'ARBRES Kenstur: A Breton-French Parallel Corpus Rooted in Field Linguistics', Proceedings of the Fourteenth Language Resources and Evaluation Conference, European Language Resource Association (ELRA).
  • Jouitteau, Mélanie. 2009–2024. « ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle ». 2009–2024. http://arbres.iker.cnrs.fr.
  • Jouitteau, Mélanie & Loic Grobol. 2024a. 'Petits oublis, grands effets : le silençage des communautés linguistiques minorisées dans le TAL et ses conséquences', Karën Fort, Aurélie Névéol (éds.), Ethics and NLP: 10 years after, Journée d’études ATALA éthique et TAL : 10 ans après, 2024. hal-04533870.
  • Sánchez-Cartagena, Víctor M., Mikel L. Forcada, et Felipe Sánchez-Martínez. 2020. « A multi-source approach for Breton–French hybrid machine translation ». In Proceedings of the 22nd Annual Conference of the European Association for Machine Translation, 61‑70. Lisboa, Portugal: European Association for Machine Translation. https://aclanthology.org/2020.eamt-1.8.
  • Sánchez-Cartagena, Víctor M., Juan Antonio Pérez-Ortiz, et Felipe Sánchez-Martínez. 2015. « A Generalised Alignment Template Formalism and Its Application to the Inference of Shallow-Transfer Machine Translation Rules from Scarce Bilingual Corpora ». Computer Speech & Language, Hybrid Machine Translation: integration of linguistics and statistics, 32 (1): 46‑90. https://doi.org/10.1016/j.csl.2014.10.003.
  • Tyers, Francis. 2010. « Rule-based Breton to French machine translation ». In Proceedings of the 14th Annual Conference of the European Association for Machine Translation. Saint Raphaël, France: European Association for Machine Translation. https://aclanthology.org/2010.eamt-1.13.
  • Tyers, Francis M. 2009. « Rule-Based Augmentation of Training Data in Breton-French Statistical Machine Translation ». In Proceedings of the 13th Annual conference of the European Association for Machine Translation. European Association for Machine Translation. https://aclanthology.org/2009.eamt-1.29.