Différences entre les versions de « 2024 Workshop on Breton Language Technologies »
Ligne 16 : | Ligne 16 : | ||
: [https://nouveau.univ-brest.fr/hcti/fr/membre/liana-ermakova Liana Ermakova] (UBO), [https://loicgrobol.github.io/ Loic Grobol] (U. Paris Nanterre), [https://www.linkedin.com/in/johannes-heinecke-571a614/ Johannes Heinecke] (Orange), [https://iker.cnrs.fr/melanie-jouitteau/ Mélanie Jouitteau] (IKER, CNRS), Gweltaz Duval-Guennoc (indépendant), [https://www.linkedin.com/in/aentem/ Alan Entem] (indépendant), [https://lacito.cnrs.fr/en/directory/tanguy-solliec/ Tanguy Solliec] (LACITO, CNRS) | : [https://nouveau.univ-brest.fr/hcti/fr/membre/liana-ermakova Liana Ermakova] (UBO), [https://loicgrobol.github.io/ Loic Grobol] (U. Paris Nanterre), [https://www.linkedin.com/in/johannes-heinecke-571a614/ Johannes Heinecke] (Orange), [https://iker.cnrs.fr/melanie-jouitteau/ Mélanie Jouitteau] (IKER, CNRS), Gweltaz Duval-Guennoc (indépendant), [https://www.linkedin.com/in/aentem/ Alan Entem] (indépendant), [https://lacito.cnrs.fr/en/directory/tanguy-solliec/ Tanguy Solliec] (LACITO, CNRS) | ||
== Translation == | |||
=== '''State of the art and going forward''' === | |||
'''Loic Grobol''' Modyco, U. Paris Nanterre | |||
Le premier traducteur automatique pour le breton (Tyers, 2009) et le corpus parallèle qui l'accompagne auront 15 ans cette année. Ses performances modestes montraient déjà qu'un tel système était possible et pouvait être utile, au moins comme aide partielle à la compréhension pour les non-locuteurs. Depuis, quelques travaux proposant des améliorations ont été publiés (Sánchez-Cartagena 2015, 2020), mais sans mise à disposition de logiciels ou de ressources utilisables. Pendant quinze ans, le breton n'a ainsi pas réellement bénéficié des progrès majeurs de la traduction automatique. Grobol et Jouitteau (2024) ont ensuite publié nouveau corpus parallèle extrait de la wikigrammaire ARBRES (Jouitteau, 2009-2024) et d'un traducteur automatique moderne, aux performances significativement améliorées. Les modèles aux entrainements non-documentés et aux ressources opaques sont évidemment ici hors-sujet car ils ne nourrissent pas les avancées des modèles futurs. Le breton fait également partie des langues annoncées comme qualitativement prises en charge par certains traducteurs multilingues (GPT3.5, Baidu, etc.), mais ils profitent principalement juste de la carence en matériel d’évaluation robuste pour le breton, et de rapport de force conséquent pour les imposer. En l’état, pour les développeurs qui ne volent pas leurs données aux communautés parlantes, les performances restent bien en deçà de celles de traducteurs pour des langues bien dotées, et les corpus parallèles de breton restent dispersés, mal documentés, et de qualité incertaine. | |||
Cette présentation rend compte des travaux actuels du stage de master II de Sarah Almeida Barreto (Sorbonne nouvelle), dirigé par Loic Grobol (U. Paris Nanterre), en consultation avec Mélanie Jouitteau (IKER, CNRS). Nous présentons un inventaire complet des corpus parallèles existants, en les soumettant à une évaluation stricte pour constituer un corpus aussi complet que possible et en le soumettant à des évaluations systématiques pour nous assurer de sa qualité. Ces ressources sont mises à disposition en ligne en paquets téléchargeables, et recensées sur le site Entrelangues où leurs métadonnées peuvent être discutées par les locuteurs. Nous espérons pouvoir présenter en juin le résultat d’un premier entrainement. Ce travail permettra à tou.te.s de développer des nouveaux systèmes de traduction de meilleure qualité, de concevoir des jeux de données d'évaluation qui pourront à l'avenir servir de standards, mais également d'identifier clairement les besoins en ressources pour la traduction vers et du breton afin de guider les futurs travaux de collecte de données. | |||
* Grobol, Loïc, et Mélanie Jouitteau. 2024. « ARBRES Kenstur: A Breton-French Parallel Corpus Rooted in Field Linguistics ». ''Proceedings of the Fourteenth Language Resources and Evaluation Conference'', European Language Resource Association. | |||
* [[Jouitteau (2009–)|Jouitteau, Mélanie. 2009–2024]]. « ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle ». 2009–2024. http://arbres.iker.cnrs.fr. | |||
* Sánchez-Cartagena, Víctor M., Mikel L. Forcada, et Felipe Sánchez-Martínez. 2020. « A multi-source approach for Breton–French hybrid machine translation ». In Proceedings of the 22nd Annual Conference of the European Association for Machine Translation, 61‑70. Lisboa, Portugal: European Association for Machine Translation. https://aclanthology.org/2020.eamt-1.8. | |||
* Sánchez-Cartagena, Víctor M., Juan Antonio Pérez-Ortiz, et Felipe Sánchez-Martínez. 2015. « A Generalised Alignment Template Formalism and Its Application to the Inference of Shallow-Transfer Machine Translation Rules from Scarce Bilingual Corpora ». Computer Speech & Language, Hybrid Machine Translation: integration of linguistics and statistics, 32 (1): 46‑90. https://doi.org/10.1016/j.csl.2014.10.003. | |||
* Tyers, Francis. 2010. « Rule-based Breton to French machine translation ». In Proceedings of the 14th Annual Conference of the European Association for Machine Translation. Saint Raphaël, France: European Association for Machine Translation. https://aclanthology.org/2010.eamt-1.13. | |||
* Tyers, Francis M. 2009. « Rule-Based Augmentation of Training Data in Breton-French Statistical Machine Translation ». In Proceedings of the 13th Annual conference of the European Association for Machine Translation. European Association for Machine Translation. https://aclanthology.org/2009.eamt-1.29. | |||
== UD and dependency parsing == | == UD and dependency parsing == |
Version du 17 avril 2024 à 08:06
The CNRS laboratory IKER is organizing the 2024 Workshop on Breton Language Technologies, which will take place at the University of Quimper (Brittany) on June 8.
Contacts :
- Mélanie Jouitteau: melanie.jouitteau at iker.cnrs.fr
- Milan Rezac: milan.rezac at iker.cnrs.fr
The aim of this workshop is to facilitate a meeting of minds between linguists and developers of technologies for Breton and Brittonic languages. Our objective is to foster a deeper understanding of each other's achievements and to build our collective capacity in this field.
The date has been chosen to fall between the Celtic Student Conference in Brest from May 30 to June 1, and the CRBC Breton Summer School in English beginning on June 10 in Quimper.
It will be possible to follow the event on-line.
We are in the process of putting together a comprehensive program that includes various interventions and thematic sessions.
Confirmed speakers and attendants so far:
- Liana Ermakova (UBO), Loic Grobol (U. Paris Nanterre), Johannes Heinecke (Orange), Mélanie Jouitteau (IKER, CNRS), Gweltaz Duval-Guennoc (indépendant), Alan Entem (indépendant), Tanguy Solliec (LACITO, CNRS)
Translation
State of the art and going forward
Loic Grobol Modyco, U. Paris Nanterre
Le premier traducteur automatique pour le breton (Tyers, 2009) et le corpus parallèle qui l'accompagne auront 15 ans cette année. Ses performances modestes montraient déjà qu'un tel système était possible et pouvait être utile, au moins comme aide partielle à la compréhension pour les non-locuteurs. Depuis, quelques travaux proposant des améliorations ont été publiés (Sánchez-Cartagena 2015, 2020), mais sans mise à disposition de logiciels ou de ressources utilisables. Pendant quinze ans, le breton n'a ainsi pas réellement bénéficié des progrès majeurs de la traduction automatique. Grobol et Jouitteau (2024) ont ensuite publié nouveau corpus parallèle extrait de la wikigrammaire ARBRES (Jouitteau, 2009-2024) et d'un traducteur automatique moderne, aux performances significativement améliorées. Les modèles aux entrainements non-documentés et aux ressources opaques sont évidemment ici hors-sujet car ils ne nourrissent pas les avancées des modèles futurs. Le breton fait également partie des langues annoncées comme qualitativement prises en charge par certains traducteurs multilingues (GPT3.5, Baidu, etc.), mais ils profitent principalement juste de la carence en matériel d’évaluation robuste pour le breton, et de rapport de force conséquent pour les imposer. En l’état, pour les développeurs qui ne volent pas leurs données aux communautés parlantes, les performances restent bien en deçà de celles de traducteurs pour des langues bien dotées, et les corpus parallèles de breton restent dispersés, mal documentés, et de qualité incertaine.
Cette présentation rend compte des travaux actuels du stage de master II de Sarah Almeida Barreto (Sorbonne nouvelle), dirigé par Loic Grobol (U. Paris Nanterre), en consultation avec Mélanie Jouitteau (IKER, CNRS). Nous présentons un inventaire complet des corpus parallèles existants, en les soumettant à une évaluation stricte pour constituer un corpus aussi complet que possible et en le soumettant à des évaluations systématiques pour nous assurer de sa qualité. Ces ressources sont mises à disposition en ligne en paquets téléchargeables, et recensées sur le site Entrelangues où leurs métadonnées peuvent être discutées par les locuteurs. Nous espérons pouvoir présenter en juin le résultat d’un premier entrainement. Ce travail permettra à tou.te.s de développer des nouveaux systèmes de traduction de meilleure qualité, de concevoir des jeux de données d'évaluation qui pourront à l'avenir servir de standards, mais également d'identifier clairement les besoins en ressources pour la traduction vers et du breton afin de guider les futurs travaux de collecte de données.
- Grobol, Loïc, et Mélanie Jouitteau. 2024. « ARBRES Kenstur: A Breton-French Parallel Corpus Rooted in Field Linguistics ». Proceedings of the Fourteenth Language Resources and Evaluation Conference, European Language Resource Association.
- Jouitteau, Mélanie. 2009–2024. « ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle ». 2009–2024. http://arbres.iker.cnrs.fr.
- Sánchez-Cartagena, Víctor M., Mikel L. Forcada, et Felipe Sánchez-Martínez. 2020. « A multi-source approach for Breton–French hybrid machine translation ». In Proceedings of the 22nd Annual Conference of the European Association for Machine Translation, 61‑70. Lisboa, Portugal: European Association for Machine Translation. https://aclanthology.org/2020.eamt-1.8.
- Sánchez-Cartagena, Víctor M., Juan Antonio Pérez-Ortiz, et Felipe Sánchez-Martínez. 2015. « A Generalised Alignment Template Formalism and Its Application to the Inference of Shallow-Transfer Machine Translation Rules from Scarce Bilingual Corpora ». Computer Speech & Language, Hybrid Machine Translation: integration of linguistics and statistics, 32 (1): 46‑90. https://doi.org/10.1016/j.csl.2014.10.003.
- Tyers, Francis. 2010. « Rule-based Breton to French machine translation ». In Proceedings of the 14th Annual Conference of the European Association for Machine Translation. Saint Raphaël, France: European Association for Machine Translation. https://aclanthology.org/2010.eamt-1.13.
- Tyers, Francis M. 2009. « Rule-Based Augmentation of Training Data in Breton-French Statistical Machine Translation ». In Proceedings of the 13th Annual conference of the European Association for Machine Translation. European Association for Machine Translation. https://aclanthology.org/2009.eamt-1.29.
UD and dependency parsing
Multilingual Dependency Parsing for Celtic languages and its neighbouring languages
Johannes Heinecke, Orange
Dependency parsing is a typical NLP task which takes plain sentences as input and generates dependency syntax trees as output. Currently, we deploy dependency parsing in a tool chain for preprocessing customer and employee comments on products and services, in order to classify thematically. POS tagging and dependency parsing is used to identify easily "who did what" and to create nominal groups as keywords (instead of simple words). In the past, handcrafted rules and lexicons where written to make a parser work. Later statistical approaches proved far more efficient, both for transition-based and graph-parsers. Recently, notably since the advent of word-embeddings (like Word2Vec) and later context aware word embeddings such as obtained from language models like BERT, graph-parsers proved to be even better. All statistical based approaches to dependency parsing need, training data. The Universal Dependency (UD) project provides the needed data in form of 150 treebanks in over a hundred languages. Even though some treebanks are very small (as for instance the Breton treebank Breton KEB), others are rich. In case of little or no treebank data, transfer learning on similar languages can be successful, notably with the UD data: UD data has been annotated using a single set of guidelines for all languages. For instance, the set of possible part-of-speech tags, dependency relations or morpho-syntactic features are defined universally. Most treebanks are monolingual, if expression from other languages like film titles or geographic names which can occur in the data are not counted as bi- or multilingual. In the real world, especially for speakers of Celtic languages, code switching is everywhere. We present a multilingual dependency parsing model (graph-parser) which can parse any mixture of Welsh, Irish, Scottish-Gaelic, Manx with English or French without losing much quality with respect to a monolingual model.