Jouitteau & al. (2024a)

De Arbres

présentation de 9h30-10h10 - Corpus annotés en breton, rapport Autogramm

Mélanie Jouitteau (IKER, CNRS), pour l'équipe ANR Autogramm dirigée par Sylvain Kahane (Modyco, CNRS, Paris) avec, pour le breton, Bruno Guillaume (LORIA, INRIA), Kim Gerdes (LISN !, CNRS) et Loic Grobol (Modyco, CNRS et Université Paris Nanterre), et les projets de master TAL de Salomé Chandora, Katharine Jiang, Aurélien Said Housseini (2022-2023), Yingzi Liu et Yidi Huang (2023-2024).

30 min + 10 min de questions

Je présente un rapport sur un projet de deux ans appelé Breton treebank II. C'est un projet collectif visant à construire un corpus Universal Dependencies (UD) annoté (De Marneffe & al. 2021, Nivre & al. 2020), basé sur des données extraites de la wikigrammaire ARBRES (Jouitteau 2009-). Le travail consiste à en extraire les données, à les organiser dans le format Conll-U, qui est lisible pour la création d'un corpus richement annoté. Ce format Conll-U est complété par des instructions sur les dépendances syntaxiques. Le codage est au format SUD, avec une traduction automatisée au format UD. L'extraction est accessible sur ici sur github, et l'enrichissement sur Arborator.

La première extraction de 2022, 'Kenstur', avait permis d'obtenir un petit corpus aligné de grande diversité linguistique qui a été utilisé pour le développement de deux entraînements de réseaux de neurones pour les traductions breton<->français (Grobol 2022-, OPLB & al. 2022). Les premiers retours sur ces entraînements suggèrent que ce type de corpus à forte diversité améliore les résultats pour l'entraînement sur de petits ensembles de ressources (Grobol & Jouitteau (2024a), Entem p.c.). L'extraction de 2024, 'Keneud', est un peu plus grande, organisée par dialectes, et comprend quelques annotations de gloses. Un analyseur syntaxique entraîné sur une version corrigée de Tyers & Ravishankar (2018) a pré-annoté les dépendances, avec une adaptation pour qu'il assigne la dominance au rannig de chaque phrase dans SUD. Nous ajoutons le codage des mutations consonantiques.