Heinecke (2024)

De Arbres

présentation de 11h50 - 12h30 - Parsing des Dépendences Multilingues pour les langues celtiques et leurs langues voisines

Johannes Heinecke, Orange

30 min + 10 min questions

L'analyse syntaxique en dépendances est une tâche typique du TAL qui prend des phrases simples en entrée et génère des arbres syntaxiques de dépendances en sortie. Actuellement, nous déployons l'analyse syntaxique des dépendances dans une chaîne d'outils pour le prétraitement des commentaires des clients et des employés sur les produits et les services, afin de les classer par thème. L'étiquetage POS (Part of Speech, partie du discours) et l'analyse syntaxique en dépendances sont utilisés pour identifier facilement « qui a fait quoi » et pour créer des groupes nominaux en tant que mots-clés (au lieu de simples mots). Auparavant, des règles et des lexiques étaient écrits à la main pour faire fonctionner un analyseur syntaxique. Plus tard, les approches statistiques se sont avérées beaucoup plus efficaces, tant pour les analyseurs basés sur les transitions que pour les analyseurs de graphes. Récemment, notamment depuis l'avènement des plongements lexicaux (comme Word2Vec) et plus tard des plongements lexicaux informés des contextes tels que ceux obtenus à partir de modèles de langage comme BERT, les graph-parsers se sont révélés encore plus performants. Toutes les approches statistiques de l'analyse syntaxique en dépendances nécessitent des données d'entraînement. Le projet Universal Dependency (UD) fournit les données nécessaires sous la forme de 150 banques d'arbres dans plus d'une centaine de langues. Même si certaines banques d'arbres sont très petites (comme par exemple la banque d'arbres bretonne Breton KEB), d'autres sont très riches. En cas de banques d'arbres peu nombreuses ou inexistantes, l'apprentissage par transfert sur des langues similaires peut s'avérer fructueux, notamment avec les données de l'UD : Les données de l'UD ont été annotées en utilisant un ensemble unique de lignes directrices pour toutes les langues. Par exemple, l'ensemble des étiquettes de parties du discours, des relations de dépendance ou des caractéristiques morpho-syntaxiques possibles sont définies de manière universelle. La plupart des banques d'arbres sont monolingues, dans la mesure où les expressions d'autres langues comme les titres de films ou les noms géographiques qui peuvent apparaître dans les données ne les font pas considérer comme bi- ou multilingues. Dans le monde réel, en particulier pour les locuteurs de langues celtiques, le changement de code est omniprésent. Nous présentons un modèle d'analyse de dépendances multilingues (graph-parser) qui peut analyser n'importe quel mélange de gallois, d'irlandais, de gaélique écossais, de manx avec de l'anglais ou du français sans perdre beaucoup en qualité par rapport à un modèle monolingue.