Heinecke (2024)

De Arbres
Révision datée du 28 mai 2024 à 18:44 par Wade (discussion | contributions) (Page créée avec « L'analyse syntaxique des dépendances est une tâche typique du TAL qui prend des phrases simples en entrée et génère des arbres syntaxiques de dépendances en sortie. Actuellement, nous déployons l'analyse syntaxique des dépendances dans une chaîne d'outils pour le prétraitement des commentaires des clients et des employés sur les produits et les services, afin de les classer par thème. L'étiquetage POS et l'analyse syntaxique des dépendances sont utilis... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

L'analyse syntaxique des dépendances est une tâche typique du TAL qui prend des phrases simples en entrée et génère des arbres syntaxiques de dépendances en sortie. Actuellement, nous déployons l'analyse syntaxique des dépendances dans une chaîne d'outils pour le prétraitement des commentaires des clients et des employés sur les produits et les services, afin de les classer par thème. L'étiquetage POS et l'analyse syntaxique des dépendances sont utilisés pour identifier facilement « qui a fait quoi » et pour créer des groupes nominaux en tant que mots-clés (au lieu de simples mots). Dans le passé, des règles et des lexiques étaient écrits à la main pour faire fonctionner un analyseur syntaxique. Plus tard, des approches statistiques se sont avérées beaucoup plus efficaces, tant pour les analyseurs basés sur les transitions que pour les analyseurs de graphes. Récemment, notamment depuis l'avènement des word-embeddings (comme Word2Vec) et plus tard des word embeddings contextuels tels que ceux obtenus à partir de modèles de langage comme BERT, les graph-parsers se sont révélés encore plus performants. Toutes les approches statistiques de l'analyse syntaxique des dépendances nécessitent des données d'entraînement. Le projet Universal Dependency (UD) fournit les données nécessaires sous la forme de 150 banques d'arbres dans plus d'une centaine de langues. Même si certaines banques d'arbres sont très petites (comme par exemple la banque d'arbres bretonne Breton KEB), d'autres sont très riches. En cas de banques d'arbres peu nombreuses ou inexistantes, l'apprentissage par transfert sur des langues similaires peut s'avérer fructueux, notamment avec les données de l'UD : Les données de l'UD ont été annotées en utilisant un ensemble unique de lignes directrices pour toutes les langues. Par exemple, l'ensemble des étiquettes de parties du discours, des relations de dépendance ou des caractéristiques morpho-syntaxiques possibles sont définies de manière universelle. La plupart des banques d'arbres sont monolingues, si les expressions d'autres langues, comme les titres de films ou les noms géographiques qui peuvent apparaître dans les données, ne sont pas considérées comme bi- ou multilingues. Dans le monde réel, en particulier pour les locuteurs de langues celtiques, le changement de code est omniprésent. Nous présentons un modèle d'analyse de dépendances multilingues (graph-parser) qui peut analyser n'importe quel mélange de gallois, d'irlandais, de gaélique écossais, de manx avec de l'anglais ou du français sans perdre beaucoup de qualité par rapport à un modèle monolingue.