Breton treebank II

De Arbres
Révision datée du 28 février 2022 à 15:32 par Mjouitteau (discussion | contributions) (Page créée avec « Un passage de la banque de données en corpus UD pourrait s'appuyer sur l'existence du corpus UD breton existant, mais aussi du corpus gallois (Heinecke & Tyers (2019)|H... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Un passage de la banque de données en corpus UD pourrait s'appuyer sur l'existence du corpus UD breton existant, mais aussi du corpus gallois (Heinecke & Tyers 2019).

Pour comparaison avec le treebank UD de Tyers & Ravishankar (2018), je code ci-dessous le même exemple, dans sa forme visible aux utilisateurs et le code que cela nécessite. Le codage dans ARBRES donne ceci, tel que vu par les utilisateurs. Chaque exemple est donné en breton, glosé et traduit. La ligne de gloses fournit la traduction littérale, mot-à-mots en français. Elle comprend une mention des mutations consonantiques en superscript sur son élément déclencheur (ici, l'adverbe négatif ne qui provoque une lénition dans tous les dialectes, codée 1 en superscript. La mutation est notée même si, en l'occurrence, elle ne peut pas avoir ici d'effet car l'initiale du verbe qui suit n'est de fait pas mutable. La troisième ligne visible du tableau fournit la traduction globale de la phrase en français standard.


(1) N'int ket aet war-raok.
ne1 sont pas allé sur-avant
'Ils n'ont pas progressé.'
Dialecte, source référencée de la donnée


Pour obtenir une telle visualisation, le code wiki est comme ci-dessous.


0 {| class="prettytable"
1 |(1)|| N'int || ket || aet || war-raok. 
2 |-
3 ||| [ [ ne ] ][ [1] ] [ [COP|sont] ] || [ [ ket | pas ] ] || [ [ mont | allé ] ] || [ [ war-raok | sur-avant ] ]
4 |-
5 |||colspan="10" |'Ils n'ont pas progressé.' 
6 |- 
7 |||||||||colspan="10" |Dialecte, source référencée de la donnée
8 |}


Dans le code, les colonnes (||) de la première ligne fournissent un découpage grossier non-atomique de la donnée bretonne. Cette ligne comporte la ponctuation. Le découpage y est inégal, souvent prosodique car les éléments marqués d'une apostrophe ou d'un tiret n'y sont pas séparés. Il découpe aussi parfois des blocs de constituants syntaxiques. La seconde ligne visible pour l'utilisateur est la ligne 3. C'est la ligne de gloses, qui fournit une tokenisation plus fine et la lemmatisation. Avec l'exemple de la négation et de sa copule, on voit que le découpage en double crochets dessine alors les sous-parties du découpage de la première ligne. Les tokens atomiques sont séparés, les clitiques y sont ainsi séparés de leur hôte

Pour que les gloses soient cliquables pour les utilisateurs, le script wiki nécessite que chaque traduction mot-à-mot, la glose, soit associée à une adresse d'article dans la grammaire. Dans la syntaxe wiki, ce script est ordonné comme suit: [ [ adresse du lien | glose ] ]. C'est ainsi que grâce à un script [ [ mont | allé ] ], l'utilisatrice qui clique sur la glose allé, visible pour elle juste sous le mot breton aet, ouvre la page du site dédiée au verbe mont 'aller'. Ce script, pour un format UD, fournit le lemma. Ce lemma est associé à la traduction française du token aligné en colonne avec lui. Dans le cas de la préposition composée war-raok /sur-avant/ 'en avant', un seul lemma lui est associé.


0 {| class="prettytable"
1 |(1)|| mot 1' mot 2 || mot 3 || mot 4 || mot 5-mot 6. 
2 |-
3 ||| [ [ lemma breton 1 | français pour lemma 1 ] ] [ [ mutation déclenchée ] ] [ [ lemma 2 | français pour lemma 2 ] ] || [ [ lemma 3 | français pour lemma 3 ] ] || [ [ lemma 4 | français pour lemma 4 ] ] || [ [ lemma 5 | français pour lemma 5 ] ]
4 |-
5 |||colspan="10" |'Traduction de la phrase en français.' 
6 |- 
7 |||||||||colspan="10" |Dialecte, source référencée de la donnée
8 |}


Le lemma breton est donné sous sa forme non-dérivée, ce qui signifie dans cette langue celtique que le lemma est donné au singulier pour un nom comptable mais au pluriel pour un nom collectif. Pour la flexion verbale, le lemma donné est, par convention, la forme infinitive dans la wikigrammaire comme dans UD. Il y a une petite divergence avec le format UD pour les formes qui ont des racines supplétives au comparatif de supériorité comme gwell ou gwelloc'h 'mieux', ou gwazh ou gwashoc'h 'pire'. UD recommande de leur assigner le lemma non-comparatif ce qui donnerait gwelloc'h 'mieux' > [ [ mat | bien ] ].[ [ -oc'h | plus] ] et gwasoc'h 'pire' > [ [ fall | mal ] ].[ [ -oc'h | plus] ], alors que la wikigrammaire a prévu de dédier un article à chaque racine irrégulière, ce qui est géré pour l'instant par des redirections ([ [ -oc'h | mieux ] ]). Ce pourrait être régularisé assez facilement.

UD requiert que les lemmas soient fournis sous la forme de surface canonique, ce qui pose le problème des formes ambigües, concrètement en breton les verbes infinitifs et les noms déverbaux, ainsi que les noms différenciés par leur genre en situation (pal, ar pal 'le but', pal, ar bal 'la pelle' ou taol, an taol 'le coup', taol, an daol 'la table'). Dans le dictionnaire en ligne Menard & Bihan (2016-), ces ambiguïtés sont prises résolues par un système de spécifieurs numériques assez régulier (pal.1, pal.2) mais le format UD recommande de privilégier les formes de surface comme lemmas. UD propose de classer ces homonymes dans la colonne MISC dans l'attribut optionnel LId (LId=can-1). Le désambiguïsateur morphologique de Tyers & Howell (2021) semble pouvoir se charger des homophones. Ce dernier pourrait peut-être être solidifié par la liste des pages de désambiguïsation qui liste dans la wikigrammaire les suffixes pouvant être ambigus.

Les mots fusionnés sont un ensemble de plusieurs mots syntaxiques qui apparaissent en breton comme un mot opaque. Ils sont traités en ligne de glose comme des tokens distincts reliés par un point. Ainsi, la préposition e devant un article défini en 'dans le' est notée en en ligne 1 est glosée : [ [ P.e | dans ] ].[ [ art | le ] ]. La plupart des prépositions peuvent recevoir un pronom objet incorporé - on les appelle prépositions fléchies. La préposition fléchie ennon 'en moi' est glosée [ [ P.e | dans ] ].[ [ pronom incorporé | moi ] ]. La préposition ganin 'avec moi' est glosée [ [ gant | avec ] ].[ [ pronom incorporé | moi ] ], ce qui permet de récupérer deux formes différentes de pronom incorporé 1SG: -in et -on, et d'associer chacune avec la préposition qui la déclenche.

En ligne de glose, le découpage en tokens descend au niveau morphologique dans la mesure où le permettait son lectorat prioritairement humain, qui a témoigné régulièrement d'une difficulté d'accès à des formes trop décomposées, ou à des abréviations linguistiques pourtant communes de types 3SG, 3PL. La dérivation morphologique est inégalement prise en charge dans les gloses de la wikigrammaire. Lorsqu'un seul suffixe est repérable, le découpage donne directement le suffixe en question dans la glose, mais lorsque plusieurs suffixes forment une finale complexe, le lemma donné est directement cette finale complexe. Le nom distresadur 'transformation' est glosé [ [ di-, dis- | trans ] ].[ [ tres | form ] ].[ [ -adur | ation ] ]. Dans la page de la finale complexe -adur, la finale est décomposée dans ses différents suffixes. Le système de catégorisation de pages permet de générer automatiquement la liste des finales complexes et la liste des suffixes répertoriés dans le site. La dérivation flexionnelle est prise en charge pour les pluriels des noms. Pour les pluriels simples, le morphème pluriel final apparaît séparé d'un point. Ainsi, le nom pluriel krouadurioù 'enfants' est glosé [ [ krouadur | enfant ] ].[ [ -ioù (PL.)| s ] ]. En breton, les pluriels dits "pluriels internes" ont la propriété de modifier leur racine. Le nom pluriel bugale 'enfants' est glosé [ [ bugel | enfant ] ].[ [ pluriel interne | s ] ], avec le lemma qui est la forme de surface au singulier, et le pluriel qui renvoie l'utilisateur à la page sur les pluriels internes. Les morphèmes porte-manteaux de la flexion verbale, les traits de conjugaison, ne sont pas non plus donnés en glose. Ces traits de flexion verbale sont calculables par la traduction français associée, qui, elle, est donnée fléchie dans les gloses. Les traits UD (UD features) sont donc récupérables dans la mesure où la morphologie verbale française est assez riche. La matrice de traits "Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin" du verbe breton int 'sont' peut être récupérée par la glose en français sont. Cette carence dans la glose de ARBRES pour la flexion verbale pourrait en principe aussi être supplée par les données de DVB, displeger verboù développé par Pêr Morvan.

Un cas difficile et intéressant est posé par la tempête de variation morphologique (et syntaxique) dans le verbe et auxiliaire 'avoir'. En (2), ce verbe précédé de la négation ne sous sa forme proclitique est orthographié de manière discontinue, o dez. Il comporte les traits du sujet interprété sur sa gauche avec un pronom 3PL o sous une forme qui semble oblique, puis d'une initiale /d-/ typique des personnes 3 (au singulier comme au pluriel; en de(v)ez 3SGM, he de(v)ez 3SGF, o de(v)ez 3PL). La racine marque la trace de la forme dite d'habitude, qui n'est pas interprétée ou produite dans toutes les variétés sur ce verbe. On pourrait, dans le même contexte syntaxique, trouver n'o deus ket en breton standard, la notion d'habitude étant convoyée par un présent à lecture générique. Ceci implique qu'un glosage précis nécessite d'être en mesure de vérifier pour chaque variété si le morphème comprend réellement ces traits, en syntaxe comme en sémantique. Enfin, la finale pourrait être, selon les analyses, une racine dénuée à sa droite de morphème d'accord, un accord 3SG réalisé avec un élément qui n'est pas le sujet, ou encore un morphème d'accord par défaut qui ne fait qu'emprunter la morphologie 3SG et qui apparaît lorsque le sujet est exprimé ailleurs (se reporter aux analyses formelles du système d'accord).


(2) Ha forzh boued n'o dez ket...
et beaucoup nourriture ne 3PL 3.a pas
'Et ils n'ont pas beaucoup de nourriture.'
Vannetais, Herrieu (1994:90)


Ce problème n'est pas facilement écartable car certains dialectes centraux ont, de toute façon, pour une sous-partie du paradigme, un morphème d'accord à droite du composé (memp 'nous avons'), dialectes dans lesquels peuvent exister en plus des règles d'accord différentes (ni meump /1PL 1.racine.1PL/ vs. ni neus /1PL 3.racine.3SG/ ou /1PL 3.racine.Ø/, 'nous avons'). Les gloses dans la wikigrammaire reflètent la diversité des données au plus près de ce qu'on en comprend scientifiquement, et cela peut être un frein à la conversion automatique. Les buts d'un traitement automatique peuvent nécessiter de faire abstraction de la variation et de se contenter de stocker les formes diverses en lien avec leur traduction française.

Les traits de tous les types de pronoms sont récupérables en glose. Le pronom fort indépendant (pfi) 1SG me 'moi' est noté en glose [ [ pfi | moi ] ], Le pronom fort indépendant 2SG te 'toi' est noté en glose [ [ pfi | toi ] ], etc. De même, le déterminant possessif (POSS) ma 'mon, ma', qui déclenche une mutation mixte (codée 2 en superscript), est glosé [ [ POSS | mon ] ] < sup >[ [ 2 ] ]< /sup > dans la plupart de ses occurrences. Cependant, comme le site documente la variation dialectale, les occurrences du cornouaillais de Locronan documentées dans la grammaire, où ce possessif déclenche une lénition (codée 1 en superscript), sont glosées [ [ POSS | mon ] ] < sup >[ [ 1 ] ]< /sup >.

La morphologie flexionnelle n'impacte qu'exceptionnellement les adjectifs bretons par suffixation (mezvez 'saoule', glosé [ [ mezv | saoul ] ].[ [ -ez (F.)| e ] ]). cependant, la qualité, présence ou absence de mutation sur l'adjectif renseigne sur les traits du nom qu'il modifie. En ligne de glose, la traduction de l'adjectif en français révèle les traits obligatoirement interprétables: an hini vrav la belle' est glosé [ [ art | un ] ] [ [ hini | celui ] ] < sup >[ [ 1 ] ] < /sup > [ [ brav | belle ] ]. Cet exemple permet aussi de noter que les rares éléments qui n'ont pas d'équivalent en français comme le tête nominale sémantiquement générique hini sont traduits en glose par une approximation qui a été jugée commode par le lectorat humain.

On a vu que la ligne de gloses comprend, balisées en superscript ( < (/) sup > ) les mutations morphosyntaxiques associées à chaque élément qui les déclenche. on marque par le chiffre 1 pour la lénition, 2 pour la spirantisation, 3 pour la mutation durcissante, 4 pour la léniprovection et 5 pour la mutation réduite. Les consonnes épenthétiques du breton sont marquées +C en superscript dans la glose. Il arrive que le découpage morphologique d'un mot breton nécessite de mentionner une consonne épenthétique dans la glose en français. Elle est alors écrite, et non-cliquable puisque ne correspondant à rien en breton (kozhni 'vieillesse' est glosé [ [ kozh | vieil ] ].l.[ [ -ni, -oni | esse ] ]).

Le format UD comporte en tout 17 étiquettes de parties du discours (POS tags). Le code de la wikigrammaire ne fournit qu'exceptionnellement la catégorie grammaticale des éléments directement en glose. Les 5 formes du verbe 'être' et la variation dialectale de leur distribution ont nécessité dans la grammaire un glosage hybride, parfois morphologique (eo, a zo, emañ, ez eus, vez), parfois syntaxique (COP renvoie à l'article sur l'emploi syntaxique de la copule) ou même sémantique (le signe E en adresse renvoie à l'article sur la copule existentielle). La catégorie des éléments est cependant toujours récupérable automatiquement par les catégorisations de pages (eo => auxiliaire, car l'article de la wikigrammaire intitulé eo est catégorisé dans le site comme une page concernant un auxiliaire. Tous les éléments sont ainsi catégorisés via la page qui leur est dédiée, par exemple les adjectifs, mais aussi avec une granularité plus fine dans la mesure où ils ont un comportement grammaticalement distinguable, les adjectifs de couleur (voir la liste des catégories). Ci-dessous, j'inventorie les catégorie UD et je détaille les équivalences sur la wikigrammaire, en ajoutant une estimation des nombre de membres de chaque catégorie fin 2021. Ces chiffres vont progresser à l'avenir, surtout pour les catégories lexicales, au fur et à mesure que des exemples nouveaux alimenteront la grammaire.

  • ADJ = adjectif. Ils sont listés dans la wikigrammaire dans la liste des adjectifs (238 membres), auxquels on ajoute les numéraux ordinaux, les participes (une partie sont mentionnés en glose par la dérivation du suffixe -et).
  • ADP = adposition (préposition et postposition). Ils sont listés dans la wikigrammaire dans la liste des prépositions (158 membres) et dans la liste des postpositions (13 membres)
  • ADV = adverbe. Ils sont listés dans la wikigrammaire dans la liste des adverbes (219 membres)
  • AUX = auxiliaire. Ils sont listés dans la wikigrammaire dans la liste des auxiliaires (18 membres)
  • CCONJ = conjonctions de coordination. Ils sont listés dans la wikigrammaire dans la liste des conjonctions (12 membres)
  • DET = déterminants. Les déterminants sont encore à catégoriser dans le corps de la wikigrammaire, qui comprend cependant la liste des quantifieurs (56 membres). Il faut rajouter les deux articles, défini an, al, ar et indéfini un, ul ur, les déterminants possessifs et les complémenteurs peseurt, petore 'lequel'. Attention, les pages thématiques de la grammaire ont été catégorisées sous le titre "articles", en opposition aux "fiches" de linguistique formelle.
  • NOUN = nom. Ils sont listés dans la wikigrammaire dans la liste des noms (799 membres)
  • VERB = verbe. Ils sont listés dans la wikigrammaire dans la liste des verbes (354 membres), auxquels on peut ajouter la liste des modaux (sauf peut-être dav, ret et arabat qui ont plutôt une distribution adjectivale), et retrancher les verbes légers -a, -at et -aat qui ont une distribution suffixale.
  • SCONJ = conjonction de subordination. Dans la wikigrammaire, ils sont compris dans les complémenteurs.
  • PART = particule. La particule préverbale (rannig) est signalée en glose par la lettre R, suivie lorsque le dialecte le permet de la mutation associée à cette particule. Attention, UD classe les particules Q des questions polaires, de 'est-ce que', dans les particules, qui sont dans la wikigrammaire des complémenteurs.
  • PROPN = nom propre. Quelques noms propres sont mentionnés comme tels en glose, mais cette pratique est récente sur le site. Il est plus sur de passer par les recensements déjà établis par d'autres programmes (Tyers 2008 les avait extraits de Wikipedia), ou de s'appuyer sur la majuscule en graphie pour les récupérer.
  • PUNCT = ponctuation. Cette information est présente en graphie en ligne 1, et devrait avoir un parallèle dans la traduction française.
  • SYM = symbole. Il s'agit de symboles écrits ne sont pas codés à ce jour dans la wikigrammaire.
  • X = autre. cette notation n'a pas été nécessaire.


En dehors du système d'annotation des données, le site a nécessité pour son développement interne des outils et listes qui pourraient directement alimenter les entraineurs d'algorithme, comme: