Breton treebank II

De Arbres

Le projet Breton treebank II vise à constituer un corpus annoté Universal Dependencies (De Marneffe & al. 2021, Nivre & al. 2020), à partir des données existantes de la wikigrammaire ARBRES (Jouitteau 2009-). Il est mené par l'équipe de l'ANR Autogramm.

Le travail consiste à extraire les données en ARBRES en les organisant dans le format Conll-U qui est lisible pour la constitution du corpus richement annotés, puis de finir de remplir ce format Conll en l'instruisant des dépendances (notation SUD avec une traduction des annotations en UD). L'extraction est en progrès, visualisable ici sur grew et ici sur github.

L'article ci-dessous vise à laisser la trace organisée de ce travail, et à renvoyer aux endroits précis où les questions concrètes sont discutées.


Ressources

un corpus UD pré-existant; Breton KEB

La conversion de la banque de données de la wikigrammaire en corpus UD peut s'appuyer sur l'existence du premier treebank breton, Breton KEB, hébergé sur GitHub de Tyers & Ravishankar (2018).

Ce corpus est annoté semi-automatiquement et manuellement pour 10 000 tokens (888 phrases). L'annotation suit les recommandations de Universal Depedencies. L'analyseur morphologique de Tyers (2009) pour Apertium a été utilisé pour la tokenisation et l'annotation morphologique (la composition du corpus est détaillée dans Tyers & Howell 2021:450). Des corrections et traductions en anglais et en français ont été ajoutées à ce corpus par Mélanie Jouitteau et Johannes Heinecke en mars 2023, les quelques données agrammaticales et doublons enlevés. Ce premier corpus UD pourra permettre de pré-annoter automatiquement en dépendendances le Breton treebank II.

premieres approches, comparaison treebank Breton KEB vs. ARBRES

Ci-dessous, est recopié un exemple du treebank Breton KEB de Tyers & Ravishankar (2018), puis le même exemple dans sa forme visible aux utilisateurs de ARBRES, puis enfin le code sous-jacent qu'il nécessite.

Exemple de codage de la banque d'arbres de Tyers & Ravishankar (2018):

# sent_id = apertium.vislcg.txt:1:0
# text = N'int ket aet war-raok.
# text[fra] = Ils n'ont pas progressé.
# labels = to_check
1	N'	ne	ADV	adv	Polarity=Neg	4	advmod	_	SpaceAfter=No
2	int	bezañ	AUX	vblex	Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin	4	aux	_	_
3	ket	ket	ADV	adv	_	4	advmod	_	_
4	aet	mont	VERB	vblex	Tense=Past|VerbForm=Part	0	root	_	_
5	war-raok	war-raok	ADV	adv	_	4	advmod	_	SpaceAfter=No
6	.	.	PUNCT	sent	_	4	punct	_	_


Le codage dans ARBRES donne le tableau ci-dessous, tel que vu par les utilisateurs. Chaque exemple est donné en breton, glosé et traduit. La ligne de gloses fournit la traduction littérale, mot-à-mots en français. Elle comprend une mention des mutations consonantiques en superscript sur son élément déclencheur (ici, l'adverbe négatif ne qui provoque une lénition dans tous les dialectes, codée 1 en superscript. La mutation est notée même si, en l'occurrence, elle ne peut pas avoir ici d'effet car l'initiale du verbe qui suit n'est de fait pas mutable. La troisième ligne visible du tableau fournit la traduction globale de la phrase en français standard. La source est mentionnée en décrochage à droite, avec le dicalecte en italiques, suivi des références bibliographiques ou d'élicitation de la source.


(1) N'int ket aet war-raok.
ne1 sont pas all.é sur-avant
'Ils n'ont pas progressé.'
Dialecte, source référencée de la donnée


Pour obtenir une telle visualisation, le code wiki sous-jacent est comme ci-dessous.


0 {| class="prettytable" <take not>
1 |(1)|| N'int || ket || aet || war-raok. 
2 |-
3 ||| [ [ ne ] ][ [1] ] [ [COP|sont] ] || [ [ ket | pas ] ] || [ [ mont | allé ] ] || [ [ war-raok | sur-avant ] ]
4 |-
5 ||| colspan="15" | 'Ils n'ont pas progressé.' 
6 |- 
7 ||||||||| colspan="15" | Dialecte (village), source référencée de la donnée
8 |}


Dans le code, les colonnes (||) de la première ligne fournissent un découpage grossier non-atomique de la donnée bretonne. Cette ligne comporte la ponctuation. Le découpage y est inégal, souvent prosodique car les éléments marqués d'une apostrophe ou d'un tiret n'y sont souvent pas séparés. Il découpe aussi parfois des blocs de constituants syntaxiques. La seconde ligne visible pour l'utilisateur est la ligne 3. C'est la ligne de gloses, qui fournit une tokenisation plus fine et la lemmatisation. Avec l'exemple de la négation et de sa copule, on voit que le découpage en double crochets dessine alors les sous-parties du découpage de la première ligne. Les tokens atomiques sont séparés, les clitiques y sont ainsi séparés de leur hôte.

équipe

Au niveau de l'analyse syntaxique, Mélanie Jouitteau (CR1, IKER, CNRS) et Milan Rezac (CR1, IKER, CNRS) peuvent fournir des comptes-rendus de l'état des recherches syntaxiques sur le breton. L'équipe peut aussi s'appuyer sur l'expérience de Johannes Heinecke qui développe le corpus gallois (Heinecke & Tyers 2019) et travaille de longue date sur le breton (Heinecke 1997, 2001, 2002, 2003).

L'équipe de Sylvain Kahane (Modyco, CNRS, Paris) mène avec Christian Chanard à l'INALCO le projet ANR Autogramm de développement de corpus UDs pour les langues peu dotées mène un projet de reconnaissance sur les données de la wikigrammaire ARBRES depuis 2022. Le codage est prévu en format SUD avec un passage automatisé en UD. Un groupement d'intérêt exploratoire est formé avec Bruno Guillaume (LORIA, INRIA), Kim Gerdes (LISN!, CNRS) et Loic Grobol (Modyco, CNRS et Université Paris Nanterre). En 2022, l'équipe de Paris Nanterre comprend les étudiants en master Salomé Chandora, Katharine Jiang, Aurélien Said Housseini, puis en 2023 Yingzi Liu et Yidi Huang.

Kim Gerdes dirige l'extraction automatique de l'ensemble des exemples du site. Bruno Guillaume qui a développé Grew-match intervient à différents moments pour les allers-retours de conversion UD => SUD => UD et pour la mise en ligne du treebank. Loïc Grobol coordonne le développement d'un parseur à partir des données. En parallèle, Johannes Heinecke développera un second parseur qu'on pourra comparer. Mélanie Jouitteau facilite le repérage des informations présentes sur le site qu'elle a écrit. Elle apporte à l'équipe l'expertise brittophone.

Programme du printemps 2023

1) re-récupération de tous les exemples du site, avec leur adresse (Kim Gerdes, Yingzi Liu)
2) filtrage des exemples non pertinents: contre-exs marqués d'un *, doublons d'exs, non-breton, etc). La liste des traits des tableaux à éliminer est sur cette page à "élimination de tableaux". Comptage des phrases dédoublonnées.
3) préparation de l'annotation relationnelle à partir du corpus UD antérieur Breton KEB et d'une grammaire de conversion vers SUD_Breton-KEB@conv.
4) passage en conllu
5) enrichissement du connlu à partir des informations indirectes fournies par le site (récupérables sur la page où sur une autre page, concertation Mélanie Jouitteau, Yingzi Liu).

En parallèle, pré-annotation de l'échantillon cornouaillais.

Johannes Heinecke continue de son côté d'utiliser UD, avec son interface de visualisation. Les analyses seront concertées sur les décisions d'annotation UD.

Ce que ARBRES fournit pour un codage UD

dans les tableaux "prettytable" : tokens, gloses et lemmas

Dans l'exemple simple schématisé ci-dessous, la donnée en breton fournit une suite de mots en graphie dans la ligne 1. La ligne 3 est la ligne de gloses cliquables. Les gloses sont alignées avec les formes de surface par les colonnes (||). La ligne 5 donne la traduction de la phrase. La ligne 7 fournit des méta-données.


0 {| class="prettytable" <take not>
1 |(1)|| mot 1' mot 2 || mot 3 || mot 4 || mot 5-mot 6. 
2 |-
3 ||| [ [ lemma breton 1 | français pour mot 1 ] ] [ [ mutation déclenchée ] ] [ [ lemma 2 | français pour mot 2 ] ] || [ [ lemma 3 | français pour mot 3 ] ] || [ [ lemma 4 | français pour mot 4 ] ] || [ [ lemma 5 | français pour mot composé 5-6 ] ]
4 |-
5 ||| colspan="15" | 'Traduction globale de la phrase en français.' 
6 |- 
7 ||||||||| colspan="15" | Dialecte, source référencée de la donnée : page
8 |}


La ligne 3 est la plus importante pour l'extraction de codage. Pour les utilisateurs de la wikigrammaire, une glose, c'est-à-dire une traduction mot-à-mot, est alignée sous chaque mot breton. Cette glose en français est cliquable et amène à un article dans la wikigrammaire qui lui est dédié. Pour ce faire, le script wiki a nécessité que chaque glose soit associée à une adresse d'article dans la grammaire. Dans la syntaxe wiki, ce script est ordonné comme suit: [ [ adresse du lien | glose ] ]. L'adresse du lien forunit le lemma. La glose fournit des informations de flexion.

Par exemple grâce à un script [ [ mont | allé ] ], l'utilisatrice qui clique sur la glose allé, visible pour elle juste sous le mot breton aet, ouvre la page du site dédiée au verbe mont 'aller'. L'adresse du lien wiki a donc fourni le lemma mont, le verbe sous sa forme infinitive. Ce lemma est associé à sa droite à la traduction française en contexte du token aligné en colonne avec lui.

tokenisation et découpages morphologiques

utiliser les espaces pour déceler les frontières de mots

Les espaces dans les gloses de la wikigrammaire sont maintenant assez consistants pour servir de repère automatique et globalement, un mot sera toujours entouré d'espaces, à l'exclusion du dernier mot de la phrase qui sera suivi d'un point. Les espaces marquent donc pour un mot sa frontière.

En gloses cliquables, les mots sont aussi détachés par des crochets :

[ [ x | y ] ] [ [ z | t ] ] sont deux mots, y et t, associés respectivement aux adresses x et z.
y [ [ z | t ] ] sont deux mots (il manque encore un lemma en adresse pour ce qui est glosé /y/)
y t sont deux mots (il manque encore deux lemmas en adresse)
[ [ x ] ] est un seul mot - il y a coïncidence accidentelle entre la graphie du lemma breton et celle de sa glose en français, comme dans le cas de la négation préverbale ne.


mots contenant un espace

Il existe un ensemble de mots discontinus, qui contiennent un espace dans leur graphie.

Le plus répandu est le verbe kaout 'avoir' lorsqu'il est conjugué (em eus 'j'ai'). Cependant, il faut noter qu'on trouvera une variation dialectale due à une différence de grammaticalisations à travers les dialectes (cf. meus 'j'ai'). Le plus simple est de faire un comptage token vs. glose dans une colonne, et si il y a un lemma surnuméraire et le verbe kaout en lemma d'un des tokens, considérer qu'il s'agit d'un morphème discontinu.

Les autres morphèmes discontinus en graphie sont en em 'se', en ur 'en', le pronom impersonnel an den 'on', le pronom relatif ar pezh 'ce que', le pronom relatif hag a /C R/ 'qui'. La particule des questions polaires hag-eñ est aussi parfois écrite sans tiret.

Certains verbes pronominaux, de sens nettement distincts de la variante du verbe seul, ont aussi un lemma en propre, comme le verbe en em gavout 'se retrouver' noté distinctement du verbe kavout 'trouver'.

traitement des incorporations morphologiques

La dérivation morphologique est inégalement prise en charge dans les gloses de la wikigrammaire. En ligne de glose, le découpage en tokens descend au niveau morphologique dans la mesure où le permettait son lectorat qui a témoigné régulièrement d'une difficulté d'accès à des formes trop décomposées.

Les mots fusionnés sont un ensemble de plusieurs mots syntaxiques qui apparaissent en breton comme un mot opaque. Ils sont traités en ligne de glose comme des tokens distincts reliés par un point. Ainsi, la préposition e devant un article défini en 'dans le' est notée en en ligne 1 est glosée : [ [ P.e | dans ] ].[ [ art | le ] ]. La plupart des prépositions peuvent recevoir un pronom objet incorporé - on les appelle prépositions fléchies. La préposition fléchie ennon 'en moi' est glosée [ [ P.e | dans ] ].[ [ pronom incorporé | moi ] ]. La préposition ganin 'avec moi' est glosée [ [ gant | avec ] ].[ [ pronom incorporé | moi ] ], ce qui permet de récupérer deux formes différentes de pronom incorporé 1SG : -in et -on, et d'associer chacune avec la préposition qui la déclenche. À noter toutefois que la traduction choisie est, en français, un pronom fort (moi vs. me), mais le pronom breton incorporé est un pronom faible (mais m'avec, t'avec, l'avec, n'avec, v'avec, z'avec, plus en parallèle à la structure bretonne, auraient probablement déconcerté les francophones).


groupement des finales de plusieurs suffixes

Lorsqu'un seul affixe est repérable, le découpage donne directement le préfixe ou suffixe en question dans la glose, mais lorsque plusieurs affixes forment une finale complexe, l'adresse donnée pour la glose est directement cette finale complexe.

Le nom distresadur 'transformation' est glosé [ [ di-, dis- | trans ] ].[ [ tres | form ] ].[ [ -adur | ation ] ]. Dans la page de la finale complexe -adur, cette finale est décomposée dans ses différents suffixes, -ad et -ur. Par le système de catégorisation de pages du wiki, on peut générer automatiquement la liste des finales complexes et la liste des suffixes répertoriés dans le site.


La dérivation flexionnelle est prise en charge pour les pluriels des noms. Pour les pluriels simples, le morphème pluriel final apparaît séparé d'un point. Ainsi, le nom pluriel krouadurioù 'enfants' est glosé [ [ krouadur | enfant ] ].[ [ -ioù (PL.)| s ] ]. En breton, les pluriels dits "pluriels internes" ont la propriété de modifier leur racine. Le nom pluriel bugale 'enfants' est glosé [ [ bugel | enfant ] ].[ [ pluriel interne | s ] ], avec le lemma qui est la forme de surface au singulier suivi du pluriel glosé qui renvoie en adresse à la page sur les pluriels internes.

Les morphèmes porte-manteaux de la flexion verbale, les traits de conjugaison, n'ont pas d'adresse propre. La plupart du temps ces traits de flexion verbale sont calculables par la traduction française associée, qui est donnée fléchie dans les gloses. Les traits UD sont donc récupérables dans la mesure où la morphologie verbale française est assez riche. La matrice de traits "Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin" du verbe breton int 'sont' peut être récupérée par la glose en français sont. Cette carence dans la glose de ARBRES pour la flexion verbale pourrait en principe aussi être suppléée par les données de DVB, displeger verboù brezhonek 'conjugateur de verbes bretons' développé par par des membres de l'association An Drouizig 'Le petit Druide', des membres du commité Poellgor Bed Niverel 'Commité Monde Numérique', ainsi que des membres du projet.


Un cas difficile et intéressant est posé par la tempête de variation morphologique (et syntaxique) dans le verbe et auxiliaire 'avoir'. En (2), ce verbe précédé de la négation ne sous sa forme proclitique est orthographié de manière discontinue, o dez. Il comporte les traits du sujet interprété sur sa gauche avec un pronom 3PL o sous une forme qui semble oblique, puis d'une initiale /d-/ typique des personnes 3 (au singulier comme au pluriel; en de(v)ez 3SGM, he de(v)ez 3SGF, o de(v)ez 3PL). La racine marque la trace de la forme dite d'habitude, qui n'est pas interprétée ou produite dans toutes les variétés sur ce verbe. On pourrait, dans le même contexte syntaxique, trouver n'o deus ket en breton standard, la notion d'habitude étant convoyée par un présent à lecture générique. Ceci implique qu'un glosage précis nécessite d'être en mesure de vérifier pour chaque variété si le morphème comprend réellement ces traits, en syntaxe comme en sémantique. Enfin, la finale pourrait être, selon les analyses, une racine dénuée à sa droite de morphème d'accord, un accord 3SG réalisé avec un élément qui n'est pas le sujet, ou encore un morphème d'accord par défaut qui ne fait qu'emprunter la morphologie 3SG et qui apparaît lorsque le sujet est exprimé ailleurs (se reporter aux analyses formelles du système d'accord).


(2) Ha forzh boued n'o dez ket...
et beaucoup nourriture ne 3PL 3.a pas
'Et ils n'ont pas beaucoup de nourriture.'
Vannetais, Herrieu (1994:90)


Ce problème n'est pas facilement écartable car certains dialectes centraux ont, de toute façon, pour une sous-partie du paradigme, un morphème d'accord à droite du composé (memp 'nous avons'), dialectes dans lesquels peuvent exister en plus des règles d'accord différentes (ni meump /1PL 1.racine.1PL/ vs. ni neus /1PL 3.racine.3SG/ ou /1PL 3.racine.Ø/, 'nous avons'). Les gloses dans la wikigrammaire reflètent la diversité des données au plus près de ce qu'on en comprend scientifiquement, et cela peut être un frein à la conversion automatique. Les buts d'un traitement automatique peuvent nécessiter de faire abstraction de la variation et de se contenter de stocker les formes diverses en lien avec leur traduction française.


La morphologie flexionnelle n'impacte qu'exceptionnellement les adjectifs bretons par suffixation (mezvez 'saoule', glosé [ [ mezv | saoul ] ].[ [ -ez (F.)| e ] ]). Cependant, la qualité, présence ou absence de mutation sur l'adjectif renseigne sur les traits du nom qu'il modifie. En ligne de glose, la traduction de l'adjectif en français révèle les traits obligatoirement interprétables : an hini vrav la belle' est glosé [ [ art | un ] ] [ [ hini | celui ] ] < sup >[ [ 1 ] ] < /sup > [ [ brav | belle ] ]. Cet exemple permet aussi de noter que les rares éléments qui n'ont pas d'équivalent en français comme la tête nominale sémantiquement générique hini sont traduits en glose par une approximation qui a été jugée commode par le lectorat humain.

les abréviations dans les gloses de ARBRES

La wikigrammaire étant destinée en premier lieu à un lectorat humain, la partie visible du script fait un usage le plus restreint possible des acronymes, mais ils ont été incompressibles à certains endroits. Une page est dédiée à l'inventaire des abréviations en glose.


chiffres dans les gloses

À noter que des chiffres apparaissent dans les gloses et font partie de systèmes différents :

  • les mutations sont mentionnées par des chiffres 1, 2, 3, 4 et 5 en superscript collé à l'élément déclencheur de la mutation. Chaque chiffre renvoie à une série particulière de mutations.
  • les traits de personne dans les paradigmes peuvent apparaître sous les formes 1, 2 et 3. Il n'y a pas de chiffre dédié à la flexion de l'impersonnel, noté [ [ IMP ] ], et traduit on. J'ai évité au maximum la mention de ces traits en gloses, mais à certains endroits comme le verbe 'avoir', ils sont restés indispensables. Pour les dialectes qui ont perdu la distinction tu/vous dans les formes d'adresse, la personne 2 est aussi la seule information que l'on peut mettre.
  • le chiffre 2 apparait est la traduction du morphème du duel dans les gloses. Le nom daoulagad 'yeux (par deux)' est codé [ [ duel | 2 ] ].[ [ lagad | œil ] ].

le lemma en adresse de la glose

Le lemma breton est donné sous sa forme non-dérivée, dénuée de suffixes flexionnels.

Cela signifie dans une langue celtique que le lemma est donné au singulier pour un nom comptable mais au pluriel pour un nom collectif. Pour la flexion verbale, le lemma donné est, par convention, la forme infinitive dans la wikigrammaire comme dans UD.

Il y a une petite divergence avec le format UD pour les formes qui ont des racines supplétives au comparatif de supériorité comme gwell ou gwelloc'h 'mieux', ou gwazh ou gwashoc'h 'pire'. UD recommande de leur assigner le lemma non-comparatif ce qui donnerait gwelloc'h 'mieux' > [ [ mat | bien ] ].[ [ -oc'h | plus] ] et gwasoc'h 'pire' > [ [ fall | mal ] ].[ [ -oc'h | plus] ], alors que la wikigrammaire a prévu de dédier un article à chaque racine irrégulière, ce qui est géré pour l'instant par des redirections ([ [ -oc'h | mieux ] ]). Ce pourrait être régularisé assez facilement.

Les traits de tous les types de pronoms sont récupérables en glose. Le pronom fort indépendant (pfi) 1SG me 'moi' est noté en glose [ [ pfi | moi ] ], Le pronom fort indépendant 2SG te 'toi' est noté en glose [ [ pfi | toi ] ], etc. De même, le déterminant possessif (POSS) ma 'mon, ma', qui déclenche une mutation mixte (codée 2 en superscript), est glosé [ [ POSS | mon ] ] < sup >[ [ 2 ] ]< /sup > dans la plupart de ses occurrences. Cependant, comme le site documente la variation dialectale, les occurrences du cornouaillais de Locronan documentées dans la grammaire, où ce possessif déclenche une lénition (codée 1 en superscript), sont glosées [ [ POSS | mon ] ] < sup >[ [ 1 ] ]< /sup >.

Dans le cas des prépositions composées comme war-raok /sur-avant/ 'en avant', un seul lemma lui est associé.


irrégularités adresse > lemma

L'adresse d'une glose sur ARBRES est généralement sa forme de surface avec quelques simplifications, comme flexionnelles, qui donne le mot comme on le trouverait dans un dictionnaire. Mais il existe des cas où l'adresse en glose ne correspond pas à cette forme de surface, même simplifiée. Une page est dédiée à l'inventaire des lemmas non-réguliers en glose.

lemmas génériques

L'adresse de la glose peut renvoyer à une classe :

  • les noms propres comme 'Josette' sont glosés [ [ nom propre | Josette ] ].
  • les articles comme an, al, ou ar sont glosés [ [ art | le ] ] et un, ul, ou ur sont glosés [ [ art | un ] ]
  • les noms de jours comme dilun 'lundi (prochain)' sont glosés [ [ noms de jours | lundi ] ]
  • les pronoms forts indépendants comme me 'moi' sont glosés [ [ pfi | moi ] ] , avec une redirection automatique pfi => pronoms forts indépendants.
  • tous les démonstratifs ont été mis ensemble en adresse [ [ DEM ] ], ce qui concerne deux classes, les pronoms démonstratifs (hennezh, houmañ...) comme les démonstratifs analytiques (ar vuoc'h-mañ 'la vache-là', 'cette vache').


L'adresse de la glose, de façon irrégulière, renvoie à une classe syntaxique ou sémantique dans les cas suivants :

  • Les noms nus, comme tra ebet 'rien du tout' ont été glosés avec [ [ noms nus | chose ] ] [ [ ebet | aucun ] ]. Cependant, la même donnée peut être glosée avec le lemma de ce nom particulier, dans notre exemple [ [ tra | chose ] ] [ [ ebet | aucun ] ]
  • Le verbe 'être' en breton a cinq formes morphologiques différentes. Le choix de l'une ou l'autre forme dépend de son placement dans la phrase (verbe initial ou V2), du placement de son sujet (avant ou après lui), des traits +/- définis de ce sujet, et enfin de traits purement sémantiques (forme de situation, d'habitude, existentielle, copule). Chacune des cinq formes a aussi une variation dialectale conséquente dans sa distribution selon les critères cités. Ce verbe 'être' est le plus souvent associé à l'adresse de sa forme de surface référente débarrassée de ses traits de flexion, mais aussi, surtout pour les tournures existentielles et la copule, par des gloses sémantiques :
[ [ E | est ] ], [ [ E | y.a ] ] et [ [ COP | est ] ].

La phrase Bara 'zo / pain est/ peut être glosée morphologiquement ou sémantiquement :

[ [ bara | pain ] ] || [ [ zo | est ] ]
[ [ bara | pain ] ] || [ [ E | est ] ]

La phrase Brav eo ar bara / beau est le pain/ peut être glosée morphologiquement ou sémantiquement :

[ [ brav | beau ] ] || [ [ eo | est ] ] || [ [ art | le ] ] [ [ bara | pain ] ]
[ [ brav | beau ] ] || [ [ COP | est ] ] || [ [ art | le ] ] [ [ bara | pain ] ]


adresse = opération morphophonologique

L'adresse de la glose peut aussi renvoyer à une opération morphophonologique :


lemmas homophones désambiguïsés

UD requiert que les lemmas soient fournis sous la forme de surface canonique, ce qui pose le problème des formes ambigües.

Ce problème se pose concrètement en breton pour :

Dans le dictionnaire en ligne Menard & Bihan (2016-), ces ambiguïtés sont résolues par un système de spécifieurs numériques assez régulier (pal.1, pal.2). UD propose de classer ces homonymes dans la colonne MISC dans l'attribut optionnel LId (LId=can-1).

Le désambiguïsateur morphologique de Tyers & Howell (2021) semble pouvoir se charger des homophones. Ce dernier pourrait peut-être être solidifié par la liste des pages de désambiguïsation qui liste dans la wikigrammaire les formes de surface pouvant être ambigus.

ressources pour le codage UD, hors gloses

En dehors du système d'annotation des données, le site a nécessité pour son développement interne des outils et listes qui pourraient directement alimenter les entraineurs d'algorithme, comme :

  • la liste des redirections de pages gère les différences d'orthographe ou de dialecte. Par exemple le verbe 'être' a un infinitif standard bezañ et une variante dialectale bout. Ces deux liens mènent vers la même page, et il est possible de générer la liste exhaustive de toutes les redirections sur le site. L'exploitation de cette dernière liste nécessiterait cependant de mettre de côté les redirections concernant les ouvrages de recherche et les abréviations.


POS tags UD récupérables

Le format UD comporte en tout 17 étiquettes de parties du discours (POS tags). Le code de la wikigrammaire ne fournit qu'exceptionnellement la catégorie grammaticale des éléments directement en glose. Les 5 formes du verbe 'être' et la variation dialectale de leur distribution ont nécessité dans la grammaire un glosage hybride, parfois morphologique (eo, a zo, emañ, ez eus, vez), parfois syntaxique (COP renvoie à l'article sur l'emploi syntaxique de la copule) ou même sémantique (le signe E en adresse renvoie à l'article sur la copule existentielle). La catégorie des éléments est cependant toujours récupérable automatiquement par les catégorisations de pages (eo => auxiliaire, car l'article de la wikigrammaire intitulé eo est catégorisé dans le site comme une page concernant un auxiliaire. Tous les éléments sont ainsi catégorisés via la page qui leur est dédiée, par exemple les adjectifs, mais aussi avec une granularité plus fine dans la mesure où ils ont un comportement grammaticalement distinguable, les adjectifs de couleur (voir la liste des catégories). Ci-dessous, j'inventorie les catégories UD et je détaille les équivalences sur la wikigrammaire, en ajoutant une estimation des nombre de membres de chaque catégorie fin 2021. Ces chiffres vont progresser à l'avenir, surtout pour les catégories lexicales, au fur et à mesure que des exemples nouveaux alimenteront la grammaire.

  • CCONJ = conjonctions de coordination. Ils sont listés dans la wikigrammaire dans la liste des conjonctions (12 membres)
  • DET = déterminants. Les déterminants sont encore à catégoriser dans le corps de la wikigrammaire, qui comprend cependant la liste des quantifieurs (56 membres). Il faut rajouter les deux articles, défini an, al, ar et indéfini un, ul ur, les déterminants possessifs et les complémenteurs peseurt, petore 'lequel'. Attention, les pages thématiques de la grammaire ont été catégorisées sous le titre "articles", en opposition aux "fiches" de linguistique formelle.
  • NOUN = nom. Ils sont listés dans la wikigrammaire dans la liste des noms (799 membres)
  • SCONJ = conjonction de subordination. Dans la wikigrammaire, ils sont compris dans les complémenteurs.
  • PART = particule. La particule préverbale (rannig) est signalée en glose par la lettre R, suivie lorsque le dialecte le permet de la mutation associée à cette particule. Attention, UD classe les particules Q des questions polaires, de 'est-ce que', dans les particules, qui sont dans la wikigrammaire des complémenteurs.
  • INTJ = interjection. Certaines sont signalées directement en gloses, d'autres ont chacun une page dédiée qui est catégorisée comme interjection (liste des interjections).
  • PROPN = nom propre. Quelques noms propres sont mentionnés comme tels en glose, mais cette pratique est récente sur le site. Il est plus sur de passer par les recensements déjà établis par d'autres programmes (Tyers 2008 les avait extraits de Wikipedia), ou de s'appuyer sur la majuscule en graphie pour les récupérer.
  • PUNCT = ponctuation. Cette information est présente en graphie en ligne 1, et devrait avoir un parallèle dans la traduction française.
  • SYM = symbole. Il s'agit de symboles écrits qui ne sont pas codés à ce jour dans la wikigrammaire.
  • X = autre. cette notation n'a pas été nécessaire.

Extraire les données de la wikigrammaire ARBRES

Les données du breton glosées traduites dans la wikigrammaire sont extraites sous format Conll-U dans Grewmatch.


pièges pour le traitement au kilomètre

irrégularités régulières

L'idée de récupération des gloses de la wikigrammaire pour générer des POS tags UD s'appuie sur le système de gloses cliquables. Pour chaque glose sous son mot breton, l'utilisateur peut cliquer et tomber sur la page traitant de ce mot.

Cela implique que sur la page dédiée à ce mot, la glose de ce mot ne sera pas, elle, cliquable (cela renverrait à la même page, et le wiki le ferait apparaître en caractères gras, rendant la glose difficilement lisible). Elle n'aura pas d'adresse et apparaîtra nue. L'exemple ci-dessous est tiré de la page "chas" 'chiens'. Ce mot apparaît en gras (entre balises ' ' ') dans la ligne 1 de breton, et apparaît nu en gloses.


(1) Pet vloaz en deus ho chas ?
combien1 an 3SG a votre3 chiens
'Quel âge ont vos chiens ?'
Standard, Le Bozec (1933:76)

nettoyages

données à enlever

  • les données agrammaticales (les exemples de fautes)

Une donnée agrammaticale est signalée par une étoile * mise en lien donc [ [ * ] ]. Ces phrases doivent être écartées du format Conll - ce ne sont pas des phrases correctes.

Attention, sur le site le signe * sert à d'autres usages qu'on ne doit pas confondre, mais heureusement cela ne se retrouvera jamais dans les tableaux "prettytable". En effet, en syntaxe wiki, une étoile en début de ligne est aussi le script pour une puce (bullet point). Dans la partie diachronique de chaque article on peut aussi rencontrer des racines étymologiques avec une étoile à l'initiale, convention pour les racines étymologiques reconstruites non-attestées.
  • les tableaux prettytable qui organisent des données qui ne sont pas des exemples récupérables. Ces tableaux commencent tous dans le code en :
 { |  class = " prettytable "  <take not>


mises en forme

Lorsque l'explication grammaticale le nécessitait pour le lecteur, un constituant particulier dans la phrase a été signalé entre crochets comme ceci [ constituant ]. Le script est, sans espace, < font color = green >, avec balise de fin < / font color = green >.

Lorsque l'explication grammaticale le nécessitait pour le lecteur, un constituant a été souligné. Le balisage est < u > avec une balise de fin < / u >.


apostrophes et bordures de mots

Il est tentant de considérer que l'apostrophe marque constamment une bordure de mots mais cela est trompeur. Les apostrophes sont utilisées pour des tâches très différentes.

Une apostrophe seule est soit :

  • au milieu de la lettre c'h /X/)
La graphie c'h est une lettre unique dans l'alphabet breton (prononcée /X/) . Heureusement, l'alphabet breton moderne ne contient jamais la lettre c dans la grande majorité des graphies. L'ensemble c'h peut être systématiquement considéré comme une seule et même lettre.
  • le signal dans certaines graphies d'une réduction morphologique (e'it pour evit 'pour'). Entre un clitique et son hôte, cette réduction marque la bordure de mots (d'ar gêr 'à la maison')
  • un élément marqué en graphie car il est présent syntaxiquement mais non prononcé, typiquement une particule, mais parfois des élisions plus importantes qui comprennent la négation (cf. 'forzh petra = N'eus forzh petra 'n'importe quoi').
  • 'Le bord gauche ou droit d'une traduction.'
  • quelques graphies phonétiques utilisent aussi l'apostrophe pour signaler l'accentuation de la syllabe qui suit. Cette graphie est négligeable pour exploiter les données de la wikigrammaire pour UD puisqu'on laisse ces lignes de côté.


En syntaxe wiki, ' ' (sans espaces) est une balise de mise en italiques, et ' ' ' (sans espaces) est une balise de mise en caractères gras. Ils n'ont pas de balise de fin spécifique comme en html.

  • Ont été mis en italiques systématiquement les typifications du dialecte de la donnée avec une majuscule (Cornouaillais, Cornouaillais de l'Est, Léonard, Vannetais, Breton central, KLT, Breton pré-moderne, Moyen breton, Vieux breton, etc.).
  • Ont été mis en caractères gras systématiquement les occurrences du mot qui constitue le titre de la page (dans la page sur le nom ki 'chien', toutes les occurrences du nom ki sont en gras dans la ligne de breton, et ne comportent pas de lien dans les gloses. Les tableaux ont été utilisés plusieurs fois dans la grammaire, et il y a donc toutes les chances que ce même tableau existe ailleurs dans la grammaire, avec un autre élément en caractère gras.
nombre maximal des lignes dans les tableaux de données

Certains exemples ont par rapport à l'exemple typique des lignes supplémentaires (contexte pragmatique associé, API ou diverses graphies de prononciation, donnée dialectale et son équivalent standardisé, précisions sur la source...). Un tableau maximal contiendrait les lignes suivantes:

 {
 CONTEXTE PRAGMATIQUE
 < font color = green > … graphie de prononciation ou API </ font color = green >
 Phrase dans un dialecte breton donné
 Équivalent standardisé (signalé comme tel en italiques en bout de ligne) 
 | || gloses || gloses || 
 'Traduction globale en français.' (désambiguïsation anaphorique ou de contexte)
 Source première (locuteur ou ouvrage source)         
 Source secondaire (collecté par … ou cité par … )
 }
 

Ces contextes pragmatiques associés, API ou diverses graphies de prononciation sont à nettoyer.

Les données dialectales associées à leur équivalent standardisé feraient de belles paires minimales dans le corpus UD. Il faut donc les garder.

La source des données doit impérativement être préservée.

notations supplémentaires et usage des couleurs

Un tour de parole entre interlocuteurs est signalé, pour un locuteur A, avec : < font color = orange > A < / font color=orange >. Pour des exemples, se reporter à la page Réponses aux questions.

Les ellipses sont signalées par le script < font color = violet > _[ø]_ < / font color=violet >, et apparaissent en violet.

élimination de tableaux

Les tableaux "prettytable" ont aussi été utilisés pour une poignée de tableaux de paradigmes. La plupart ont été réécrits sous un autre format, mais il en reste une poignée.

Certains tableaux présentent des données comparatives d'autres langues. Elles sont listées ici en ordre alphabétique :

akimel o'odham, anglais, allemand, arabe, basque, chalcatongo mixtec, cimbre, cornique, dholuo, espagnol, estonien, finnois, français, français de Basse-Bretagne, franco-breton, frison, gaulois, gallois, gbaya kara (Centre Afrique), gallo, hébreu, ingush, irlandais, islandais, italien, langue bantoue (Chimwi:ni), moyen danois, moyen gallois, moyen irlandais, néerlandais, o'odham, tohono o'odham, papago, romani, roumain, tchèque, tchétchène, vieux gallois, vieil irlandais, vieil italien, vieux norse.

Les données de breton pré-moderne, vannetais pré-moderne, moyen breton, moyen vannetais ou vieux breton ne sont pas non plus à transférer dans un corpus UD de breton moderne.

Le format Conll recevant les données de ARBRES

métadonnées

À chaque donnée est associé un identifiant chiffré, sent_id.

La source de chaque donnée est mentionnée dans les tableaux de ARBRES en dernière ligne, en italiques comme suit: ' ' Dialecte (location) ' ', [ [ Titre_de_page_de_la_référence | Auteur (date ] ]:page) qui est visualisable comme par exemple Léonard (Plougerneau), Elégoët (1982:55). Ces informations apparaissent dans le Conll comme métadonnée dans les premières lignes avec sent_id, le numéro assigné à la donnée.

Ces informations sont enrichissables en ajoutant les informations contenues dans les catégorisations des pages de référence bibliographique. Par exemple la page de la référence bibliographique Elégoët (1982) appartient à deux catégories, Références de corpus et Léonard, ce qui confirme le dialecte.

 On obtient : 

 dialect = Léonard
 location = Plougerneau
 source = Elégoët (1982)
 texttype = corpus (/élicitation / ouvrage de recherche / ouvrage pédagogique...)


La liste des catégories pertinentes comprend :

  • Références de corpus, Ouvrages de recherche, Ouvrages pédagogiques, Grammaires, Dictionnaires, élicitations
  • Léonard, Cornouaillais, Vannetais, Breton central, Trégorrois

Guide d'annotations

Les recommandations de codage pour un UD breton doivent concorder au maximum avec les choix faits pour le premier treebank Breton KEB. Les questions de modification des choix initialement opérés pour KEB doivent être discutés sur le forum github associé à KEB. Le guide d'annotations du breton KEB est ici.

Quelques rappels:

Points de divergences avec l'analyse du KEB

Négation

La négation préverbale ne est traitée dans KEB comme un modifieur adverbial. Les analyses générativistes en font au contraire un complémenteur sur lequel le rannig est clitique (en standard on n'a que la forme ne mais il existe des formes na si précédé d'un nom. La négation post-verbale ket est bien un adverbe modificateur.

  • ne: pos_tag complémenteur Mut=1

les verbes bretons ne sont pas des noms

Le treebank Breton KEB s'est distingué des autres langues celtiques par rapport à l'annotation des infinitifs (en breton: VERB) et les verbnouns (en gallois, irlandais, Scottish Gaelic et Manx: NOUN).


En voici un exemple en breton, avec l'infinitif paouez 'arrêter, cesser' comme racine et emaon 'suis' comme auxiliaire (litt. /je suis à cesser finir mon livre / 'Je viens de finir mon livre'):

 1 Emaon bezañ AUX vbloc Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin 3 aux _ _
 2 o o AUX vpart _ 3 aux _ _
 3 paouez paouez VERB vblex VerbForm=Inf 0 root _ _
 4 echuiñ echuiñ VERB vblex VerbForm=Inf 3 xcomp _ _
 5 ma ma DET det Poss=Yes 6 det _ _
 6 levr levr NOUN n Gender=Masc|Number=Sing 4 obj _ SpaceAfter=No
 7 . . PUNCT sent _ 3 punct _ _


En gallois, le Verbnoun dod dépend du verb 'être' (bydd) :


 # text = Bydd o'n dod.
 # text[eng] = He will come.
 1 Bydd bod VERB verb Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin 0 root _ _
 2 o ef PRON indep Gender=Masc|Number=Sing|Person=3|PronType=Prs 1 nsubj _ SpaceAfter=No
 3 'n yn AUX impf _ 4 aux _ _
 4 dod dod NOUN verbnoun Number=Sing|VerbForm=Vnoun 1 xcomp _ SpaceAfter=No


C'est une question très délicate, et il est certain que lorsqu'une notation a été choisie pour un groupe de langues, essayer d'y coller au plus près est la marche à suivre. Le treebank Breton KEB a fait un choix de rupture avec les autres langues celtiques, et aussi avec la terminologie brittophone d'analyse (anv-verb 'nom verbal, infinitif'). Linguistiquement, cependant, cette rupture est justifiée car on assiste en breton depuis le XVII° à l'émergence d'un système accusatif, même si cela se passe inégalement selon les dialectes. Si c'est net en vannetais, les arguments sont beaucoup plus compliqués en KLT mais globalement, le système d'assignation du génitif à l'objet d'un verbe infinitif s'est effondré partout. Même le standard est touché dans son usage (restreint) des proclitiques objets, car il suit l'usage léonard et ce qui a été anciennement un pronom oblique génitif s'y retrouve aussi sur les verbes tensés (voir la section 'La question des propriétés nominales des infinitifs' sur la page des verbes infinitifs, et surtout la page des pronoms proclitiques objets). Milan Rezac prévoit un article spécifique sur ce sujet (> été 2024), et les articles de ARBRES qui restent flous sur l'émergence de cet accusatif vont être réécrits.

réfléchi en em

En format UD, les réfléchis et réciproques (En em c'houlenn a ran ou En em gannet out c'hoazh ?) sont étiquetés PRON ("expl" comme pour "se" dans des treebanks français ou italiens). Dans le treebank Breton KEB (v2.9), en em unité fixe avec le em dépendant du en (relation "fixed"), ce qui est justifié car le bloc en em n'est jamais séparé et est invariable en breton moderne. Beaucoup de dialectes disent d'ailleurs num, nõm. Dans le treebank Breton KEB, le AUX comme UPOS (et le "aux" comme deprel) sont étranges.


 # text[fra] = Je me lave.
 # labels = to_check
 1 Me prpers PRON prn Case=Nom|Number=Sing|Person=1|PronType=Prs 4 nsubj _ _
 2 en en AUX vpart Reflex=Yes 4 aux _ _
 3 em em X x _ 2 fixed _ _
 4 walc'h gwalc'hañ VERB vblex Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ SpaceAfter=No
 5 . . PUNCT sent _ 4 punct _ _


Johannes et Mélanie suggèrent un PRON et un "(i)obj" comme deprel. Le se roman a des usages de middle comme La tour Eiffel se voit de loin qu'on ne retrouvera en breton que dans des préfixes comme he- (hewalc'h 'lavable, qui se lave') ou em- (emwalc'h 'qui se lave, auto-nettoyant').


prépositions à objet incorporé

Dans le codage UD, une préposition est dépendante de son objet, ce qui la rapproche d'un marquage casuel. Dans le cas des prépositions celtiques où l'objet est incorporé dans la préposition et crée un paradigme, cela implique qu'un pronom incorpore dans son dépendant.


mutations

Dans le KEB, rien n'est indiqué pour repérer spécifiquement les mutations (pour les retrouver il faut comparer forme et lemme)

  • Pour UD Iris IDT, les mutations sont indiquées comme un trait morphologique (non standard pour UD), "Form=Len" par exemple indique une lénition.

Pour l'instant, on garde les mutations indiquées en glose dans la colonne MISC du mot qui a muté

  • Un trait "Mut=…", par exemple "Mut=1" pour une lénition, qui indique le type de mutation
  • Un trait "MutChoice=left|right" qui indique si le type de mutation dépend du mot muté (right) ou du déclencheur (left). Par exemple "MutChoice=right" indique que le type de mutation dépend du mot muté.

du minimalisme à SUD

Le formalisme de SUD est plus confortable en venant du cadre générativiste car contrairement à UD, SUD reconnaît les têtes fonctionnelles comme régissant le syntagme qu'elles dominent.

Des différences persistent cependant.

  • Dans le groupe nominal, c'est le nom qui est désigné comme la tête.
  • Les arguments des noms sont considérés comme des modificateurs (a date with his girlfriend avec with modifiant date).
  • Les quantifieurs apparaissent selon leur catégorie (in full military regalia a full comme un adjectif).

La variante d'UD "Enhanced UD", comme SUD, peut accommoder des éléments phonologiquement vides. En breton, c'est adapté pour les cas des morphèmes vides, des pronoms vides, dont l'explétif vide, du complémenteur vide, ou enfin pour le rannig ou les articles dans les dialectes qui les prononcent rarement.

Terminologie

forum sur l'annotation SUD: issues


Bibliographie

sur le format UD ou SUD

  • De Marneffe, Marie-Catherine , Christopher D. Manning, Joakim Nivre, Daniel Zeman. 2021. 'Universal Dependencies', Computational Linguistics 47:2, 255–308. texte.
  • Gerdes, Kim, Bruno Guillaume, Sylvain Kahane & Guy Perrier. 2019. 'Pourquoi se tourner vers le SUD : L'importance de choisir un schéma d'annotationen dépendance surface-syntaxique', Actes des Journées scientifiques « Linguistique informatique, formelle et de terrain », Orléans, France. texte.
  • Nivre, Joakim, Marie-Catherine De Marneffe, Filip Ginter, Jan Hajič, Christopher D. Manning, Sampo Pyysalo, Sebastian Schuster, Francis Tyers, and Daniel Zeman. 2020. 'Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection', Proceedings of the Twelfth Language Resources and Evaluation Conference, 4034–4043, Marseille, France. European Language Resources Association. texte.
  • Osborne, Timothy & Kim Gerdes. 2019. 'The status of function words in dependency grammar: A critique of Universal Dependencies (UD)', Glossa: a journal of general linguistics 4:1, p.17. doi: https://doi.org/10.5334/gjgl.537.


Penn annotations

  • Marcus, Mitchell, Beatrice Santorini, & Mary Ann Marcinkiewicz. 1993. 'Building a large annotated corpus of English: The Penn Treebank', Computational linguistics 19, 313-330. Reprinted in Susan Armstrong (éd.), 1994, Using large corpora, Cambridge, MA: MIT Press. 273-290.