Breton treebank II

De Arbres

Le projet Breton treebank II vise à constituer un corpus annoté Universal Dependencies (De Marneffe & al. 2021), à partir des données existantes de la wikigrammaire ARBRES (Jouitteau 2009-). Il est initié de manière exploratoire par le projet ANR Autogramm.

Le travail consiste à extraire les données en ARBRES en les organisant en format Conll lisible pour la constitution du corpus richement annotés, puis de remplir ce format Conll en l'instruisant des dépendances (notation SUD avec une traduction des annotations en UD). L'extraction est en progrès, visualisable ici sur grew et ici sur github.

L'article ci-dessous vise à laisser la trace organisée de ce travail, et à renvoyer aux endroits précis où les questions concrètes sont discutées.


Ressources

un corpus UD pré-existant; Breton KEB

La conversion de la banque de données de la wikigrammaire en corpus UD peut s'appuyer sur l'existence du premier tree-bank breton hébergé sur GitHub de Tyers & Ravishankar (2018).

Ce corpus est annoté semi-automatiquement et manuellement pour 10 000 tokens (888 phrases). L'annotation suit les recommandations de Universal Depedencies. L'analyseur morphologique de Tyers (2009) pour Apertium a été utilisé pour la tokenisation et l'annotation morphologique (la composition du corpus est détaillée dans Tyers & Howell (2021:450).

Ce premier corpus UD pourra permettre de pré-annoter automatiquement en dépendendances le Breton treebank II. Une première partie du projet Autogramm sur le breton consiste donc à relire et améliorer Breton KEB pour améliorer ses performances. Les propositions de modifications sont postées sur le forum Github associé. Mélanie Jouitteau utilise Arboratorgrew pour relire les structures en dépendances de Breton KEB. Cette interface "traduit" les dépendances UD en dépendances SUD et inversement. Le choix de cette interface a principalement deux raisons :

(i) les arborescences y sont visualisées de manière confortable, et
(ii) le codage SUD est plus proche pour les linguistes venant des structures en constituants.


premieres approches, comparaison treebank Breton KEB vs. ARBRES

Ci-dessous, est recopié un exemple du treebank Breton KEB de Tyers & Ravishankar (2018), puis le même exemple dans sa forme visible aux utilisateurs de ARBRES, puis enfin le code sous-jacent qu'il nécessite.

Exemple de codage de la banque d'arbres de Tyers & Ravishankar (2018):

# sent_id = apertium.vislcg.txt:1:0
# text = N'int ket aet war-raok.
# text[fra] = Ils n'ont pas progressé.
# labels = to_check
1	N'	ne	ADV	adv	Polarity=Neg	4	advmod	_	SpaceAfter=No
2	int	bezañ	AUX	vblex	Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin	4	aux	_	_
3	ket	ket	ADV	adv	_	4	advmod	_	_
4	aet	mont	VERB	vblex	Tense=Past|VerbForm=Part	0	root	_	_
5	war-raok	war-raok	ADV	adv	_	4	advmod	_	SpaceAfter=No
6	.	.	PUNCT	sent	_	4	punct	_	_


Le codage dans ARBRES donne le tableau ci-dessous, tel que vu par les utilisateurs. Chaque exemple est donné en breton, glosé et traduit. La ligne de gloses fournit la traduction littérale, mot-à-mots en français. Elle comprend une mention des mutations consonantiques en superscript sur son élément déclencheur (ici, l'adverbe négatif ne qui provoque une lénition dans tous les dialectes, codée 1 en superscript. La mutation est notée même si, en l'occurrence, elle ne peut pas avoir ici d'effet car l'initiale du verbe qui suit n'est de fait pas mutable. La troisième ligne visible du tableau fournit la traduction globale de la phrase en français standard. La source est mentionnée en décrochage à droite, avec le dicalecte en italiques, suivi des références bibliographiques ou d'élicitation de la source.


(1) N'int ket aet war-raok.
ne1 sont pas allé sur-avant
'Ils n'ont pas progressé.'
Dialecte, source référencée de la donnée


Pour obtenir une telle visualisation, le code wiki sous-jacent est comme ci-dessous.


0 {| class="prettytable"
1 |(1)|| N'int || ket || aet || war-raok. 
2 |-
3 ||| [ [ ne ] ][ [1] ] [ [COP|sont] ] || [ [ ket | pas ] ] || [ [ mont | allé ] ] || [ [ war-raok | sur-avant ] ]
4 |-
5 |||colspan="15" | 'Ils n'ont pas progressé.' 
6 |- 
7 |||||||||colspan="15" | Dialecte (village), source référencée de la donnée
8 |}


Dans le code, les colonnes (||) de la première ligne fournissent un découpage grossier non-atomique de la donnée bretonne. Cette ligne comporte la ponctuation. Le découpage y est inégal, souvent prosodique car les éléments marqués d'une apostrophe ou d'un tiret n'y sont souvent pas séparés. Il découpe aussi parfois des blocs de constituants syntaxiques. La seconde ligne visible pour l'utilisateur est la ligne 3. C'est la ligne de gloses, qui fournit une tokenisation plus fine et la lemmatisation. Avec l'exemple de la négation et de sa copule, on voit que le découpage en double crochets dessine alors les sous-parties du découpage de la première ligne. Les tokens atomiques sont séparés, les clitiques y sont ainsi séparés de leur hôte.

équipe exploratoire

Au niveau de l'analyse syntaxique, Mélanie Jouitteau (CR1, IKER, CNRS) et Milan Rezac (CR1, IKER, CNRS) peuvent fournir des comptes-rendus de l'état des recherches syntaxiques sur le breton. L'équipe peut aussi s'appuyer sur l'expérience de Johannes Heinecke qui développe le corpus gallois (Heinecke & Tyers 2019) et travaille de longue date sur le breton (Heinecke 1997, 2001, 2002, 2003).


L'équipe de Sylvain Kahane (Modyco, CNRS, Paris) mène avec Christian Chanard à l'INALCO le projet Autogramm de développement de corpus UDs pour les langues peu dotées mène un projet de reconnaissance sur les données de la wikigrammaire. Le codage est prévu en format SUD avec un passage automatisé en UD. Un groupement d'intérêt exploratoire se forme autour d'eux avec Rayan Ziane, Salome Chandora, Katharine Jiang, Bruno Guillaume (LORIA, INRIA), Kim Gerdes (LISN!, CNRS) et Loic Grobol (Modyco, CNRS et Université Paris Nanterre).

Kim Gerdes, intrigué par les propriétés V2 du breton qu'il connaît de l'allemand, se propose d'extraire automatiquement l'ensemble des exemples du site.

Loïc Grobol s'intéresse au parsing sur corpus restreint, et particulièrement au breton. Il se propose de coordonner la construction d'un parseur pour le breton. Bruno Guillaume qui a développé Grew-match interviendra à différents moments pour les allers-retours de conversion UD => SUD => UD et pour la mise en ligne du treebank.


Extraire les données de la wikigrammaire ARBRES

Les données du breton glosées traduites dans la wikigrammaire sont extraites sous format Conll-U dans Grewmatch.


les abréviations dans les gloses de ARBRES

La wikigrammaire est destinée en premier lieu à un lectorat humain. Les acronymes y ont donc été restreints au minimum, mais ils ont été incompressibles à certains endroits.

Une page est dédiée à l'inventaire des abréviations en glose.


lemmas et tokens dans les gloses de ARBRES

Pour que les gloses soient cliquables pour les utilisateurs de la wikigrammaire, le script wiki a nécessité que chaque traduction mot-à-mot, la glose, soit associée à une adresse d'article dans la grammaire. Dans la syntaxe wiki, ce script est ordonné comme suit: [ [ adresse du lien | glose ] ]. C'est ainsi que grâce à un script [ [ mont | allé ] ], l'utilisatrice qui clique sur la glose allé, visible pour elle juste sous le mot breton aet, ouvre la page du site dédiée au verbe mont 'aller'. Ce script, pour un format UD, fournit le lemma. Ce lemma est associé à la traduction française du token aligné en colonne avec lui. Dans le cas de la préposition composée war-raok /sur-avant/ 'en avant', un seul lemma lui est associé.


0 {| class="prettytable"
1 |(1)|| mot 1' mot 2 || mot 3 || mot 4 || mot 5-mot 6. 
2 |-
3 ||| [ [ lemma breton 1 | français pour lemma 1 ] ] [ [ mutation déclenchée ] ] [ [ lemma 2 | français pour lemma 2 ] ] || [ [ lemma 3 | français pour lemma 3 ] ] || [ [ lemma 4 | français pour lemma 4 ] ] || [ [ lemma 5 | français pour lemma 5 ] ]
4 |-
5 |||colspan="15" | 'Traduction de la phrase en français.' 
6 |- 
7 |||||||||colspan="15" | Dialecte, source référencée de la donnée
8 |}


Le lemma breton est donné sous sa forme non-dérivée, ce qui signifie dans cette langue celtique que le lemma est donné au singulier pour un nom comptable mais au pluriel pour un nom collectif. Pour la flexion verbale, le lemma donné est, par convention, la forme infinitive dans la wikigrammaire comme dans UD. Il y a une petite divergence avec le format UD pour les formes qui ont des racines supplétives au comparatif de supériorité comme gwell ou gwelloc'h 'mieux', ou gwazh ou gwashoc'h 'pire'. UD recommande de leur assigner le lemma non-comparatif ce qui donnerait gwelloc'h 'mieux' > [ [ mat | bien ] ].[ [ -oc'h | plus] ] et gwasoc'h 'pire' > [ [ fall | mal ] ].[ [ -oc'h | plus] ], alors que la wikigrammaire a prévu de dédier un article à chaque racine irrégulière, ce qui est géré pour l'instant par des redirections ([ [ -oc'h | mieux ] ]). Ce pourrait être régularisé assez facilement.


Les traits de tous les types de pronoms sont récupérables en glose. Le pronom fort indépendant (pfi) 1SG me 'moi' est noté en glose [ [ pfi | moi ] ], Le pronom fort indépendant 2SG te 'toi' est noté en glose [ [ pfi | toi ] ], etc. De même, le déterminant possessif (POSS) ma 'mon, ma', qui déclenche une mutation mixte (codée 2 en superscript), est glosé [ [ POSS | mon ] ] < sup >[ [ 2 ] ]< /sup > dans la plupart de ses occurrences. Cependant, comme le site documente la variation dialectale, les occurrences du cornouaillais de Locronan documentées dans la grammaire, où ce possessif déclenche une lénition (codée 1 en superscript), sont glosées [ [ POSS | mon ] ] < sup >[ [ 1 ] ]< /sup >.

On a vu que la ligne de gloses comprend, balisées en superscript ( < (/) sup > ) les mutations morphosyntaxiques associées à chaque élément qui les déclenche. on marque par le chiffre 1 pour la lénition, 2 pour la spirantisation, 3 pour la mutation durcissante, 4 pour la léniprovection et 5 pour la mutation réduite. Les consonnes épenthétiques du breton sont marquées +C en superscript dans la glose. Il arrive que le découpage morphologique d'un mot breton nécessite de mentionner une consonne épenthétique dans la glose en français. Elle est alors écrite, et non-cliquable puisque ne correspondant à rien en breton (kozhni 'vieillesse' est glosé [ [ kozh | vieil ] ].l.[ [ -ni, -oni | esse ] ]).


découpages morphologiques

La dérivation morphologique est inégalement prise en charge dans les gloses de la wikigrammaire. En ligne de glose, le découpage en tokens descend au niveau morphologique dans la mesure où le permettait son lectorat prioritairement humain, qui a témoigné régulièrement d'une difficulté d'accès à des formes trop décomposées, ou à des abréviations linguistiques pourtant communes de types 3SG, 3PL. Ces traits bruts sont évités lorsqu'une traduction aisée en français s'offrait, comme dans le cas des pronoms incorporés.


Les mots fusionnés sont un ensemble de plusieurs mots syntaxiques qui apparaissent en breton comme un mot opaque. Ils sont traités en ligne de glose comme des tokens distincts reliés par un point. Ainsi, la préposition e devant un article défini en 'dans le' est notée en en ligne 1 est glosée : [ [ P.e | dans ] ].[ [ art | le ] ]. La plupart des prépositions peuvent recevoir un pronom objet incorporé - on les appelle prépositions fléchies. La préposition fléchie ennon 'en moi' est glosée [ [ P.e | dans ] ].[ [ pronom incorporé | moi ] ]. La préposition ganin 'avec moi' est glosée [ [ gant | avec ] ].[ [ pronom incorporé | moi ] ], ce qui permet de récupérer deux formes différentes de pronom incorporé 1SG: -in et -on, et d'associer chacune avec la préposition qui la déclenche. A noter toutefois que la traduction choisie est, en français, un pronom fort (moi vs. me), mais le pronom breton incorporé est un pronom faible (mais m'avec, t'avec, l'avec, n'avec, v'avec, z'avec, plus en parallèle à la structure bretonne, auraient probablement déconcerté les francophones).


Lorsqu'un seul affixe est repérable, le découpage donne directement le préfixe ou suffixe en question dans la glose, mais lorsque plusieurs affixes forment une finale complexe, le lemma donné est directement cette finale complexe. Le nom distresadur 'transformation' est glosé [ [ di-, dis- | trans ] ].[ [ tres | form ] ].[ [ -adur | ation ] ]. Dans la page de la finale complexe -adur, la finale est décomposée dans ses différents suffixes. Le système de catégorisation de pages permet de générer automatiquement la liste des finales complexes et la liste des suffixes répertoriés dans le site.


La dérivation flexionnelle est prise en charge pour les pluriels des noms. Pour les pluriels simples, le morphème pluriel final apparaît séparé d'un point. Ainsi, le nom pluriel krouadurioù 'enfants' est glosé [ [ krouadur | enfant ] ].[ [ -ioù (PL.)| s ] ]. En breton, les pluriels dits "pluriels internes" ont la propriété de modifier leur racine. Le nom pluriel bugale 'enfants' est glosé [ [ bugel | enfant ] ].[ [ pluriel interne | s ] ], avec le lemma qui est la forme de surface au singulier, et le pluriel qui renvoie l'utilisateur à la page sur les pluriels internes.

Les morphèmes porte-manteaux de la flexion verbale, les traits de conjugaison, ne sont pas donnés en glose, mais ces traits de flexion verbale sont calculables par la traduction française associée, qui, elle, est donnée fléchie dans les gloses. Les traits UD (UD features) sont donc récupérables dans la mesure où la morphologie verbale française est assez riche. La matrice de traits "Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin" du verbe breton int 'sont' peut être récupérée par la glose en français sont. Cette carence dans la glose de ARBRES pour la flexion verbale pourrait en principe aussi être supplée par les données de DVB, displeger verboù brezhonek 'conjugateur de verbes bretons' développé par par des membres de l'association An Drouizig 'Le petit Druide', des membres du commité Poellgor Bed Niverel 'Commité Monde Numérique', ainsi que des membres du projet.


Un cas difficile et intéressant est posé par la tempête de variation morphologique (et syntaxique) dans le verbe et auxiliaire 'avoir'. En (2), ce verbe précédé de la négation ne sous sa forme proclitique est orthographié de manière discontinue, o dez. Il comporte les traits du sujet interprété sur sa gauche avec un pronom 3PL o sous une forme qui semble oblique, puis d'une initiale /d-/ typique des personnes 3 (au singulier comme au pluriel; en de(v)ez 3SGM, he de(v)ez 3SGF, o de(v)ez 3PL). La racine marque la trace de la forme dite d'habitude, qui n'est pas interprétée ou produite dans toutes les variétés sur ce verbe. On pourrait, dans le même contexte syntaxique, trouver n'o deus ket en breton standard, la notion d'habitude étant convoyée par un présent à lecture générique. Ceci implique qu'un glosage précis nécessite d'être en mesure de vérifier pour chaque variété si le morphème comprend réellement ces traits, en syntaxe comme en sémantique. Enfin, la finale pourrait être, selon les analyses, une racine dénuée à sa droite de morphème d'accord, un accord 3SG réalisé avec un élément qui n'est pas le sujet, ou encore un morphème d'accord par défaut qui ne fait qu'emprunter la morphologie 3SG et qui apparaît lorsque le sujet est exprimé ailleurs (se reporter aux analyses formelles du système d'accord).


(2) Ha forzh boued n'o dez ket...
et beaucoup nourriture ne 3PL 3.a pas
'Et ils n'ont pas beaucoup de nourriture.'
Vannetais, Herrieu (1994:90)


Ce problème n'est pas facilement écartable car certains dialectes centraux ont, de toute façon, pour une sous-partie du paradigme, un morphème d'accord à droite du composé (memp 'nous avons'), dialectes dans lesquels peuvent exister en plus des règles d'accord différentes (ni meump /1PL 1.racine.1PL/ vs. ni neus /1PL 3.racine.3SG/ ou /1PL 3.racine.Ø/, 'nous avons'). Les gloses dans la wikigrammaire reflètent la diversité des données au plus près de ce qu'on en comprend scientifiquement, et cela peut être un frein à la conversion automatique. Les buts d'un traitement automatique peuvent nécessiter de faire abstraction de la variation et de se contenter de stocker les formes diverses en lien avec leur traduction française.


La morphologie flexionnelle n'impacte qu'exceptionnellement les adjectifs bretons par suffixation (mezvez 'saoule', glosé [ [ mezv | saoul ] ].[ [ -ez (F.)| e ] ]). cependant, la qualité, présence ou absence de mutation sur l'adjectif renseigne sur les traits du nom qu'il modifie. En ligne de glose, la traduction de l'adjectif en français révèle les traits obligatoirement interprétables : an hini vrav la belle' est glosé [ [ art | un ] ] [ [ hini | celui ] ] < sup >[ [ 1 ] ] < /sup > [ [ brav | belle ] ]. Cet exemple permet aussi de noter que les rares éléments qui n'ont pas d'équivalent en français comme le tête nominale sémantiquement générique hini sont traduits en glose par une approximation qui a été jugée commode par le lectorat humain.


pièges pour le traitement au kilomètre

irrégularités régulières

L'idée de récupération des gloses de la wikigrammaire pour générer des POS tags UD s'appuie sur le système de gloses cliquables. Pour chaque glose sous son mot breton, l'utilisateur peut cliquer et tomber sur la page traitant de ce mot. Cela implique que sur la page dédiée à ce mot, la glose de ce mot ne sera pas, elle, cliquable (cela renverrait à la même page, et le wiki le ferait apparaître en caractères gras, rendant la glose difficilement lisible). Elle n'aura pas d'adresse et apparaîtra nue. L'exemple ci-dessous est tiré de la page "chas" 'chiens'. Ce mot apparaît en gras (entre balises ' ' ') dans la ligne 1 de breton, et apparaît nu en gloses.


(1) Pet vloaz en deus ho chas ?
combien1 an 3SG a votre3 chiens
'Quel âge ont vos chiens ?'
Le Bozec (1933:76)


gloses qui ne renvoient pas directement au lemma

La glose d'un mot sur ARBRES est généralement sa forme de surface avec quelques simplifications, comme flexionnelles. Mais il existe des cas où l'adresse en glose ne correspond pas à cette forme de surface, même simplifiée.


L'adresse de la glose peut renvoyer à une classe :

  • les noms propres comme 'Josette' sont glosés [ [ nom propre | Josette ] ].
  • les articles comme an, al, ou ar sont glosés [ [ art | le ] ] et un, ul, ou ur sont glosés [ [ art | un ] ]
  • les noms de jours comme dilun 'lundi (prochain)' sont glosés [ [ noms de jours | lundi ] ]
  • les pronoms forts indépendants comme me 'moi' sont glosés [ [ pfi | moi ] ] , avec une redirection automatique pfi => pronoms forts indépendants.
  • les démonstratifs ont été mis ensemble en adresse [ [ DEM ] ], pronoms comme démonstratifs analytiques
  • parfois, les noms nus, comme tra ebet 'rien du tout' avec [ [ noms nus | chose ] ] [ [ ebet | aucun ] ]. Cependant, la même donnée peut être glosée avec le lemma du nom nu, ici [ [ tra | chose ] ] [ [ ebet | aucun ] ]


L'adresse de la glose peut renvoyer à une opération morphologique :


Le verbe 'être' en breton a cinq formes morphologiques différentes. Le choix de l'une ou l'autre forme dépend de son placement dans la phrase (verbe initial ou V2), du placement de son sujet (avant ou après lui), des traits +/- définis de ce sujet, et enfin de traits purement sémantiques (forme de situation, d'habitude, existentielle, copule). Chacune des cinq formes a aussi une variation dialectale conséquente dans sa distribution selon les critères cités. Dans les gloses, ce verbe 'être' est le plus souvent donné à l'adresse de sa forme de surface référente débarrassée de ses traits de flexion, mais aussi, surtout pour les tournures existentielles et la copule, par des gloses sémantiques [ [ E | est ] ], [ [ E | y.a ] ] et [ [ COP | est ] ].

  • la phrase Bara 'zo / pain est/ peut être glosée morphologiquement ou sémantiquement :
[ [ bara | pain ] ] || [ [ zo | est ] ]
[ [ bara | pain ] ] || [ [ E | est ] ]
  • la phrase Brav eo ar bara / beau est le pain/ peut être glosée morphologiquement ou sémantiquement :
[ [ brav | beau ] ] || [ [ eo | est ] ] || [ [ art | le ] ] [ [ bara | pain ] ]
[ [ brav | beau ] ] || [ [ COP | est ] ] || [ [ art | le ] ] [ [ bara | pain ] ]

nettoyages

mises en forme

Lorsque l'explication grammaticale le nécessitait pour le lecteur, un constituant particulier dans la phrase a été signalé entre crochets comme ceci [ constituant ]. Le script est, sans espace, < font color = green >, avec balise de fin < / font color = green >.

Lorsque l'explication grammaticale le nécessitait pour le lecteur, un constituant a été souligné. Le balisage est < u > avec une balise de fin < / u >.

Une donnée agrammaticale est signalée par une étoile * , normalement avec un lien donc [ [ * ] ]. Ces phrases doivent être écartées du format Conll - ce ne sont pas des phrases correctes. Cependant, attention, en syntaxe wiki, une étoile en début de ligne est aussi le script pour une puce (bullet point). Dans la partie diachronique de chaque article peut aussi rencontrer des racines étymologiques avec une étoile à l'initiale, convention pour les racines étymologiques reconstruites non-attestées, mais cela ne se retrouvera pas dans les tableaux "prettytable".


espaces frontières de mots et morphèmes discontinus

Après un travail préparatoire, les espaces dans les gloses de la wikigrammaire sont maintenant assez consistants pour servir de repère automatique. Globalement, les espaces marquent une frontière de mot.

Tous les mots n'ont pas encore une colonne de tableau associée dans la wikigrammaire. Mais les mots sont détachés par des crochets:

[ [ x | y ] ] [ [ z | t ] ] sont deux mots
y [ [ z | t ] ] sont deux mots (il manque un lemma)
y t sont deux mots (il manque deux lemmas)


Reste l'irrégularité de la présence d'un espace à l'intérieur du verbe kaout 'avoir' conjugué (meus vs. em eus 'j'ai'). Cette irrégularité est fondée empiriquement par une différence de grammaticalisations à travers les dialectes. Le plus simple est de faire un comptage token vs. glose dans une colonne, et si il y a un lemma surnuméraire et le verbe kaout en lemma d'un des tokens, considérer qu'il s'agit d'un morphème discontinu.

Les autres morphèmes discontinus sont en em 'se', en ur 'en', le pronom impersonnel an den 'on', le pronom relatif ar pezh 'ce que'.

Certains verbes pronominaux, de sens nettement distincts de la variante du verbe seul, ont un lemma en propre, comme le verbe en em gavout 'se retrouver' noté distinctement du verbe kavout 'trouver'.

apostrophes et bordures de mots

Les apostrophes marquent globalement une bordure de mot, souvent quand l'un des deux a été tronqué (d'ar gêr 'à la maison'). Il existe cependant quelques irrégularités.

Une lettre de l'alphabet breton contient une apostrophe, il s'agit de c'h (prononcé /X/). Heureusement, l'alphabet ne contient jamais la lettre c dans la grande majorité des graphies. L'ensemble c'h peut être systématiquement considéré comme une seule et même lettre.

Une apostrophe apparaît aussi dans certaines graphies pour signaler une réduction morphologique (e'it pour evit 'pour').


lignes supplémentaires dans les tableaux de données

Certains exemples ont par rapport à l'exemple typique des lignes supplémentaires (contexte pragmatique associé, API ou diverses graphies de prononciation, donnée dialectale et son équivalent standardisé, précisions sur la source...). Un tableau maximal contiendrait les lignes suivantes:

 {
 CONTEXTE PRAGMATIQUE
 < font color = green > ... graphie de prononciation ou API </ font color = green >
 Phrase dans un dialecte breton donné
 Équivalent standardisé (signalé comme tel en italiques en bout de ligne) 
 | || gloses || gloses || 
 'Traduction globale en français.' (désambiguïsation anaphorique ou de contexte)
 Source première (locuteur ou ouvrage source)         
 Source secondaire (collecté par ... ou citant ... )
 }
 

Ces contextes pragmatiques associés, API ou diverses graphies de prononciation sont à nettoyer.

Les données dialectales associées à leur équivalent standardisé feraient de belles paires minimales dans le corpus UD. Il faut donc les garder.

La source des données doit impérativement être préservée.


apostrophes

En syntaxe wiki, ' ' (sans espaces) est une balise de mise en italiques, et ' ' ' (sans espaces) est une balise de mise en caractères gras. Ils n'ont pas de balise de fin spécifique comme en html.

  • Ont été mis en italiques systématiquement les typifications du dialecte de la donnée avec une majuscule (Cornouaillais, Cornouaillais de l'Est, Léonard, Vannetais, Breton central, KLT, Breton pré-moderne, Moyen breton, Vieux breton, etc.).
  • Ont été mis en caractères gras systématiquement les occurrences du mot qui constitue le titre de la page (dans la page sur le nom ki 'chien', toutes les occurrences du nom ki sont en gras dans la ligne de breton, et ne comportent pas de lien dans les gloses. Les tableaux ont été utilisés plusieurs fois dans la grammaire, et il y a donc toutes les chances que ce même tableau existe ailleurs dans la grammaire, avec un autre élément en caractère gras.

Une apostrophe seule est soit :

  • au milieu de la lettre c'h /X/)
  • un élément marqué en graphie car il est présent syntaxiquement mais non prononcé, typiquement une particule
  • une apostrophe dans une donnée entre un clitique et son hôte
  • 'Le bord gauche ou droit d'une traduction.'


chiffres dans les gloses

Des chiffres apparaissent dans les gloses et font partie de systèmes différents :

  • les mutations sont mentionnées par des chiffres 1, 2, 3, 4 et 5 en superscript collé à l'élément déclencheur de la mutation. chaque chiffre renvoie à une série particulière de mutations.
  • les traits de personne dans les paradigmes peuvent apparaître sous les formes 1, 2 et 3. Il n'y a pas de chiffre dédié à la flexion de l'impersonnel, noté [ [ IMP ] ], et traduit on. J'ai évité au maximum la mention de ces traits en gloses, mais à certains endroits comme le verbe 'avoir', ils sont restés indispensables. Pour les dialectes qui ont perdu la distinction tu/vous dans les formes d'adresse, la personne 2 est aussi la seule information que l'on peut mettre.
  • le chiffre 2 apparait est la traduction du morphème du duel dans les gloses. Le nom daoulagad 'yeux (par deux)' est glosé [ [ duel | 2 ] ].[ [ lagad ] ].


notations supplémentaires et usage des couleurs

Un tour de parole entre interlocuteurs est signalé, pour un locuteur A, avec : < font color = orange > A < / font color=orange >. Pour des exemples, se reporter à la page Réponses aux questions.

Les ellipses sont signalées par le script < font color = violet > _[ø]_ < / font color=violet >, et apparaissent en violet.

élimination de tableaux

Les tableaux "prettytable" ont aussi été utilisés pour une poignée de tableaux de paradigmes. Il y en a peu, et ils sont voués à terme à la réécriture.

Certains tableaux sont des données comparatives d'autres langues, en basque, tchèque, ou autres. Les données de Breton pré-moderne, Moyen breton ou Vieux breton ne sont pas à transférer en UD non plus.

Ressources dans ARBRES hors gloses pour le codage UD

En dehors du système d'annotation des données, le site a nécessité pour son développement interne des outils et listes qui pourraient directement alimenter les entraineurs d'algorithme, comme :

  • la liste des redirections de pages gère les différences d'orthographe ou de dialecte. Par exemple le verbe 'être' a un infinitif standard bezañ et une variante dialectale bout. Ces deux liens mènent vers la même page, et il est possible de générer la liste exhaustive de toutes les redirections sur le site. L'exploitation de cette dernière liste nécessiterait cependant de mettre de côté les redirections concernant les ouvrages de recherche et les abréviations.


POS tags UD récupérables

Le format UD comporte en tout 17 étiquettes de parties du discours (POS tags). Le code de la wikigrammaire ne fournit qu'exceptionnellement la catégorie grammaticale des éléments directement en glose. Les 5 formes du verbe 'être' et la variation dialectale de leur distribution ont nécessité dans la grammaire un glosage hybride, parfois morphologique (eo, a zo, emañ, ez eus, vez), parfois syntaxique (COP renvoie à l'article sur l'emploi syntaxique de la copule) ou même sémantique (le signe E en adresse renvoie à l'article sur la copule existentielle). La catégorie des éléments est cependant toujours récupérable automatiquement par les catégorisations de pages (eo => auxiliaire, car l'article de la wikigrammaire intitulé eo est catégorisé dans le site comme une page concernant un auxiliaire. Tous les éléments sont ainsi catégorisés via la page qui leur est dédiée, par exemple les adjectifs, mais aussi avec une granularité plus fine dans la mesure où ils ont un comportement grammaticalement distinguable, les adjectifs de couleur (voir la liste des catégories). Ci-dessous, j'inventorie les catégories UD et je détaille les équivalences sur la wikigrammaire, en ajoutant une estimation des nombre de membres de chaque catégorie fin 2021. Ces chiffres vont progresser à l'avenir, surtout pour les catégories lexicales, au fur et à mesure que des exemples nouveaux alimenteront la grammaire.

  • CCONJ = conjonctions de coordination. Ils sont listés dans la wikigrammaire dans la liste des conjonctions (12 membres)
  • DET = déterminants. Les déterminants sont encore à catégoriser dans le corps de la wikigrammaire, qui comprend cependant la liste des quantifieurs (56 membres). Il faut rajouter les deux articles, défini an, al, ar et indéfini un, ul ur, les déterminants possessifs et les complémenteurs peseurt, petore 'lequel'. Attention, les pages thématiques de la grammaire ont été catégorisées sous le titre "articles", en opposition aux "fiches" de linguistique formelle.
  • NOUN = nom. Ils sont listés dans la wikigrammaire dans la liste des noms (799 membres)
  • SCONJ = conjonction de subordination. Dans la wikigrammaire, ils sont compris dans les complémenteurs.
  • PART = particule. La particule préverbale (rannig) est signalée en glose par la lettre R, suivie lorsque le dialecte le permet de la mutation associée à cette particule. Attention, UD classe les particules Q des questions polaires, de 'est-ce que', dans les particules, qui sont dans la wikigrammaire des complémenteurs.
  • INTJ = interjection. Certaines sont signalées directement en gloses, d'autres ont chacun une page dédiée qui est catégorisée comme interjection (liste des interjections).
  • PROPN = nom propre. Quelques noms propres sont mentionnés comme tels en glose, mais cette pratique est récente sur le site. Il est plus sur de passer par les recensements déjà établis par d'autres programmes (Tyers 2008 les avait extraits de Wikipedia), ou de s'appuyer sur la majuscule en graphie pour les récupérer.
  • PUNCT = ponctuation. Cette information est présente en graphie en ligne 1, et devrait avoir un parallèle dans la traduction française.
  • SYM = symbole. Il s'agit de symboles écrits ne sont pas codés à ce jour dans la wikigrammaire.
  • X = autre. cette notation n'a pas été nécessaire.


problème des formes de surface homophones

UD requiert que les lemmas soient fournis sous la forme de surface canonique, ce qui pose le problème des formes ambigües, concrètement en breton les verbes infinitifs et les noms déverbaux, ainsi que les noms différenciés par leur genre en situation (pal, ar pal 'le but', pal, ar bal 'la pelle' ou taol, an taol 'le coup', taol, an daol 'la table'). Dans le dictionnaire en ligne Menard & Bihan (2016-), ces ambiguïtés sont résolues par un système de spécifieurs numériques assez régulier (pal.1, pal.2) mais le format UD recommande de privilégier les formes de surface comme lemmas. UD propose de classer ces homonymes dans la colonne MISC dans l'attribut optionnel LId (LId=can-1).

Le désambiguïsateur morphologique de Tyers & Howell (2021) semble pouvoir se charger des homophones. Ce dernier pourrait peut-être être solidifié par la liste des pages de désambiguïsation qui liste dans la wikigrammaire les suffixes pouvant être ambigus.


Le format Conll recevant les données de ARBRES

métadonnées

À chaque donnée est associé un identifiant chiffré, sent_id.

La source de chaque donnée est mentionnée dans les tableaux de ARBRES en dernière ligne, en italiques comme suit: ' ' Dialecte (location) ' ', [ [ Titre_de_page_de_la_référence | Auteur (date ] ]:page) qui est visualisable comme par exemple Léon (Plougerneau), Elégoët (1982:55). Ces informations apparaissent dans le Conll comme métadonnée dans les premières lignes avec sent_id, le numéro assigné à la donnée.

Ces informations sont enrichissables en ajoutant les informations contenues dans les catégorisations des pages de référence bibliographique. Par exemple la page de la référence bibliographique Elégoët (1982) appartient à deux catégories, Références de corpus et Léonard, ce qui confirme le dialecte.

 On obtient : 

 dialect = Léonard
 location = Plougerneau
 source = Elégoët (1982)
 texttype = corpus (/élicitation / ouvrage de recherche / ouvrage pédagogique...)


La liste des catégories pertinentes comprend :

  • Références de corpus, Ouvrages de recherche, Ouvrages pédagogiques, Grammaires, Dictionnaires, élicitations
  • Léonard, Cornouaillais, Vannetais, Breton central, Trégorrois

Guide d'annotations

Les recommandations de codage pour un UD breton doivent concorder au maximum avec les choix faits pour le premier treebank Breton KEB. Les questions de modification des choix initialement opérés pour KEB doivent être discutés sur le forum github associé à KEB.

Questions spécifiques de codage UD à mâturer

Négation

La négation préverbale ne est traitée dans KEB comme un modifieur adverbial. Les analyses générativistes en font au contraire un complémenteur sur lequel le rannig est clitique (en standard on n'a que la forme ne mais il existe des formes na si précédé d'un nom. La négation post-verbale ket est bien un adbverbe modifieur.

Infinitifs, verbes ou noms ?

Le treebank Breton KEB s'est distingué des autres langues celtiques par rapport à l'annotation des infinitifs (en breton: VERB) et les verbnouns (en gallois, irlandais, Scottoish Gaelic et Manx: NOUN).


Breton, avec paouez 'arrêter, cesser' comme racine et emaon 'suis' comme auxiliaire (litt. /je suis à cesser finir mon livre / 'Je viens de finir mon livre'):

 1 Emaon bezañ AUX vbloc Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin 3 aux _ _
 2 o o AUX vpart _ 3 aux _ _
 3 paouez paouez VERB vblex VerbForm=Inf 0 root _ _
 4 echuiñ echuiñ VERB vblex VerbForm=Inf 3 xcomp _ _
 5 ma ma DET det Poss=Yes 6 det _ _
 6 levr levr NOUN n Gender=Masc|Number=Sing 4 obj _ SpaceAfter=No
 7 . . PUNCT sent _ 3 punct _ _


En gallois, le Verbnoun dod dépend du verb 'être' (bydd) :


 # text = Bydd o'n dod.
 # text[eng] = He will come.
 1 Bydd bod VERB verb Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin 0 root _ _
 2 o ef PRON indep Gender=Masc|Number=Sing|Person=3|PronType=Prs 1 nsubj _ SpaceAfter=No
 3 'n yn AUX impf _ 4 aux _ _
 4 dod dod NOUN verbnoun Number=Sing|VerbForm=Vnoun 1 xcomp _ SpaceAfter=No


C'est une question très délicate, et il est certain que lorsqu'une notation a été choisie pour un groupe de langues, essayer d'y coller au plus près est la marche à suivre. Le treebank Breton KEB a fait un choix de rupture avec les autres langues celtiques, et aussi avec la terminologie brittophone d'analyse (anv-verb 'nom verbal, infinitif'). Linguistiquement, cependant, cette rupture est justifiée car on assiste en breton depuis le XVII° à l'émergence d'un système accusatif, même si cela se passe inégalement selon les dialectes. Si c'est net en vannetais, les arguments sont beaucoup plus compliqués en KLT mais globalement, le système d'assignation du génitif à l'objet d'un verbe infinitif s'est effondré partout. Même le standard est touché dans son usage (restreint) des proclitiques, car il suit l'usage léonard et ce qui a été anciennement un pronom oblique génitif s'y retrouve aussi sur les verbes tensés (voir la section 'La question des propriétés nominales des infinitifs' sur la page des verbes infinitifs, et surtout la page des pronoms proclitiques objets). Milan Rezac prévoit un article spécifique sur ce sujet (> été 2022), et les articles de ARBRES qui restent flous sur l'émergence de cet accusatif vont être réécrits.


réfléchi en em

En format UD, les réfléchis et réciproques (En em c'houlenn a ran ou En em gannet out c'hoazh ?) sont étiquetés PRON ("expl" comme pour "se" dans des treebanks français ou italiens). Dans le treebank Breton KEB (v2.9), en em unité fixe avec le em dépendant du en (relation "fixed"), ce qui est justifié car le bloc en em n'est jamais séparé et est invariable en breton moderne. Beaucoup de dialectes disent d'ailleurs num, nõm. Dans le treebank Breton KEB, le AUX comme UPOS (et le "aux" comme deprel) sont étranges.


 # text[fra] = Je me lave.
 # labels = to_check
 1 Me prpers PRON prn Case=Nom|Number=Sing|Person=1|PronType=Prs 4 nsubj _ _
 2 en en AUX vpart Reflex=Yes 4 aux _ _
 3 em em X x _ 2 fixed _ _
 4 walc'h gwalc'hañ VERB vblex Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ SpaceAfter=No
 5 . . PUNCT sent _ 4 punct _ _


Johannes et Mélanie suggèrent un PRON et un "(i)obj" comme deprel. Le se roman a des usages de middle comme La tour Eiffel se voit de loin qu'on ne retrouvera en breton que dans des préfixes comme he- (hewalc'h 'lavable, qui se lave') ou em- (emwalc'h 'qui se lave, auto-nettoyant').


prépositions à objet incorporé

Dans le codage UD, une préposition est dépendante de son objet, ce qui la rapproche d'un marquage casuel. Dans le cas des prépositions celtiques où l'objet est incorporé dans la préposition et crée un paradigme, cela implique qu'un pronom incorpore dans son dépendant.


mutations

Il faudra discuter de l'encodage des mutations, en voyant le treebank Breton KEB et les autres UD celtiques.


du minimalisme à SUD

Contrairement à UD, SUD reconnaît les têtes fonctionnelles comme régissant le syntagme qu'elles dominent. Cependant, dans le groupe nominal, c'est le nom qui est désigné comme la tête.

Les arguments des noms sont considérés comme des modifieurs (a date with his girlfriend a with modifiant date).

Les quantifieurs apparaissent selon leur catégorie in full military regalia a full comme un adjectif.

Terminologie

forum sur l'annotation SUD: issues


Bibliographie

sur le format UD ou SUD

  • De Marneffe, Marie-Catherine , Christopher D. Manning, Joakim Nivre, Daniel Zeman. 2021. 'Universal Dependencies', Computational Linguistics 47:2, 255–308. texte.
  • Osborne, Timothy & Kim Gerdes. 2019. 'The status of function words in dependency grammar: A critique of Universal Dependencies (UD)', Glossa: a journal of general linguistics 4:1, p.17. doi: https://doi.org/10.5334/gjgl.537.
  • Gerdes, Kim, Bruno Guillaume, Sylvain Kahane & Guy Perrier. 2019. 'Pourquoi se tourner vers le SUD : L’importance de choisir un schéma d'annotationen dépendance surface-syntaxique', Actes des Journées scientifiques « Linguistique informatique, formelle et de terrain », Orléans, France. texte.

Penn annotations

  • Marcus, Mitchell, Beatrice Santorini, & Mary Ann Marcinkiewicz. 1993. 'Building a large annotated corpus of English: The Penn Treebank', Computational linguistics 19, 313-330. Reprinted in Susan Armstrong (éd.), 1994, Using large corpora, Cambridge, MA: MIT Press. 273-290.