Comment utiliser ce site

De Arbres
English version

Cette page doit permettre de vous orienter sur le site, de vous donner une vue globale de son extension, et de vous expliquer comment ne pas rater des fonctionnalités intéressantes.


 ARBRES est un site interactif qui offre différents types de ressources pour l'étude de la syntaxe des dialectes du breton. 
 
 Ses buts sont de fournir:
 > un état des lieux permanent et à jour des différentes recherches en syntaxe formelle 
 > une description fine et théoriquement informée de la microvariation syntaxique 
 > une ressource pédagogique pour les travailleurs/euses de la langue
 > un outil de recherche actif au niveau international
 > une expérience sociale collaborative organisée autour d'une langue en danger 
 
 Pour atteindre ces buts, ARBRES fournit:
 > une grammaire du breton et de ses variations microdialectales, avec une description fine des faits dialectaux et idiolectaux
 > une grammaire formelle qui organise une description de leur impact théorique pour notre connaissance de la grammaire du langage humain (plus de 2000 articles en décembre 2021). 
 > l'ensemble constitue une base de données de plus de 15.000 phrases originales, glosées et traduites 
 > un glossaire (en anglais, breton et français) de plus de 250 termes de grammaire formelle, liés chacun à des définitions illustrées par des faits du breton. 
 > une centrale d'élicitations par laquelle la communauté internationale de recherche en syntaxe peut co-construire des protocoles avec un.e expert.e du breton, qui opère l'élicitation sur le terrain et poste les résultats en ligne.
 > différents projet de crowd-sourcing agrégatifs pour l'étude de la langue bretonne.
 
 
 ARBRES utilise la technologie wiki et est un site ouvert à l'écriture/relecture collective. 
 

Lire la grammaire du breton en ligne

Ce site comprend une grammaire complète, descriptive et formelle, de la langue bretonne envisagée dans toutes ses variétés dialectales.

Comme pour une grammaire en format papier, vous pouvez l'utiliser en lisant la table des matières, ou en cliquant directement sur une des cinq grandes parties:

 1. Morphologie 
 2. Constituants
 3. Syntaxe de la phrase
 4. Structure informationnelle
 5. Discours

Durant toute votre navigation, ces cinq grandes parties restent cliquables dans la colonne de gauche de votre écran, dans le menu déroulant du cartouche Grammaire du breton.

Comme une grammaire en format papier, vous pouvez aussi la feuilleter au hasard, en cliquant sur article au hasard.

Comme il s'agit d'une grammaire numérique, vous pouvez aussi faire une recherche par mot-clef dans la boîte de recherche située en haut à droite de votre écran.

Vous trouverez un glossaire des termes techniques utilisés, en français et en anglais. Chaque mot y renvoie à un article explicatif des notions utilisées, illustrées avec des données en langue bretonne, glosées et traduites.

Une fois sur l'article que vous voulez consulter, vous trouverez en haut de page une description rapide, avec des exemples, suivi d'un sommaire de la page. Une page type est construite comme suit:

 1. Morphologie
 1.1. accentuation
 1.2. mutations consonantiques
 1.3. genre, nombre, personne 
 2. Syntaxe
 2.1. propriétés
 2.2. distribution
 2.3. éléments associés
 3. Sémantique 
 4. Diachronie 
 5. Horizons comparatifs
 6. Terminologie
 7. Bibliographie


exemples

Chaque exemple est numéroté, et commence par la phrase en breton. La phrase est ensuite traduite en dessous mot-à-mots: ces gloses sont cliquables et amènent chacune à un article concernant l'élément cliqué. Ces liens sont créés à la main et il y a de bonnes chances que vous trouviez rapidement réponse à votre question. Les gloses comprennent des notations concernant la structure syntaxique. En (1), les crochets désignent le découpage en constituants. le superscript "1" note la présence d'une mutation consonantique, la lénition. Les gloses peuvent découper un mot en différents morphèmes.


(1) Sevel a reas ar paotr e zaoulagad …
lever R fit le garçon [VP _ son1 deux.œil ]
'Le garçon leva les yeux.'
Standard, Drezen (1990:23)


L'exemple finit par une traduction globale de la phrase en français. Parfois, lorsque c'est pertinent, on trouvera aussi une traduction en français dialectal de Basse-Bretagne, avant la traduction en français standard.


(2) Me am-eus c'hoant da lavared penaoz ema ar wirionez gant ar skolaer !
moi R.1SG a envie de1 dire que est le 1vérité avec le école.eur
'Moi, j'ai envie de dire que la vérité est avec l'instituteur. Français du Trégor, Gros (1984:176)
'Moi, je prétends que l'instituteur a raison.' Français standard
Breton trégorrois, Gros (1984:176)


Lorsque ces données sont disponibles, on trouvera aussi une transcription en alphabet phonétique international, signalée en vert pour plus de lisibilité. Les différentes écritures dialectales, lorsqu'elles seraient trop difficiles à lire par un non-spécialiste, sont aussi écrites en vert, avec une graphie plus standardisée dessous.


(3) [ wa kOmâsǝd ǝ rEzistâs nEm fòrmo ]
Oa komañset ar Rezistañs en em furmiñ.
était commenc.é le "résistance" se former
'La résistance avait commencé à se former.'
Cornouaillais de l'Est (Lanvenegen), Evenou (1987:627)


L'exemple finit avec une typification de la variété dialectale utilisée (en italiques), et une référence précise à la page près de la source de la donnée. La référence de l'ouvrage source est cliquable, et vous amène à une fiche de référence de cet ouvrage, ici, la thèse de Evenou (1987).

les sources

Ce site est un carnet de recherche scientifique. Les sources premières comme les sources secondaires doivent y être sourcées au plus près.

Les sources premières acceptées sont:

les jugements de grammaticalité de locuteurs natifs dans leur propre variété (voir la centrale d'élicitations)
les corpus écrits ou oraux produits par des locuteurs natifs (en se méfiant des modifications d'éditions)

Les sources secondaires acceptées sont :

les ouvrages de recherche produits sur la syntaxe du breton
les avis d'experts, avec leur nom associé, dans la mesure où ils peuvent typifier leur source comme native de la variété concernée


références d'ouvrages

Chaque exemple est dûment référencé à la page près. Les sources sont des liens actifs vers une page de référence dédiée. ARBRES contient:

plus de 288 références de corpus de breton parlé et écrit
plus de 529 références d'ouvrages de recherche sur la langue.

A chaque référence de corpus ou d'ouvrage de recherche cité dans les articles est associée une page indépendante avec:

  • sa référence bibliographique précise et complète
  • un lien actif vers l'adresse URL de l'ouvrage si disponible
  • des informations sur l'histoire éditoriale de l'ouvrage
  • le résumé de l'ouvrage si disponible
  • des références de lectures critiques de l'ouvrage parues dans des revues
  • une typification dialectale rapide de l'auteur
  • des listes d'erratum, notes prises au fil de la lecture
  • la liste cliquable des extraits tirés de cet ouvrage si ce site en contient


Une fonctionnalité intéressante vous permet de voir précisément comment un ouvrage est cité sur ce site. Ouvrez la page d'une référence donnée, puis cliquez à gauche de votre écran, dans le cartouche Outils sur pages liées. Vous obtiendrez la liste des pages du site contenant un lien vers cette référence.


approfondir un sujet

Après avoir lu un article, si vous voulez approfondir un sujet, il existe plusieurs options.

  • chercher dans l'article les liens cliquables vers des articles associés.
  • chercher des références d'ouvrages de description ou de recherche:
Si un article, une thèse ou un livre a été écrit sur le sujet, il devrait apparaître référencé dans la bibliographie en bas de page. Si ce travail de référencement n'a pas (encore) été fait, vous trouverez toutes les références dans la page de bibliographie générale du centre de ressources, qui se veut exhaustive.
  • chercher les pages du site de même type
Chaque article est associée à des catégories grammaticales. Par exemple, l'article sur kalz 'beaucoup', est associé aux catégories déterminant, adverbe, quantifieur et indéfini. On peut trouver ces catégories en toute fin d'article, en lien en bas de la page.
Cliquer sur une catégorie vous fournit automatiquement la liste de toutes les pages du site de cette même catégorie.
  • laisser des commentaires ou des questions sur la page de discussion associée à chaque article:
Je réponds aux commentaires et questions. Je corrige le site ou fournis des explications selon les besoins exprimés. La trace de ces échanges nourrit aussi le site par ses discussions.

citer la wikigrammaire ARBRES

Pour citer une page de ce site, je recommande le format suivant:

  • Jouitteau, Mélanie. 2009-2023. 'Titre de l'article', ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle, IKER, CNRS, URL de l'article. [date d'accès].


Pour citer la grammaire ARBRES en son ensemble:

Utiliser le centre de ressources

Le centre de ressources a pour vocation de regrouper tout le matériel nécessaire à une recherche. Il est toujours accessible dans la colonne de gauche de votre écran.

On y trouve des outils classiques. On y trouve aussi des outils moins classiques, rendus possible par le choix du numérique ou celui de la science ouverte.


outils classiques

Cette bibliographie, de volonté exhaustive et tenue à jour, donne les références bibliographiques complètes de la production scientifique et descriptive sur la morphosyntaxe du breton. On peut accéder directement au document si celui-ci est disponible en ligne. On voit facilement quel ouvrage est utilisé sur ce site (ce sont des liens actifs vers leurs fiches de références).
Les revues spécialisées comme Hor Yezh ou La Bretagne Linguistique ont une page dédiée où toutes leurs parutions sont recensées.
  • un glossaire de plus de 250 termes techniques utilisés en grammaire formelle, et sa version en anglais
Pour connaitre l'équivalent français d'un terme en anglais, il suffit de cliquer sur ce terme en anglais. Le titre de page qui apparaît donne la traduction. A l'inverse, pour connaître l'équivalent anglais ou breton d'un terme en français, on peut se reporter à la partie terminologie des articles.
  • une liste des abréviations techniques utilisées, ainsi que les acronymes des corpus anciens et des gloses


quoi de neuf?

Ce site est évolutif, et permet de se tenir au courant de l'actualité de la syntaxe du breton, que ce soit de façon interne ou externe au site.

J'y recense les appels à conférence, les ouvrages importants publiés dernièrement, l'actualité de la langue bretonne et aussi les derniers travaux effectués sur le site ARBRES.
  • Il est aussi possible de suivre l'historique d'une page en particulier, ou de suivre les dernières modifications opérées sur ce site en cliquant sur "modifications récentes".
  • une page de liens utiles vers d'autres sites:
En anglais, breton, français, différents liens permettent d'explorer l'étude du breton ou des langues minoritaires. Y sont aussi répertoriées les ressources électroniques en ou sur le breton.


Ce site est participatif: vous pouvez poster vous-même des informations en page d'actualités, ajouter les nouvelles références en bibliographie, ou enrichir les pages de liens.

trouver des phénomènes d'un dialecte en particulier

Les outils du centre de ressources sont pensés pour faciliter différentes tâches de recherche linguistique.

  • trouver les corpus et les références adéquates
Les ouvrages de la bibliographie générale ont été localisés dialectalement sur une carte de type googlemap. Ceci permet de visualiser la répartition géographique des ouvrages d'étude des différentes variétés du breton.
Une grammaire propose une règle spéciale pour un dialecte et vous voulez la vérifier ? La carte vous fournit visuellement les références des corpus les plus proches du dit dialecte.
Cette liste permet de savoir quel auteur, et donc quel corpus peut être utilisé pour étudier une variété de langue en particulier.
  • consulter dans le centre de ressources la liste de différents corpus utilisables.
Cela servira à choisir en particulier le type de corpus que vous recherchez (audio transcrit, écrit, glosé, transcrit en API, etc.)

utilisation pour apprendre le breton

Le système des gloses cliquables fait de ARBRES un outil puissant pour l'apprentissage de la langue. Il est possible de surfer d'une page à l'autre en lisant les phrases bretonnes et en cliquant sur la glose d'un élément de phrase dont on veut approfondir l'étude.


utilisation pour enseigner le breton

Il y a de multiples façons d'utiliser le site pour construire du matériel pédagogique. En voici quelques unes:

  • Il existe une page dédiée aux désambiguïsations. Elle regroupe une quarantaine de morphèmes ambigus, qui peuvent avoir plusieurs sens. Cette page fait un très bon matériel de quizz.
  • des liens vers des cartes spécifiques de l'ALBB sont intégrées dans les articles. Cela rend leur utilisation possible à partir d'entrées bretonnes et permet de construire une présentation sur un sujet donné avec une cartographie.
  • Enfin, pour discuter avec un groupe de la science ouverte, et de l'utilité scientifique et sociale des données du breton autour de nous, pourquoi ne pas monter un projet de collaboration à ce site ?

Science ouverte

Ce site ARBRES est une expérience de science ouverte et participative, c'est un site de recherche "à carnet ouvert". J'explique sa philosophie en détail dans Jouitteau (2013b).

accès ouvert

La recherche en accès ouvert est une recherche dont les résultats sont consultables. La grammaire du breton de ce site est librement accessible, et les liens vers les ouvrages utiles disponibles sur le web y sont regroupés. Certains articles sont disponibles directement depuis le site.


recherche en direct

La recherche, c'est avant tout une démarche accessible à tout.e.s: une méthodologie. Ici, vous pouvez voir la recherche se faire, se corriger, discuter, établir de nouvelles hypothèses et recommencer.

  • La traçabilité de ce travail est complète. A chaque page, est associée un historique où vous pouvez voir en direct comment cet ouvrage se crée, comment de nouvelles données ou de nouveaux travaux changent nos hypothèses sur la langue.

science citoyenne

L'objet de la science ne doit jamais être réduit à un travail citoyen, car la science a ses propres buts internes qui sont légitimes. Cependant, quand la science peut prendre cette dimension citoyenne en poursuivant ses propres buts, pourquoi s'en priver ? Quelques exemples.

  • L'organisation de la Redadeg 2014 a demandé la traduction de Je parle breton, et toi ? dans différentes langues. En quelques jours, des linguistes du monde entier ont participé avec bonheur à nourrir la page I speak Breton, what about you ?, réunissant les traductions de cette phrase en 77 langues différentes. 1695 brittophones ont posté en ligne des autoportraits avec ces phrases en soutien à la redadeg.
  • Certains débats sociétaux se passent dans les colères par manque d'informations vérifiables, par manque de connaissance des variétés réelles, et par accumulation d'imprécisions. Le site développe des articles de discussions linguistiques qui fournissent des éléments concrets d'analyse sur ces débats qui traversent la société. Le format numérique de ces articles les rend directement partageables sur les réseaux sociaux, en format ouvert à une discussion de teneur scientifique.

science 2.0, approcher le lectorat

crowdsourcing passif, fréquentation et observation des usages

Ce site est aussi couplé avec des outils statistiques internes et avec l'outil google analytics, ce qui permet d'avoir une idée statistique assez précise de la façon dont il est utilisé, et de perfectionner l'outil suivant les usages observés.

Ces données, anonymes, du contenu d'une cinquantaine de visites humaines par jour environ début 2015, montrent une fréquentation doublée en 2023.

Sur les quatre années (2017-2021), l'ouvrage a été ouvert par 130 000 utilisateurs qui ont visionné 165 468 pages. Parmi les utilisateurs, 285 sont revenus plus de 5 fois et 579 plus de trois fois. La durée moyenne des sessions a été de 2 minutes.

Il existe manifestement un lectorat dont l'intérêt premier est la linguistique formelle plutôt que la description du breton. En novembre 2021, les requêtes web qui ont le plus amené sur ARBRES sont les mots clef: structure syntaxique (59), morphème libre et lié (20), construction syntaxique (19), verbe factif (17), verbes factifs 16), complémenteur (14), grammaire bretonne (13), morphème zéro (12), déictique[!] spatiaux (11) et verbe ditransitif (10).


crowdsourcing actif

La technologie wiki permet une collaboration cumulative (un ensemble de petits apports peut devenir signifiant sur une bonne infrastructure) et une collaboration distributive (les tâches peuvent être très différenciées).

Ce site vous pose la question de votre place dans le processus. Vous pouvez aider le projet à différents niveaux. Le ferez-vous?

utiliser le site pour le traitement automatique

Le traitement automatique du langage (TAL) nécessite des corpus, et le présent site en est un, puisque sa banque de donnée rassemble des milliers de phrases traduites, et glosées. Un exemple d'extraction des données de la wikigrammaire ARBRES (Jouitteau 2009-) est Breton treebank II mené par l'équipe de l'ANR Autogramm, qui vise à constituer un corpus annoté Universal Dependencies (De Marneffe & al. 2021, Nivre & al. 2020).

Sous cet angle d'utilisation en TAL, il est important de typifier les données qu'on y trouve.


quel type de corpus fournit ARBRES ?

Les données de la wikigrammaire ARBRES ont été rassemblées et annotées par une chercheuse en linguistique. Il s'agit de données collectées pour construire une recherche fondamentale en linguistique formelle. En ce sens, les données sont celles d'un carnet de recherche. Les données ont ensuite été organisées et considérablement augmentées dans le but de créer une grammaire descriptive, utilisable sous sa forme en ligne par la communauté parlante. Le but est donc double : produire une description de la langue dans sa diversité, sa complexité et ses régularités, et fournir des données neuves pertinentes pour les débats de la recherche fondamentale en linguistique générative.

Dans le corpus que cela constitue, on trouve des données de corpus libre, extraites d'interviews orales ou de produits culturels divers (articles de journaux, romans, chants, poèmes, recueils d'expressions populaires, tracts politiques, sites de présentation de mairies, posts sur les réseaux sociaux, etc.). Il contient les phrases un peu artificielles typiques des grammaires, mais elles sont mises en minorité nette par d'autres plus naturelles, de structure informationnelle variée. Le copyright sur ces sources est respecté dans la mesure où un pourcentage modeste de leurs phrases est cité de façon isolée, et diffusée sous une forme d'analyse grammaticalement enrichie. On y trouve aussi des données d'élicitation, recueillies sur le terrain à des fins de description linguistique. La linguiste a alors soumis des locuteurs natifs à un protocole de questions, de traductions, de tâches descriptives d'images, ou de tâches de jugements de grammaticalité de phrases qui leur sont proposées. Le copyright sur ces sources est respecté dans la mesure où les locuteurs fournissent un consentement éclairé sur la diffusion des résultats des enquêtes, ou le cas échéant sur la diffusion en ligne de leur parole.

La présence de données d'élicitation signifie la présence de données signalées comme agrammaticales. Pour s'assurer qu'un fait précis est la clef de l'acceptabilité d'une forme, les linguistes formels établissent des paires minimales. Ces paires varient minimalement. La première forme est grammaticale, l'autre agrammaticale. Pour comprendre les différences dialectales, il est aussi important de savoir jusqu'où dans l'espace une forme donnée va être comprise, ou acceptée. Au-delà de la frontière dialectale d'un fait linguistique donné, les locuteurs signalent ses formes comme agrammaticales. On obtient alors des paires minimales { dialecte A, forme OK / dialecte B, forme agrammaticale }. Les paires minimales renseignées dans ARBRES peuvent être rassemblées pour former soit des sets d'entrainement, soit des sets d'évaluation de modèles. Dans le cadre des sets d'entrainement pour la traduction jusqu'ici, les données agrammaticales n'ont pas été exploitées. Seule la partie grammaticale de la paire a rejoint le corpus.

La présence de données de corpus écrit du XXe signifie, dans le cas du breton, la présence de plusieurs orthographes concurrentielles. Les données sources n'ont pas été modifiées, et les exemples apparaissent dans leur orthographe d'impression originale. Cependant, il est possible de connecter chaque forme à son équivalent en orthographe standard. Chaque mot des phrases est glosé (traduit comme si trouvé en isolation). Cette glose est cliquable pour l'utilisateur de l'interface. Son adresse de redirection est l'orthographe de sa forme standard. La multiplicité des orthographes présentes, alliée au liage systématique de chaque occurrence à son lemma standard, laisse espérer que cet angle d'augmentation de la diversité des données ne s'opère pas au détriment de leur consistance. Ce système de redirections des tokens vers leurs lemmas respectifs permet également de relier les différentes formes des mots de cette langue celtique, qui non seulement montrent des flexions par suffixation, mais aussi des modifications de la consonne initiale selon les contextes syntaxiques où ils apparaissent (mutations consonantiques). Le lemma krokodil peut ainsi être automatiquement lié à ses occurrences dans krokodil Maia 'le crocodile de Maia', ar c'hrokodil 'le crocodile', ar c'hrokodiled 'les crocodiles', war grokodileta 'sur le point de chercher des crocodiles'. Dans le wiki, toutes ces occurrences pointent vers la même page dédiée au lemma krokodil. Cette page étant catégorisée comme une page concernant un nom, sa catégorie grammaticale est aussi récupérable automatiquement. Pour une description détaillée des annotations grammaticales récupérables, voir Jouitteau & Bideault (2023) et les détails du projet d'extraction de données par AUTOGRAMM Breton treebank II.

L'ensemble du corpus favorise la diversité dialectale puisqu'il s'agit d'une grammaire des dialectes. Il s'agit d'une grammaire descriptive, et non d'une grammaire prescriptive. Le breton standard y est traité comme un dialecte parmi les autres. Le spectre dialectal est donc assez large. Le dialecte vannetais est spécifiquement sous-représenté, avec un déficit relatif de données dans ce dialecte qui est aussi linguistiquement le plus éloigné des autres. Son analyse demande une expertise où la rédactrice principale est parfois défaillante, et en conséquence moins de données représentent ce dialecte. Mis à part cette carence particulière en dialecte vannetais, on peut considérer que quantitativement, les faits dialectaux rares sont surreprésentés dans les données. Les faits linguistiques très fréquents dans la langue seront illustrés une fois pour chaque dialecte majeur, mais pas au-delà. Au contraire, pour pouvoir décrire précisément un fait rare, sa répartition dialectale et ses paramètres d'apparition, ses exemples seront renseignés pour chaque occurrence rencontrée en corpus. Les faits rares font aussi plus l'objet de recherches thématiques en élicitation, ce qui aboutit à plus de renseignement de leurs données. Dans le même but descriptif de la variation les formes de styles différents vont co-exister à l'intérieur du corpus, avec une sur-représentation quantitative de cette variation par rapport à n'importe quel corpus unique. En ce sens, le corpus de ARBRES est mauvais pour les études quantitatives, mais offre pour les entrainements automatiques un concentré de diversité grammaticale.

Rassembler ces données est coûteux en ce que cela nécessite une ou des personnes formées sur la langue avec une souplesse dialectale minimale, une surface sociale propre à atteindre des locuteurs de profils linguistiques différents, qui trouvent un avantage non monétaire à passer un protocole linguistique. Ce travail représente un temps long de codage des exemples et de leur présentation adéquate dans la grammaire pour un lectorat humain. Il nécessite un support technique pour la conception et l'entretien général du site et de ses montées en version, et la surveillance technique de son accessibilité sur écran. Cependant, l'ensemble de ces ressources nécessaires existent en dehors du champ du TAL. À l'échelle d'une communauté, l'investissement peut être entièrement motivé par des buts internes. La banque de données construit incrémentalement une ressource pédagogique ou scientifique sous une forme adaptée à son public. À l'échelle de petites communautés de langues, cela évite de monopoliser des experts pour créer des banques de données qui ne seraient pas consultables ou utilisables par le grand public. Le développement de wikigrammaires est particulièrement recommandable pour la construction de ressources de projets pilotes sur les langues à corpus restreint, car si le champ informatique faillit à fournir des outils finalisés pour les locuteurs, l'investissement restera bénéfique pour la communauté parlante, qui peut réellement continuer à l'améliorer pour elle-même. En terme de ressources humaines, les linguistes descriptifs et formels se donnent justement pour tâche de produire du matériel d'analyse des langues. Elles et ils sont généralement peu nombreux sur les langues à corpus restreint, mais ont souvent des profils très engagés vis-à-vis de leur domaine empirique et des locuteurs qui le produisent, avec une connaissance culturelle fine des interactions avec eux. La solution wiki, quant à elle, est directement conçue pour la collaboration à grande échelle de contributeurs potentiellement isolés, ce qui est particulièrement adapté aux langues minorisées.

Bibliographie

  • Jouitteau, Mélanie. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte.
  • Jouitteau, Mélanie & Reun Bideault. 2023. 'Outils numériques et traitement automatique du breton', Annie Rialland, Michela Russo (dir.), Langues régionales de France: nouvelles approches, nouvelles méthodologies, revitalisation, Éditions de la Société de Linguistique de Paris, 37-74. texte.