Différences entre les versions de « Comment utiliser ce site »
m (Remplacement de texte — « . A » par « . À ») |
|||
(70 versions intermédiaires par le même utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
:::<sup>[[How to use this website|English version]]</sup> | :::<sup>[[How to use this website|English version]]</sup> | ||
Cette page | Cette page a pour objectif de présenter le site breton ARBRES, de vous offrir une vue globale de son étendue, et de vous aider à utiliser pleinement ses fonctionnalités. | ||
* pour les lecteurs humains, comme wikigrammaire des dialectes bretons | |||
* pour les traitements automatisés, comme base de données de phrases annotées | |||
== Quelques chiffres == | |||
Le site Internet de l'ARBRES est développé depuis 2007 a une présence en ligne, repérée par les moteurs de recherche, depuis 2009. | |||
Le site reçoit désormais plus de '''100 visites humaines''' par jour (107 pers./j, moyenne des quatre derniers mois de 2023). | |||
Il propose, début janvier 2024 : | |||
* 10 238 pages, dont '''4 804 pages de contenu''', 19 pages de [[:Catégorie:Méta|présentation]], et une batterie de pages de redirections. | |||
: [[:Category:Articles|3 094 articles]] sur des éléments de grammaire bretonne | |||
: [[:Catégorie:Fiches|325 fiches explicatives théoriques]] | |||
Le site organise une base de données d'environ '''15.000 phrases originales bretonnes, glosées et traduites''' en français, provenant de : | |||
: [[:Category:Ouvrages_de_recherche|1 208 travaux de recherche]] sur la langue bretonne (livres, dictionnaires, articles de recherche, blogs de collecte de données) | |||
: [[:Category:Références_de_corpus|493 références de corpus]] produits par des locuteurs natifs (romans, articles de journaux, chansons) | |||
: [[:Category:élicitations|44 séances d'élicitation]] avec des locuteurs natifs dont les résultats bruts sont disponibles en ligne dans la [[centrale d'élicitations]] | |||
== Objectifs du site ARBRES == | |||
Le site ARBRES a pour objectif de fournir une description complète et détaillée de la langue et de ses variations dialectales, des dialectes traditionnels au breton standard, et d'être plus généralement un centre de ressources pour l'étude formelle et descriptive de la langue, et pour le développement des traitements automatisés du breton. Il a pour vocation d'être utile à différents profils d'utilisateurs : | |||
Pour les locuteurs et experts de la langue : | |||
* une ressource pédagogique pour les travailleurs de la langue bretonne | |||
* une expérimentation sociale collaborative organisée autour d'une langue en haut danger de disparition selon l'UNESCO | |||
* un centre de ressources pour l'étude des questions linguistiques classiques que les locuteurs se posent sur la langue, sous une forme distribuable sur les réseaux sociaux | |||
Pour les linguistes descriptifs et théoriques : | |||
* une description précise et théoriquement informée de la microvariation syntaxique bretonne | |||
* un état de l'art permanent des recherches linguistiques actuelles | |||
* une source d'expertise linguistique sur les productions théoriques sur le breton | |||
* un outil de recherche international actif et interactif | |||
Pour les développeurs de technologies linguistiques : | |||
* une base de données prête à l'emploi de données richement annotées sur une langue à faibles ressources numériques | |||
* un centre de ressources numériques utilisables sur le breton | |||
* une source d'expertise linguistique sur le matériel breton disponible | |||
== Moyens pour atteindre ces objectifs == | |||
ARBRES se construit progressivement en relation avec la communauté des locuteurs. La base de données utilise la technologie wiki. Il est entièrement ouvert à l'écriture et à la révision collaboratives. Chaque page est associée à une page de discussion, et à un historique entièrement traçable des contributions. Les derniers résultats de l'étude scientifique de la langue bretonne, qui sont généralement en anglais, sont ici rapportés, analysés et intégrés dans la wikigrammaire rédigée en français. | |||
ARBRES propose également différents outils d'accessibilité afin de créer des ponts entre ces communautés : | |||
* une grammaire complète en ligne de la variation microdialectale bretonne, avec une description minutieuse des faits dialectaux et idiolectaux, des traductions françaises des données bretonnes et des gloses cliquables. | |||
* deux tables des matières différentes pour la grammaire bretonne, chacune conçue pour un lectorat particulier. La première, intitulée [[Grammaire du breton|Grammaire bretonne]], s'adresse aux apprenants, aux conférenciers et aux professeurs de philologie. La seconde, intitulée [[Linguistique formelle du breton|Grammaire formelle]], s'adresse aux linguistes à orientation théorique. | |||
* des moyens de recherche internes au site, comme une boîte à outils de recherche quantifiant sur l'ensemble du site (voir haut de page) | |||
* un [[glossaire]] breton, français ou anglais de plus de 250 termes de grammaire formelle, liés chacun à des définitions illustrées par des données bretonnes. | |||
* une liste des [[Abréviations, symboles|abréviations, symboles et acronymes]] utilisés dans ce domaine, avec explications | |||
* une [[centrale d'élicitations]] grâce auquel la communauté internationale de recherche linguistique peut co-construire des protocoles avec un expert breton, qui opère ensuite les élicitations et met en ligne les résultats bruts du protocole. | |||
* une architecture de [[Spécial:Catégories|catégorisations de pages]] | |||
* un [[Traitement automatique des langues - Breton|page actualisée sur l'histoire du développement technologique breton]], lié à un [https://entrelangues.modyco.fr/index.php/Breton#Ressources_num%C3 %A9riques résumé à jour des ressources prêtes à l'emploi] pour les développeurs. | |||
ARBRES apporte aux linguistes les fonctionnalités d'un cahier de recherche et d'un centre de ressources scientifiques. | |||
* données brutes. | |||
: La [[centrale d'élicitations]] permet aux linguistes de co-construire des élicitations avec l'auteur et développeuse à la demande. Les résultats sont mis en ligne et intégrés dans la wikigrammaire. | |||
* une [[bibliographie]] générale à jour de la linguistique bretonne. | |||
* une [[Liste des auteurs natifs d'un dialecte du breton|liste des locuteurs natifs ayant réalisé des corpus]] | |||
* lectures critiques des [[:Category:Ouvrages_de_recherche|travaux de recherche référencés]] | |||
* métadonnées sur les [[:Category:Références_de_corpus|493 références du corpus]] | |||
== Lire la grammaire du breton en ligne == | == Lire la grammaire du breton en ligne == | ||
Ce site comprend une grammaire complète, descriptive et formelle, de la langue bretonne envisagée dans toutes ses [[variétés dialectales]]. | Ce site comprend donc une grammaire complète, descriptive et formelle, de la langue bretonne envisagée dans toutes ses [[variétés dialectales]]. | ||
Comme pour une grammaire en format papier, vous pouvez l'utiliser en lisant la [[grammaire du breton|table des matières]], ou en cliquant directement sur une des cinq grandes parties: | Comme pour une grammaire en format papier, vous pouvez l'utiliser en lisant la [[grammaire du breton|table des matières]], ou en cliquant directement sur une des cinq grandes parties: | ||
Ligne 68 : | Ligne 112 : | ||
{| class="prettytable" | {| class="prettytable" | ||
| (1)|| Sevel a reas || ar paotr | |(1)|| Sevel || a reas || ar paotr || e zaoulagad … | ||
|- | |- | ||
| || [[sevel|lever]] [[R]] [[ober|fit]]|| [[ | ||| [[sevel|lever]] || [[R]] [[ober|fit]] || [[an, al, ar|le]] [[paotr|garçon]] <font color=green>[</font color=green><sub>[[VP]]</sub> _ || [[POSS|son]]<sup>[[1]]</sup> [[duel|deux]].[[lagad|œil]] <font color=green>]</font color=green> | ||
|- | |- | ||
| || colspan=" | ||| colspan="15" | 'Le garçon leva les yeux.' | ||
|- | |||
||||||||| colspan="15" | ''Standard'', [[Drezen (1990)|Drezen (1990]]:23) | |||
|} | |} | ||
Ligne 80 : | Ligne 126 : | ||
{| class="prettytable" | {| class="prettytable" | ||
|(2)|| Me am-eus c'hoant || da lavared || penaoz|| ema ar wirionez || gant ar skolaer! | |(2)|| Me || am-eus || c'hoant || da || lavared || penaoz || ema || ar wirionez || gant || ar skolaer ! | ||
|- | |- | ||
| || [[pfi|moi]] [[R]].1SG [[kaout|a]] [[kaout|envie]] || [[da|de]] [[lavarout|dire]] ||[[penaos|que]] || [[emañ|est]] [[ | ||| [[pfi|moi]] || [[R]].1SG [[kaout|a]] || [[kaout|envie]] || [[da|de]]<sup>[[1]]</sup> || [[lavarout|dire]] || [[penaos|que]] || [[emañ|est]] || [[an, al, ar|le]] <sup>[[1]]</sup>[[gwirionez|vérité]] || [[gant|avec]] || [[an, al, ar|le]] [[skol|école]].[[-aer|eur]] | ||
|- | |- | ||
|||colspan=" | ||| colspan="15" | 'Moi, j'ai envie de dire que la vérité est avec l'instituteur. |||| ''Français du Trégor'', [[Gros (1984)|Gros (1984]]:176) | ||
|- | |- | ||
|||colspan=" | ||| colspan="15" | 'Moi, je prétends que l'instituteur a raison.' |||| ''Français standard'' | ||
|- | |||
||||||||| colspan="15" | ''Breton trégorrois'', [[Gros (1984)|Gros (1984]]:176) | |||
|} | |} | ||
Ligne 94 : | Ligne 142 : | ||
{| class="prettytable" | {| class="prettytable" | ||
| (3)|| <font color=green> [ wa kOmâsǝd ||<font color=green> ǝ rEzistâs ||<font color=green> nEm fòrmo ] | |(3)||<font color=green> [ wa ||<font color=green> kOmâsǝd ||<font color=green> ǝ ||<font color=green> rEzistâs ||<font color=green> nEm ||<font color=green> fòrmo ] | ||
|- | |- | ||
||| Oa komañset ||ar Rezistañs || en em | ||| Oa || komañset || ar || Rezistañs || en em || furmiñ. | ||
|- | |- | ||
| || [[ | ||| [[eo|était]] || [[komañs|commenc]].[[-et (Adj.)|é]] || [[an, al, ar|le]] || "résistance" || [[en em|se]] || [[furmiñ|former]] | ||
|- | |- | ||
|||colspan=" | ||| colspan="15" | 'La résistance avait commencé à se former.' | ||
|- | |||
||||||||||||| colspan="15" | ''Cornouaillais (Lanvenegen)'', [[Evenou (1987)|Evenou (1987]]:627) | |||
|} | |} | ||
Ligne 121 : | Ligne 171 : | ||
=== références d'ouvrages === | |||
Chaque exemple est dûment référencé à la page près. Les sources sont des liens actifs vers une page de référence dédiée. ARBRES contient: | Chaque exemple est dûment référencé à la page près. Les sources sont des liens actifs vers une page de référence dédiée. ARBRES contient: | ||
Ligne 140 : | Ligne 190 : | ||
Une fonctionnalité intéressante vous permet de voir précisément comment un ouvrage est cité sur ce site. Ouvrez la page d'une référence donnée, puis cliquez à gauche de votre écran, dans le cartouche '''Outils''' sur '''pages liées'''. Vous obtiendrez la liste des pages du site contenant un lien vers cette référence. | Une fonctionnalité intéressante vous permet de voir précisément comment un ouvrage est cité sur ce site. Ouvrez la page d'une référence donnée, puis cliquez à gauche de votre écran, dans le cartouche '''Outils''' sur '''pages liées'''. Vous obtiendrez la liste des pages du site contenant un lien vers cette référence. | ||
=== approfondir un sujet === | === approfondir un sujet === | ||
Après avoir lu un article, si vous voulez approfondir un sujet, il existe plusieurs options. | Après avoir lu un article, si vous voulez approfondir un sujet, il existe plusieurs options. | ||
* chercher dans l'article les liens cliquables vers des articles associés. | * chercher dans l'article les liens cliquables vers des articles associés. | ||
Ligne 159 : | Ligne 207 : | ||
: Je réponds aux commentaires et questions. Je corrige le site ou fournis des explications selon les besoins exprimés. La trace de ces échanges nourrit aussi le site par ses discussions. | : Je réponds aux commentaires et questions. Je corrige le site ou fournis des explications selon les besoins exprimés. La trace de ces échanges nourrit aussi le site par ses discussions. | ||
=== citer la wikigrammaire ARBRES === | |||
=== citer | |||
Pour citer une page de ce site, je recommande le format suivant: | Pour citer une page de ce site, je recommande le format suivant: | ||
* [[Jouitteau (2009-)|Jouitteau, | * [[Jouitteau (2009-)|Jouitteau, Mélanie. 2009-2023]]. 'Titre de l'article', ''ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle'', IKER, CNRS, URL de l'article. [date d'accès]. | ||
Pour citer la grammaire ARBRES en son ensemble: | Pour citer la grammaire ARBRES en son ensemble: | ||
* [[Jouitteau (2009-)|Jouitteau, | * [[Jouitteau (2009-)|Jouitteau, Mélanie. (éd.). 2009-2023]]. ''ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle'', IKER, CNRS, http://arbres.iker.cnrs.fr. Licence Creative Commons BY-NC-SA. | ||
== Utiliser le centre de ressources == | == Utiliser le centre de ressources == | ||
Ligne 186 : | Ligne 232 : | ||
* un [[glossaire]] de plus de 250 termes techniques utilisés en grammaire formelle, et sa version [[Glossaire en anglais|en anglais]] | * un [[glossaire]] de plus de 250 termes techniques utilisés en grammaire formelle, et sa version [[Glossaire en anglais|en anglais]] | ||
: Pour connaitre l'équivalent français d'un terme en anglais, il suffit de cliquer sur ce terme en anglais. Le titre de page qui apparaît donne la traduction. | : Pour connaitre l'équivalent français d'un terme en anglais, il suffit de cliquer sur ce terme en anglais. Le titre de page qui apparaît donne la traduction. À l'inverse, pour connaître l'équivalent anglais ou breton d'un terme en français, on peut se reporter à la partie ''terminologie'' des articles. | ||
* une liste des [[abréviations]] techniques utilisées, ainsi que les acronymes des corpus anciens et des gloses | * une liste des [[abréviations]] techniques utilisées, ainsi que les acronymes des corpus anciens et des gloses | ||
Ligne 194 : | Ligne 240 : | ||
Ce site est évolutif, et permet de se tenir au courant de l'actualité de la syntaxe du breton, que ce soit de façon interne ou externe au site. | Ce site est évolutif, et permet de se tenir au courant de l'actualité de la syntaxe du breton, que ce soit de façon interne ou externe au site. | ||
* une [[ARBRES:Actualités|page d'actualités]] | * une [[ARBRES:Actualités|page d'actualités]] | ||
Ligne 206 : | Ligne 251 : | ||
Ce site est participatif: vous pouvez poster vous-même des informations en [[ARBRES:Actualités|page d'actualités]], ajouter les nouvelles références en [[bibliographie]], ou enrichir les pages de [[liens]]. | Ce site est participatif: vous pouvez poster vous-même des informations en [[ARBRES:Actualités|page d'actualités]], ajouter les nouvelles références en [[bibliographie]], ou enrichir les pages de [[liens]]. | ||
=== trouver des phénomènes d'un dialecte en particulier === | === trouver des phénomènes d'un dialecte en particulier === | ||
Les outils du centre de ressources sont pensés pour | Les outils du centre de ressources sont pensés pour faciliter différentes tâches de recherche linguistique. | ||
* trouver les corpus et les références adéquates | * trouver les corpus et les références adéquates | ||
: Les ouvrages de la [[bibliographie|bibliographie générale]] ont été localisés dialectalement sur une [http://maps.google.fr/maps/ms?hl=en&gl=fr&ie=UTF8&view=map&msa=0&msid=116403696732364065106.00046b5855852f51f82ff&ll=48.221013,-3.081665&spn=1.698195,4.943848&z=8 carte de type googlemap]. Ceci permet de visualiser la répartition géographique des ouvrages d'étude des différentes variétés du breton. | : Les ouvrages de la [[bibliographie|bibliographie générale]] ont été localisés dialectalement sur une [http://maps.google.fr/maps/ms?hl=en&gl=fr&ie=UTF8&view=map&msa=0&msid=116403696732364065106.00046b5855852f51f82ff&ll=48.221013,-3.081665&spn=1.698195,4.943848&z=8 carte de type googlemap]. Ceci permet de visualiser la répartition géographique des ouvrages d'étude des différentes variétés du breton. | ||
: Une grammaire propose une règle spéciale pour un dialecte et vous voulez la vérifier? La carte vous fournit visuellement les références des corpus les plus proches du dit dialecte. | : Une grammaire propose une règle spéciale pour un dialecte et vous voulez la vérifier ? La carte vous fournit visuellement les références des corpus les plus proches du dit dialecte. | ||
* consulter dans le centre de ressources la [[liste des auteurs natifs d'un dialecte du breton]] | * consulter dans le centre de ressources la [[liste des auteurs natifs d'un dialecte du breton]] | ||
Ligne 221 : | Ligne 265 : | ||
* consulter dans le centre de ressources la liste de différents [[corpus]] utilisables. | * consulter dans le centre de ressources la liste de différents [[corpus]] utilisables. | ||
: Cela servira à choisir en particulier le type de corpus que vous recherchez (audio transcrit, écrit, glosé, transcrit en [[API]], etc.) | : Cela servira à choisir en particulier le type de corpus que vous recherchez (audio transcrit, écrit, glosé, transcrit en [[API]], etc.) | ||
=== utilisation pour apprendre le breton === | === utilisation pour apprendre le breton === | ||
Ligne 238 : | Ligne 281 : | ||
* des liens vers des cartes spécifiques de l'[[ALBB]] sont intégrées dans les articles. Cela rend leur utilisation possible à partir d'entrées bretonnes et permet de construire une présentation sur un sujet donné avec une cartographie. | * des liens vers des cartes spécifiques de l'[[ALBB]] sont intégrées dans les articles. Cela rend leur utilisation possible à partir d'entrées bretonnes et permet de construire une présentation sur un sujet donné avec une cartographie. | ||
* Enfin, pour discuter avec un groupe de la science ouverte, et de l'utilité scientifique et sociale des données du breton autour de nous, pourquoi ne pas monter un projet de collaboration à ce site? | * Enfin, pour discuter avec un groupe de la science ouverte, et de l'utilité scientifique et sociale des données du breton autour de nous, pourquoi ne pas monter un projet de collaboration à ce site ? | ||
== Science ouverte == | == Science ouverte == | ||
Ce site ARBRES est une expérience de science ouverte et participative, c'est un site de recherche "à carnet ouvert". J'explique sa philosophie en détail dans [[Jouitteau (2013b)]]. | Ce site ARBRES est une expérience de [[science ouverte]] et participative, c'est un site de recherche "à carnet ouvert". J'explique sa philosophie en détail dans [[Jouitteau (2013b)]]. | ||
=== accès ouvert === | === accès ouvert === | ||
Ligne 254 : | Ligne 297 : | ||
La recherche, c'est avant tout une démarche accessible à tout.e.s: une méthodologie. Ici, vous pouvez voir la recherche se faire, se corriger, discuter, établir de nouvelles hypothèses et recommencer. | La recherche, c'est avant tout une démarche accessible à tout.e.s: une méthodologie. Ici, vous pouvez voir la recherche se faire, se corriger, discuter, établir de nouvelles hypothèses et recommencer. | ||
* La '''traçabilité''' de ce travail est complète. | * La '''traçabilité''' de ce travail est complète. À chaque page, est associée un historique où vous pouvez voir en direct comment cet ouvrage se crée, comment de nouvelles données ou de nouveaux travaux changent nos hypothèses sur la langue. | ||
* Les '''résultats bruts''' d'[[élicitations]] avec des locuteurs natifs sont disponibles dans la [[centrale d'élicitations]]. | * Les '''résultats bruts''' d'[[élicitations]] avec des locuteurs natifs sont disponibles dans la [[centrale d'élicitations]]. | ||
Ligne 260 : | Ligne 303 : | ||
=== science citoyenne === | === science citoyenne === | ||
L'objet de la science ne doit jamais être réduit à un travail citoyen, car la science a ses propres buts internes qui sont légitimes. Cependant, quand la science peut prendre cette dimension citoyenne en poursuivant ses propres buts, pourquoi s'en priver ? Quelques exemples. | |||
* | * L'organisation de la [http://www.ar-redadeg.org/?lang=br Redadeg 2014] a demandé la traduction de ''Je parle breton, et toi ?'' dans différentes langues. En quelques jours, des linguistes du monde entier ont participé avec bonheur à nourrir la page ''[[I speak Breton, what about you ?]]'', réunissant les traductions de cette phrase en 77 langues différentes. 1695 brittophones ont posté en ligne des autoportraits avec ces phrases en soutien à la ''redadeg''. | ||
* Certains débats sociétaux se passent dans les colères par manque d'informations vérifiables, par manque de connaissance des variétés réelles, et par accumulation d'imprécisions. Le site développe [[:Catégorie:discussions linguistiques|des articles de discussions linguistiques]] qui fournissent des éléments concrets d'analyse sur ces débats qui traversent la société. Le format numérique de ces articles les rend directement partageables sur les réseaux sociaux, en format ouvert à une discussion de teneur scientifique. | |||
==== crowdsourcing passif ==== | === science 2.0, approcher le lectorat === | ||
==== crowdsourcing passif, fréquentation et observation des usages ==== | |||
Ce site est aussi couplé avec des outils [[Spécial:Pages_spéciales|statistiques internes]] et avec l'outil [https://www.google.fr/intl/fr/analytics/ google analytics], ce qui permet d'avoir une idée statistique assez précise de la façon dont il est utilisé, et de perfectionner l'outil suivant les usages observés. | |||
Ces données, anonymes, du contenu d'une cinquantaine de visites humaines par jour environ début 2015, montrent une fréquentation doublée en 2023. | |||
Sur les quatre années (2017-2021), l'ouvrage a été ouvert par 130 000 utilisateurs qui ont visionné 165 468 pages. Parmi les utilisateurs, 285 sont revenus plus de 5 fois et 579 plus de trois fois. La durée moyenne des sessions a été de 2 minutes. | |||
Il existe manifestement un lectorat dont l'intérêt premier est la linguistique formelle plutôt que la description du breton. En novembre 2021, les requêtes web qui ont le plus amené sur ARBRES sont les mots clef: structure syntaxique (59), morphème libre et lié (20), construction syntaxique (19), verbe factif (17), verbes factifs 16), complémenteur (14), grammaire bretonne (13), morphème zéro (12), déictique[!] spatiaux (11) et verbe ditransitif (10). | |||
==== crowdsourcing actif ==== | ==== crowdsourcing actif ==== | ||
La technologie wiki permet une '''collaboration cumulative''' (un ensemble de petits apports peut devenir signifiant sur une bonne infrastructure) et une '''collaboration distributive''' (les tâches peuvent être très différenciées). | |||
Ce site vous pose la question de votre place dans le processus. Vous pouvez aider le projet à différents niveaux. Le ferez-vous? | Ce site vous pose la question de votre place dans le processus. Vous pouvez aider le projet à différents niveaux. Le ferez-vous? | ||
== utiliser le site pour le traitement automatique == | |||
Le [[TAL|traitement automatique du langage]] ([[TAL]]) nécessite des corpus, et le présent site en est un, puisque sa banque de donnée rassemble des milliers de phrases traduites, et glosées. Un exemple d'extraction des données de la wikigrammaire ARBRES ([[Jouitteau (2009-)|Jouitteau 2009-]]) est [[Breton treebank II]] mené par l'équipe de l'[https://autogramm.github.io/ ANR Autogramm], qui vise à constituer un corpus annoté ''Universal Dependencies'' ([[De Marneffe & al. (2021)|De Marneffe & al. 2021]], [[Nivre & al. (2020)|Nivre & al. 2020]]). | |||
Sous cet angle d'utilisation en [[TAL]], il est important de typifier les données qu'on y trouve. | |||
=== quel type de corpus fournit ARBRES ? === | |||
Les données de la wikigrammaire ARBRES ont été rassemblées et annotées par une chercheuse en linguistique. Il s'agit de données collectées pour construire une recherche fondamentale en linguistique formelle. En ce sens, les données sont celles d'un carnet de recherche. Les données ont ensuite été organisées et considérablement augmentées dans le but de créer une grammaire descriptive, utilisable sous sa forme en ligne par la communauté parlante. Le but est donc double : produire une description de la langue dans sa diversité, sa complexité et ses régularités, et fournir des données neuves pertinentes pour les débats de la recherche fondamentale en [[linguistique générative]]. | |||
Dans le corpus que cela constitue, on trouve des données de corpus libre, extraites d'interviews orales ou de produits culturels divers (articles de journaux, romans, chants, poèmes, recueils d'expressions populaires, tracts politiques, sites de présentation de mairies, posts sur les réseaux sociaux, etc.). Il contient les phrases un peu artificielles typiques des grammaires, mais elles sont mises en minorité nette par d'autres plus naturelles, de [[structure informationnelle]] variée. Le copyright sur ces sources est respecté dans la mesure où un pourcentage modeste de leurs phrases est cité de façon isolée, et diffusée sous une forme d'analyse grammaticalement enrichie. | |||
On y trouve aussi des données d'[[élicitation]], recueillies sur le terrain à des fins de description linguistique. La linguiste a alors soumis des locuteurs natifs à un protocole de questions, de traductions, de tâches descriptives d'images, ou de tâches de jugements de grammaticalité de phrases qui leur sont proposées. Le copyright sur ces sources est respecté dans la mesure où les locuteurs fournissent un consentement éclairé sur la diffusion des résultats des enquêtes, ou le cas échéant sur la diffusion en ligne de leur parole. | |||
La présence de données d'[[élicitation]] signifie la présence de données signalées comme [[agrammaticales]]. Pour s'assurer qu'un fait précis est la clef de l'acceptabilité d'une forme, les linguistes formels établissent des paires minimales. Ces paires varient minimalement. La première forme est grammaticale, l'autre agrammaticale. Pour comprendre les différences dialectales, il est aussi important de savoir jusqu'où dans l'espace une forme donnée va être comprise, ou acceptée. Au-delà de la frontière dialectale d'un fait linguistique donné, les locuteurs signalent ses formes comme agrammaticales. On obtient alors des paires minimales { dialecte A, forme OK / dialecte B, forme agrammaticale }. Les paires minimales renseignées dans ARBRES peuvent être rassemblées pour former soit des sets d'entrainement, soit des sets d'évaluation de modèles. Dans le cadre des sets d'entrainement pour la traduction jusqu'ici, les données agrammaticales n'ont pas été exploitées. Seule la partie grammaticale de la paire a rejoint le corpus. | |||
La présence de données de corpus écrit du XXe signifie, dans le cas du breton, la présence de plusieurs orthographes concurrentielles. Les données sources n'ont pas été modifiées, et les exemples apparaissent dans leur orthographe d'impression originale. Cependant, il est possible de connecter chaque forme à son équivalent en orthographe standard. Chaque mot des phrases est glosé (traduit comme si trouvé en isolation). Cette glose est cliquable pour l'utilisateur de l'interface. Son adresse de redirection est l'orthographe de sa forme standard. La multiplicité des orthographes présentes, alliée au liage systématique de chaque occurrence à son lemma standard, laisse espérer que cet angle d'augmentation de la diversité des données ne s'opère pas au détriment de leur consistance. Ce système de redirections des tokens vers leurs lemmas respectifs permet également de relier les différentes formes des mots de cette langue celtique, qui non seulement montrent des flexions par suffixation, mais aussi des modifications de la consonne initiale selon les contextes syntaxiques où ils apparaissent ([[mutations consonantiques]]). Le lemma ''krokodil'' peut ainsi être automatiquement lié à ses occurrences dans ''krokodil Maia'' 'le crocodile de Maia', ''ar c'hrokodil'' 'le crocodile', ''ar c'hrokodiled'' 'les crocodiles', ''war grokodileta'' 'sur le point de chercher des crocodiles'. Dans le wiki, toutes ces occurrences pointent vers la même page dédiée au lemma ''krokodil''. Cette page étant catégorisée comme une page concernant un nom, sa [[catégorie grammaticale]] est aussi récupérable automatiquement. Pour une description détaillée des annotations grammaticales récupérables, voir [[Jouitteau & Bideault (2023)]] et les détails du projet d'extraction de données par AUTOGRAMM ''[[Breton treebank II]]''. | |||
L'ensemble du corpus favorise la diversité dialectale puisqu'il s'agit d'une grammaire des dialectes. Il s'agit d'une grammaire descriptive, et non d'une grammaire prescriptive. Le [[breton standard]] y est traité comme un dialecte parmi les autres. Le spectre dialectal est donc assez large. Le dialecte [[vannetais]] est spécifiquement sous-représenté, avec un déficit relatif de données dans ce dialecte qui est aussi linguistiquement le plus éloigné des autres. Son analyse demande une expertise où la rédactrice principale est parfois défaillante, et en conséquence moins de données représentent ce dialecte. Mis à part cette carence particulière en dialecte vannetais, on peut considérer que quantitativement, les faits dialectaux rares sont surreprésentés dans les données. Les faits linguistiques très fréquents dans la langue seront illustrés une fois pour chaque dialecte majeur, mais pas au-delà. Au contraire, pour pouvoir décrire précisément un fait rare, sa répartition dialectale et ses paramètres d'apparition, ses exemples seront renseignés pour chaque occurrence rencontrée en corpus. Les faits rares font aussi plus l'objet de recherches thématiques en élicitation, ce qui aboutit à plus de renseignement de leurs données. Dans le même but descriptif de la variation les formes de styles différents vont co-exister à l'intérieur du corpus, avec une sur-représentation quantitative de cette variation par rapport à n'importe quel corpus unique. En ce sens, le corpus de ARBRES est mauvais pour les études quantitatives, mais offre pour les entrainements automatiques un concentré de diversité grammaticale. | |||
Rassembler ces données est coûteux en ce que cela nécessite une ou des personnes formées sur la langue avec une souplesse dialectale minimale, une surface sociale propre à atteindre des locuteurs de profils linguistiques différents, qui trouvent un avantage non monétaire à passer un protocole linguistique. Ce travail représente un temps long de codage des exemples et de leur présentation adéquate dans la grammaire pour un lectorat humain. Il nécessite un support technique pour la conception et l'entretien général du site et de ses montées en version, et la surveillance technique de son accessibilité sur écran. | |||
Cependant, l'ensemble de ces ressources nécessaires existent en dehors du champ du [[TAL]]. À l'échelle d'une communauté, l'investissement peut être entièrement motivé par des buts internes. La banque de données construit incrémentalement une ressource pédagogique ou scientifique sous une forme adaptée à son public. À l'échelle de petites communautés de langues, cela évite de monopoliser des experts pour créer des banques de données qui ne seraient pas consultables ou utilisables par le grand public. Le développement de wikigrammaires est particulièrement recommandable pour la construction de ressources de projets pilotes sur les langues à corpus restreint, car si le champ informatique faillit à fournir des outils finalisés pour les locuteurs, l'investissement restera bénéfique pour la communauté parlante, qui peut réellement continuer à l'améliorer pour elle-même. En terme de ressources humaines, les linguistes descriptifs et formels se donnent justement pour tâche de produire du matériel d'analyse des langues. Elles et ils sont généralement peu nombreux sur les langues à corpus restreint, mais ont souvent des profils très engagés vis-à-vis de leur domaine empirique et des locuteurs qui le produisent, avec une connaissance culturelle fine des interactions avec eux. La solution wiki, quant à elle, est directement conçue pour la collaboration à grande échelle de contributeurs potentiellement isolés, ce qui est particulièrement adapté aux langues minorisées. | |||
== Bibliographie == | == Bibliographie == | ||
* [[Jouitteau (2013b)|Jouitteau, | * [[Jouitteau (2013b)|Jouitteau, Mélanie. 2013b]], 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', ''[http://lapurdum.revues.org/ Lapurdum]'' XVI, Charles Videgain (dir.), 93-115, [http://lapurdum.revues.org/2357 texte]. | ||
* [[Jouitteau & Bideault (2023)|Jouitteau, Mélanie & Reun Bideault. 2023]]. 'Outils numériques et traitement automatique du breton', Annie Rialland, Michela Russo (dir.), ''Langues régionales de France: nouvelles approches, nouvelles méthodologies, revitalisation'', Éditions de la Société de Linguistique de Paris, 37-74. [https://hal.science/hal-03918268 texte]. | |||
[[Category:méta|Categories]] | [[Category:méta|Categories]] |
Version actuelle datée du 9 avril 2024 à 18:00
Cette page a pour objectif de présenter le site breton ARBRES, de vous offrir une vue globale de son étendue, et de vous aider à utiliser pleinement ses fonctionnalités.
- pour les lecteurs humains, comme wikigrammaire des dialectes bretons
- pour les traitements automatisés, comme base de données de phrases annotées
Quelques chiffres
Le site Internet de l'ARBRES est développé depuis 2007 a une présence en ligne, repérée par les moteurs de recherche, depuis 2009.
Le site reçoit désormais plus de 100 visites humaines par jour (107 pers./j, moyenne des quatre derniers mois de 2023).
Il propose, début janvier 2024 :
- 10 238 pages, dont 4 804 pages de contenu, 19 pages de présentation, et une batterie de pages de redirections.
- 3 094 articles sur des éléments de grammaire bretonne
- 325 fiches explicatives théoriques
Le site organise une base de données d'environ 15.000 phrases originales bretonnes, glosées et traduites en français, provenant de :
- 1 208 travaux de recherche sur la langue bretonne (livres, dictionnaires, articles de recherche, blogs de collecte de données)
- 493 références de corpus produits par des locuteurs natifs (romans, articles de journaux, chansons)
- 44 séances d'élicitation avec des locuteurs natifs dont les résultats bruts sont disponibles en ligne dans la centrale d'élicitations
Objectifs du site ARBRES
Le site ARBRES a pour objectif de fournir une description complète et détaillée de la langue et de ses variations dialectales, des dialectes traditionnels au breton standard, et d'être plus généralement un centre de ressources pour l'étude formelle et descriptive de la langue, et pour le développement des traitements automatisés du breton. Il a pour vocation d'être utile à différents profils d'utilisateurs :
Pour les locuteurs et experts de la langue :
- une ressource pédagogique pour les travailleurs de la langue bretonne
- une expérimentation sociale collaborative organisée autour d'une langue en haut danger de disparition selon l'UNESCO
- un centre de ressources pour l'étude des questions linguistiques classiques que les locuteurs se posent sur la langue, sous une forme distribuable sur les réseaux sociaux
Pour les linguistes descriptifs et théoriques :
- une description précise et théoriquement informée de la microvariation syntaxique bretonne
- un état de l'art permanent des recherches linguistiques actuelles
- une source d'expertise linguistique sur les productions théoriques sur le breton
- un outil de recherche international actif et interactif
Pour les développeurs de technologies linguistiques :
- une base de données prête à l'emploi de données richement annotées sur une langue à faibles ressources numériques
- un centre de ressources numériques utilisables sur le breton
- une source d'expertise linguistique sur le matériel breton disponible
Moyens pour atteindre ces objectifs
ARBRES se construit progressivement en relation avec la communauté des locuteurs. La base de données utilise la technologie wiki. Il est entièrement ouvert à l'écriture et à la révision collaboratives. Chaque page est associée à une page de discussion, et à un historique entièrement traçable des contributions. Les derniers résultats de l'étude scientifique de la langue bretonne, qui sont généralement en anglais, sont ici rapportés, analysés et intégrés dans la wikigrammaire rédigée en français.
ARBRES propose également différents outils d'accessibilité afin de créer des ponts entre ces communautés :
- une grammaire complète en ligne de la variation microdialectale bretonne, avec une description minutieuse des faits dialectaux et idiolectaux, des traductions françaises des données bretonnes et des gloses cliquables.
- deux tables des matières différentes pour la grammaire bretonne, chacune conçue pour un lectorat particulier. La première, intitulée Grammaire bretonne, s'adresse aux apprenants, aux conférenciers et aux professeurs de philologie. La seconde, intitulée Grammaire formelle, s'adresse aux linguistes à orientation théorique.
- des moyens de recherche internes au site, comme une boîte à outils de recherche quantifiant sur l'ensemble du site (voir haut de page)
- un glossaire breton, français ou anglais de plus de 250 termes de grammaire formelle, liés chacun à des définitions illustrées par des données bretonnes.
- une liste des abréviations, symboles et acronymes utilisés dans ce domaine, avec explications
- une centrale d'élicitations grâce auquel la communauté internationale de recherche linguistique peut co-construire des protocoles avec un expert breton, qui opère ensuite les élicitations et met en ligne les résultats bruts du protocole.
- une architecture de catégorisations de pages
- un page actualisée sur l'histoire du développement technologique breton, lié à un %A9riques résumé à jour des ressources prêtes à l'emploi pour les développeurs.
ARBRES apporte aux linguistes les fonctionnalités d'un cahier de recherche et d'un centre de ressources scientifiques.
- données brutes.
- La centrale d'élicitations permet aux linguistes de co-construire des élicitations avec l'auteur et développeuse à la demande. Les résultats sont mis en ligne et intégrés dans la wikigrammaire.
- une bibliographie générale à jour de la linguistique bretonne.
- une liste des locuteurs natifs ayant réalisé des corpus
- lectures critiques des travaux de recherche référencés
- métadonnées sur les 493 références du corpus
Lire la grammaire du breton en ligne
Ce site comprend donc une grammaire complète, descriptive et formelle, de la langue bretonne envisagée dans toutes ses variétés dialectales.
Comme pour une grammaire en format papier, vous pouvez l'utiliser en lisant la table des matières, ou en cliquant directement sur une des cinq grandes parties:
1. Morphologie 2. Constituants 3. Syntaxe de la phrase 4. Structure informationnelle 5. Discours
Durant toute votre navigation, ces cinq grandes parties restent cliquables dans la colonne de gauche de votre écran, dans le menu déroulant du cartouche Grammaire du breton.
Comme une grammaire en format papier, vous pouvez aussi la feuilleter au hasard, en cliquant sur article au hasard.
Comme il s'agit d'une grammaire numérique, vous pouvez aussi faire une recherche par mot-clef dans la boîte de recherche située en haut à droite de votre écran.
Vous trouverez un glossaire des termes techniques utilisés, en français et en anglais. Chaque mot y renvoie à un article explicatif des notions utilisées, illustrées avec des données en langue bretonne, glosées et traduites.
Une fois sur l'article que vous voulez consulter, vous trouverez en haut de page une description rapide, avec des exemples, suivi d'un sommaire de la page. Une page type est construite comme suit:
1. Morphologie 1.1. accentuation 1.2. mutations consonantiques 1.3. genre, nombre, personne 2. Syntaxe 2.1. propriétés 2.2. distribution 2.3. éléments associés 3. Sémantique 4. Diachronie 5. Horizons comparatifs 6. Terminologie 7. Bibliographie
exemples
Chaque exemple est numéroté, et commence par la phrase en breton. La phrase est ensuite traduite en dessous mot-à-mots: ces gloses sont cliquables et amènent chacune à un article concernant l'élément cliqué. Ces liens sont créés à la main et il y a de bonnes chances que vous trouviez rapidement réponse à votre question. Les gloses comprennent des notations concernant la structure syntaxique. En (1), les crochets désignent le découpage en constituants. le superscript "1" note la présence d'une mutation consonantique, la lénition. Les gloses peuvent découper un mot en différents morphèmes.
(1) | Sevel | a reas | ar paotr | e zaoulagad … | ||||||||||||||
lever | R fit | le garçon [VP _ | son1 deux.œil ] | |||||||||||||||
'Le garçon leva les yeux.' | ||||||||||||||||||
Standard, Drezen (1990:23) |
L'exemple finit par une traduction globale de la phrase en français. Parfois, lorsque c'est pertinent, on trouvera aussi une traduction en français dialectal de Basse-Bretagne, avant la traduction en français standard.
(2) | Me | am-eus | c'hoant | da | lavared | penaoz | ema | ar wirionez | gant | ar skolaer ! | ||||||||
moi | R.1SG a | envie | de1 | dire | que | est | le 1vérité | avec | le école.eur | |||||||||
'Moi, j'ai envie de dire que la vérité est avec l'instituteur. | Français du Trégor, Gros (1984:176) | |||||||||||||||||
'Moi, je prétends que l'instituteur a raison.' | Français standard | |||||||||||||||||
Breton trégorrois, Gros (1984:176) |
Lorsque ces données sont disponibles, on trouvera aussi une transcription en alphabet phonétique international, signalée en vert pour plus de lisibilité. Les différentes écritures dialectales, lorsqu'elles seraient trop difficiles à lire par un non-spécialiste, sont aussi écrites en vert, avec une graphie plus standardisée dessous.
(3) | [ wa | kOmâsǝd | ǝ | rEzistâs | nEm | fòrmo ] | ||||||||||||||
Oa | komañset | ar | Rezistañs | en em | furmiñ. | |||||||||||||||
était | commenc.é | le | "résistance" | se | former | |||||||||||||||
'La résistance avait commencé à se former.' | ||||||||||||||||||||
Cornouaillais (Lanvenegen), Evenou (1987:627) |
L'exemple finit avec une typification de la variété dialectale utilisée (en italiques), et une référence précise à la page près de la source de la donnée. La référence de l'ouvrage source est cliquable, et vous amène à une fiche de référence de cet ouvrage, ici, la thèse de Evenou (1987).
les sources
Ce site est un carnet de recherche scientifique. Les sources premières comme les sources secondaires doivent y être sourcées au plus près.
Les sources premières acceptées sont:
- les jugements de grammaticalité de locuteurs natifs dans leur propre variété (voir la centrale d'élicitations)
- les corpus écrits ou oraux produits par des locuteurs natifs (en se méfiant des modifications d'éditions)
Les sources secondaires acceptées sont :
- les ouvrages de recherche produits sur la syntaxe du breton
- les avis d'experts, avec leur nom associé, dans la mesure où ils peuvent typifier leur source comme native de la variété concernée
références d'ouvrages
Chaque exemple est dûment référencé à la page près. Les sources sont des liens actifs vers une page de référence dédiée. ARBRES contient:
- plus de 288 références de corpus de breton parlé et écrit
- plus de 529 références d'ouvrages de recherche sur la langue.
A chaque référence de corpus ou d'ouvrage de recherche cité dans les articles est associée une page indépendante avec:
- sa référence bibliographique précise et complète
- un lien actif vers l'adresse URL de l'ouvrage si disponible
- des informations sur l'histoire éditoriale de l'ouvrage
- le résumé de l'ouvrage si disponible
- des références de lectures critiques de l'ouvrage parues dans des revues
- une typification dialectale rapide de l'auteur
- des listes d'erratum, notes prises au fil de la lecture
- la liste cliquable des extraits tirés de cet ouvrage si ce site en contient
Une fonctionnalité intéressante vous permet de voir précisément comment un ouvrage est cité sur ce site. Ouvrez la page d'une référence donnée, puis cliquez à gauche de votre écran, dans le cartouche Outils sur pages liées. Vous obtiendrez la liste des pages du site contenant un lien vers cette référence.
approfondir un sujet
Après avoir lu un article, si vous voulez approfondir un sujet, il existe plusieurs options.
- chercher dans l'article les liens cliquables vers des articles associés.
- chercher des références d'ouvrages de description ou de recherche:
- Si un article, une thèse ou un livre a été écrit sur le sujet, il devrait apparaître référencé dans la bibliographie en bas de page. Si ce travail de référencement n'a pas (encore) été fait, vous trouverez toutes les références dans la page de bibliographie générale du centre de ressources, qui se veut exhaustive.
- chercher les pages du site de même type
- Chaque article est associée à des catégories grammaticales. Par exemple, l'article sur kalz 'beaucoup', est associé aux catégories déterminant, adverbe, quantifieur et indéfini. On peut trouver ces catégories en toute fin d'article, en lien en bas de la page.
- Cliquer sur une catégorie vous fournit automatiquement la liste de toutes les pages du site de cette même catégorie.
- laisser des commentaires ou des questions sur la page de discussion associée à chaque article:
- Je réponds aux commentaires et questions. Je corrige le site ou fournis des explications selon les besoins exprimés. La trace de ces échanges nourrit aussi le site par ses discussions.
citer la wikigrammaire ARBRES
Pour citer une page de ce site, je recommande le format suivant:
- Jouitteau, Mélanie. 2009-2023. 'Titre de l'article', ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle, IKER, CNRS, URL de l'article. [date d'accès].
Pour citer la grammaire ARBRES en son ensemble:
- Jouitteau, Mélanie. (éd.). 2009-2023. ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle, IKER, CNRS, http://arbres.iker.cnrs.fr. Licence Creative Commons BY-NC-SA.
Utiliser le centre de ressources
Le centre de ressources a pour vocation de regrouper tout le matériel nécessaire à une recherche. Il est toujours accessible dans la colonne de gauche de votre écran.
On y trouve des outils classiques. On y trouve aussi des outils moins classiques, rendus possible par le choix du numérique ou celui de la science ouverte.
outils classiques
- Cette bibliographie, de volonté exhaustive et tenue à jour, donne les références bibliographiques complètes de la production scientifique et descriptive sur la morphosyntaxe du breton. On peut accéder directement au document si celui-ci est disponible en ligne. On voit facilement quel ouvrage est utilisé sur ce site (ce sont des liens actifs vers leurs fiches de références).
- Les revues spécialisées comme Hor Yezh ou La Bretagne Linguistique ont une page dédiée où toutes leurs parutions sont recensées.
- un glossaire de plus de 250 termes techniques utilisés en grammaire formelle, et sa version en anglais
- Pour connaitre l'équivalent français d'un terme en anglais, il suffit de cliquer sur ce terme en anglais. Le titre de page qui apparaît donne la traduction. À l'inverse, pour connaître l'équivalent anglais ou breton d'un terme en français, on peut se reporter à la partie terminologie des articles.
- une liste des abréviations techniques utilisées, ainsi que les acronymes des corpus anciens et des gloses
quoi de neuf?
Ce site est évolutif, et permet de se tenir au courant de l'actualité de la syntaxe du breton, que ce soit de façon interne ou externe au site.
- J'y recense les appels à conférence, les ouvrages importants publiés dernièrement, l'actualité de la langue bretonne et aussi les derniers travaux effectués sur le site ARBRES.
- Il est aussi possible de suivre l'historique d'une page en particulier, ou de suivre les dernières modifications opérées sur ce site en cliquant sur "modifications récentes".
- une page de liens utiles vers d'autres sites:
- En anglais, breton, français, différents liens permettent d'explorer l'étude du breton ou des langues minoritaires. Y sont aussi répertoriées les ressources électroniques en ou sur le breton.
Ce site est participatif: vous pouvez poster vous-même des informations en page d'actualités, ajouter les nouvelles références en bibliographie, ou enrichir les pages de liens.
trouver des phénomènes d'un dialecte en particulier
Les outils du centre de ressources sont pensés pour faciliter différentes tâches de recherche linguistique.
- trouver les corpus et les références adéquates
- Les ouvrages de la bibliographie générale ont été localisés dialectalement sur une carte de type googlemap. Ceci permet de visualiser la répartition géographique des ouvrages d'étude des différentes variétés du breton.
- Une grammaire propose une règle spéciale pour un dialecte et vous voulez la vérifier ? La carte vous fournit visuellement les références des corpus les plus proches du dit dialecte.
- consulter dans le centre de ressources la liste des auteurs natifs d'un dialecte du breton
- Cette liste permet de savoir quel auteur, et donc quel corpus peut être utilisé pour étudier une variété de langue en particulier.
- consulter dans le centre de ressources la liste de différents corpus utilisables.
- Cela servira à choisir en particulier le type de corpus que vous recherchez (audio transcrit, écrit, glosé, transcrit en API, etc.)
utilisation pour apprendre le breton
Le système des gloses cliquables fait de ARBRES un outil puissant pour l'apprentissage de la langue. Il est possible de surfer d'une page à l'autre en lisant les phrases bretonnes et en cliquant sur la glose d'un élément de phrase dont on veut approfondir l'étude.
utilisation pour enseigner le breton
Il y a de multiples façons d'utiliser le site pour construire du matériel pédagogique. En voici quelques unes:
- Il existe une page dédiée aux désambiguïsations. Elle regroupe une quarantaine de morphèmes ambigus, qui peuvent avoir plusieurs sens. Cette page fait un très bon matériel de quizz.
- des liens vers des cartes spécifiques de l'ALBB sont intégrées dans les articles. Cela rend leur utilisation possible à partir d'entrées bretonnes et permet de construire une présentation sur un sujet donné avec une cartographie.
- Enfin, pour discuter avec un groupe de la science ouverte, et de l'utilité scientifique et sociale des données du breton autour de nous, pourquoi ne pas monter un projet de collaboration à ce site ?
Science ouverte
Ce site ARBRES est une expérience de science ouverte et participative, c'est un site de recherche "à carnet ouvert". J'explique sa philosophie en détail dans Jouitteau (2013b).
accès ouvert
La recherche en accès ouvert est une recherche dont les résultats sont consultables. La grammaire du breton de ce site est librement accessible, et les liens vers les ouvrages utiles disponibles sur le web y sont regroupés. Certains articles sont disponibles directement depuis le site.
recherche en direct
La recherche, c'est avant tout une démarche accessible à tout.e.s: une méthodologie. Ici, vous pouvez voir la recherche se faire, se corriger, discuter, établir de nouvelles hypothèses et recommencer.
- La traçabilité de ce travail est complète. À chaque page, est associée un historique où vous pouvez voir en direct comment cet ouvrage se crée, comment de nouvelles données ou de nouveaux travaux changent nos hypothèses sur la langue.
- Les résultats bruts d'élicitations avec des locuteurs natifs sont disponibles dans la centrale d'élicitations.
science citoyenne
L'objet de la science ne doit jamais être réduit à un travail citoyen, car la science a ses propres buts internes qui sont légitimes. Cependant, quand la science peut prendre cette dimension citoyenne en poursuivant ses propres buts, pourquoi s'en priver ? Quelques exemples.
- L'organisation de la Redadeg 2014 a demandé la traduction de Je parle breton, et toi ? dans différentes langues. En quelques jours, des linguistes du monde entier ont participé avec bonheur à nourrir la page I speak Breton, what about you ?, réunissant les traductions de cette phrase en 77 langues différentes. 1695 brittophones ont posté en ligne des autoportraits avec ces phrases en soutien à la redadeg.
- Certains débats sociétaux se passent dans les colères par manque d'informations vérifiables, par manque de connaissance des variétés réelles, et par accumulation d'imprécisions. Le site développe des articles de discussions linguistiques qui fournissent des éléments concrets d'analyse sur ces débats qui traversent la société. Le format numérique de ces articles les rend directement partageables sur les réseaux sociaux, en format ouvert à une discussion de teneur scientifique.
science 2.0, approcher le lectorat
crowdsourcing passif, fréquentation et observation des usages
Ce site est aussi couplé avec des outils statistiques internes et avec l'outil google analytics, ce qui permet d'avoir une idée statistique assez précise de la façon dont il est utilisé, et de perfectionner l'outil suivant les usages observés.
Ces données, anonymes, du contenu d'une cinquantaine de visites humaines par jour environ début 2015, montrent une fréquentation doublée en 2023.
Sur les quatre années (2017-2021), l'ouvrage a été ouvert par 130 000 utilisateurs qui ont visionné 165 468 pages. Parmi les utilisateurs, 285 sont revenus plus de 5 fois et 579 plus de trois fois. La durée moyenne des sessions a été de 2 minutes.
Il existe manifestement un lectorat dont l'intérêt premier est la linguistique formelle plutôt que la description du breton. En novembre 2021, les requêtes web qui ont le plus amené sur ARBRES sont les mots clef: structure syntaxique (59), morphème libre et lié (20), construction syntaxique (19), verbe factif (17), verbes factifs 16), complémenteur (14), grammaire bretonne (13), morphème zéro (12), déictique[!] spatiaux (11) et verbe ditransitif (10).
crowdsourcing actif
La technologie wiki permet une collaboration cumulative (un ensemble de petits apports peut devenir signifiant sur une bonne infrastructure) et une collaboration distributive (les tâches peuvent être très différenciées).
Ce site vous pose la question de votre place dans le processus. Vous pouvez aider le projet à différents niveaux. Le ferez-vous?
utiliser le site pour le traitement automatique
Le traitement automatique du langage (TAL) nécessite des corpus, et le présent site en est un, puisque sa banque de donnée rassemble des milliers de phrases traduites, et glosées. Un exemple d'extraction des données de la wikigrammaire ARBRES (Jouitteau 2009-) est Breton treebank II mené par l'équipe de l'ANR Autogramm, qui vise à constituer un corpus annoté Universal Dependencies (De Marneffe & al. 2021, Nivre & al. 2020).
Sous cet angle d'utilisation en TAL, il est important de typifier les données qu'on y trouve.
quel type de corpus fournit ARBRES ?
Les données de la wikigrammaire ARBRES ont été rassemblées et annotées par une chercheuse en linguistique. Il s'agit de données collectées pour construire une recherche fondamentale en linguistique formelle. En ce sens, les données sont celles d'un carnet de recherche. Les données ont ensuite été organisées et considérablement augmentées dans le but de créer une grammaire descriptive, utilisable sous sa forme en ligne par la communauté parlante. Le but est donc double : produire une description de la langue dans sa diversité, sa complexité et ses régularités, et fournir des données neuves pertinentes pour les débats de la recherche fondamentale en linguistique générative.
Dans le corpus que cela constitue, on trouve des données de corpus libre, extraites d'interviews orales ou de produits culturels divers (articles de journaux, romans, chants, poèmes, recueils d'expressions populaires, tracts politiques, sites de présentation de mairies, posts sur les réseaux sociaux, etc.). Il contient les phrases un peu artificielles typiques des grammaires, mais elles sont mises en minorité nette par d'autres plus naturelles, de structure informationnelle variée. Le copyright sur ces sources est respecté dans la mesure où un pourcentage modeste de leurs phrases est cité de façon isolée, et diffusée sous une forme d'analyse grammaticalement enrichie. On y trouve aussi des données d'élicitation, recueillies sur le terrain à des fins de description linguistique. La linguiste a alors soumis des locuteurs natifs à un protocole de questions, de traductions, de tâches descriptives d'images, ou de tâches de jugements de grammaticalité de phrases qui leur sont proposées. Le copyright sur ces sources est respecté dans la mesure où les locuteurs fournissent un consentement éclairé sur la diffusion des résultats des enquêtes, ou le cas échéant sur la diffusion en ligne de leur parole.
La présence de données d'élicitation signifie la présence de données signalées comme agrammaticales. Pour s'assurer qu'un fait précis est la clef de l'acceptabilité d'une forme, les linguistes formels établissent des paires minimales. Ces paires varient minimalement. La première forme est grammaticale, l'autre agrammaticale. Pour comprendre les différences dialectales, il est aussi important de savoir jusqu'où dans l'espace une forme donnée va être comprise, ou acceptée. Au-delà de la frontière dialectale d'un fait linguistique donné, les locuteurs signalent ses formes comme agrammaticales. On obtient alors des paires minimales { dialecte A, forme OK / dialecte B, forme agrammaticale }. Les paires minimales renseignées dans ARBRES peuvent être rassemblées pour former soit des sets d'entrainement, soit des sets d'évaluation de modèles. Dans le cadre des sets d'entrainement pour la traduction jusqu'ici, les données agrammaticales n'ont pas été exploitées. Seule la partie grammaticale de la paire a rejoint le corpus.
La présence de données de corpus écrit du XXe signifie, dans le cas du breton, la présence de plusieurs orthographes concurrentielles. Les données sources n'ont pas été modifiées, et les exemples apparaissent dans leur orthographe d'impression originale. Cependant, il est possible de connecter chaque forme à son équivalent en orthographe standard. Chaque mot des phrases est glosé (traduit comme si trouvé en isolation). Cette glose est cliquable pour l'utilisateur de l'interface. Son adresse de redirection est l'orthographe de sa forme standard. La multiplicité des orthographes présentes, alliée au liage systématique de chaque occurrence à son lemma standard, laisse espérer que cet angle d'augmentation de la diversité des données ne s'opère pas au détriment de leur consistance. Ce système de redirections des tokens vers leurs lemmas respectifs permet également de relier les différentes formes des mots de cette langue celtique, qui non seulement montrent des flexions par suffixation, mais aussi des modifications de la consonne initiale selon les contextes syntaxiques où ils apparaissent (mutations consonantiques). Le lemma krokodil peut ainsi être automatiquement lié à ses occurrences dans krokodil Maia 'le crocodile de Maia', ar c'hrokodil 'le crocodile', ar c'hrokodiled 'les crocodiles', war grokodileta 'sur le point de chercher des crocodiles'. Dans le wiki, toutes ces occurrences pointent vers la même page dédiée au lemma krokodil. Cette page étant catégorisée comme une page concernant un nom, sa catégorie grammaticale est aussi récupérable automatiquement. Pour une description détaillée des annotations grammaticales récupérables, voir Jouitteau & Bideault (2023) et les détails du projet d'extraction de données par AUTOGRAMM Breton treebank II.
L'ensemble du corpus favorise la diversité dialectale puisqu'il s'agit d'une grammaire des dialectes. Il s'agit d'une grammaire descriptive, et non d'une grammaire prescriptive. Le breton standard y est traité comme un dialecte parmi les autres. Le spectre dialectal est donc assez large. Le dialecte vannetais est spécifiquement sous-représenté, avec un déficit relatif de données dans ce dialecte qui est aussi linguistiquement le plus éloigné des autres. Son analyse demande une expertise où la rédactrice principale est parfois défaillante, et en conséquence moins de données représentent ce dialecte. Mis à part cette carence particulière en dialecte vannetais, on peut considérer que quantitativement, les faits dialectaux rares sont surreprésentés dans les données. Les faits linguistiques très fréquents dans la langue seront illustrés une fois pour chaque dialecte majeur, mais pas au-delà. Au contraire, pour pouvoir décrire précisément un fait rare, sa répartition dialectale et ses paramètres d'apparition, ses exemples seront renseignés pour chaque occurrence rencontrée en corpus. Les faits rares font aussi plus l'objet de recherches thématiques en élicitation, ce qui aboutit à plus de renseignement de leurs données. Dans le même but descriptif de la variation les formes de styles différents vont co-exister à l'intérieur du corpus, avec une sur-représentation quantitative de cette variation par rapport à n'importe quel corpus unique. En ce sens, le corpus de ARBRES est mauvais pour les études quantitatives, mais offre pour les entrainements automatiques un concentré de diversité grammaticale.
Rassembler ces données est coûteux en ce que cela nécessite une ou des personnes formées sur la langue avec une souplesse dialectale minimale, une surface sociale propre à atteindre des locuteurs de profils linguistiques différents, qui trouvent un avantage non monétaire à passer un protocole linguistique. Ce travail représente un temps long de codage des exemples et de leur présentation adéquate dans la grammaire pour un lectorat humain. Il nécessite un support technique pour la conception et l'entretien général du site et de ses montées en version, et la surveillance technique de son accessibilité sur écran. Cependant, l'ensemble de ces ressources nécessaires existent en dehors du champ du TAL. À l'échelle d'une communauté, l'investissement peut être entièrement motivé par des buts internes. La banque de données construit incrémentalement une ressource pédagogique ou scientifique sous une forme adaptée à son public. À l'échelle de petites communautés de langues, cela évite de monopoliser des experts pour créer des banques de données qui ne seraient pas consultables ou utilisables par le grand public. Le développement de wikigrammaires est particulièrement recommandable pour la construction de ressources de projets pilotes sur les langues à corpus restreint, car si le champ informatique faillit à fournir des outils finalisés pour les locuteurs, l'investissement restera bénéfique pour la communauté parlante, qui peut réellement continuer à l'améliorer pour elle-même. En terme de ressources humaines, les linguistes descriptifs et formels se donnent justement pour tâche de produire du matériel d'analyse des langues. Elles et ils sont généralement peu nombreux sur les langues à corpus restreint, mais ont souvent des profils très engagés vis-à-vis de leur domaine empirique et des locuteurs qui le produisent, avec une connaissance culturelle fine des interactions avec eux. La solution wiki, quant à elle, est directement conçue pour la collaboration à grande échelle de contributeurs potentiellement isolés, ce qui est particulièrement adapté aux langues minorisées.
Bibliographie
- Jouitteau, Mélanie. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte.
- Jouitteau, Mélanie & Reun Bideault. 2023. 'Outils numériques et traitement automatique du breton', Annie Rialland, Michela Russo (dir.), Langues régionales de France: nouvelles approches, nouvelles méthodologies, revitalisation, Éditions de la Société de Linguistique de Paris, 37-74. texte.