Traitement automatique des langues - Breton

De Arbres

Le traitement automatique des langues (TAL) concerne tout le champ de traitement des langues par le biais d'instruments automatiques, que ce soit la parole écrite ou non.

Le traitement automatique de la parole concerne précisément le traitement automatique des réalisations orales ou signées dans le cas des langues signées. Ce champ comprend les systèmes de synthèse vocale.

Dans ses développements les plus avancés, le traitement automatique des langues utilise l'intelligence artificielle et les techniques de réalité augmentée, tant pour les outils de traduction automatique que pour les assistants virtuels ou la construction d'outils de pédagogie linguistique (pour une prospective et un état des lieux, voir Sayers & al. 2021). Les outils émergents pour les langues économiquement favorisées se nourrissent de masses importantes de données qui ne sont pas disponibles pour les langues comme le breton mais ces outils sont en évolution constante vers des possibilités de développement à partir de corpus plus restreints (cf. Silfverberg & Tyers 2019). Tout retard se paye cependant lourdement car dans ce domaine, le développement nourrit le développement.

L'extinction digitale menace la plupart des langues à corpus restreint et l'enjeu pour ces langues, dont le breton, est de survie dans les usages aux vingt prochaines années. Le TAL sur la langue bretonne est objectivement peu développé à ce jour (Tyers & Ravishankar 2018), mais il existe des outils finalisés précieux et un potentiel réel. Cet article dresse un inventaire de l'existant, forcément perfectible, et mentionne en seconde partie quelques pistes et potentiels, en se concentrant sur les outils du traitement automatique des langues et les ressources à son développement. Le domaine des applications web ne s'y trouvent mentionnés qu'à la marge. L'état des lieux ci-dessous respecte l'ordre ternaire de développement ressources > outils informatiques > applications. Les ressources sont constituées par tous les corpus numériques disponibles en accès libre dans une langue. Les outils informatiques sont développés à partir de ces corpus. Ils servent aux informaticien.ne.s à créer finalement les applications qui servent aux locuteurs. Je ne rends pas compte ici des études sociologiques des usages numériques. Ces dernières ne peuvent pas rendre compte du devéloppement TAL puisque, par définition, elles ne s'occupent que des applications existantes, déjà finalisées pour les utilisateurs.

Pour cet article, Mélanie Jouitteau (IKER, CNRS) a interviewé les chercheurs de l'IRISA Damien Lolive (3h) et Annie Foret (2h) en novembre et décembre 2021, et collaboré avec le développeur web Reun Bideault. Qu'ils soient remerciés ici du temps qu'ils y ont consacré. Cette synthèse est alimentée par ailleurs des synthèses du développement TAL pour le breton auparavant publiées: Aubry (2004), Mermet (2006), Foret & al. (2015), Tyers & Howell (2021:437-438), et pour les traductions de logiciels, Kerbrat (2021a,b).


Ressources de corpus disponibles

Un corpus disponible pour le TAL est sous format numérique et libre de droits. La langue bretonne n'est pas une langue minorisée pour laquelle manquent les corpus en général, mais peu sont réellement immédiatement accessibles pour des traitements automatiques de la langue (éditions épuisées, copyrights restrictifs, documents non-OCR, corpus numériques à URLs non-stables, editions papier non-numérisées, ronéotés, manuscrits, etc.).

Un corpus disponible pour le développement TAL signifie aussi que ce corpus est repérable automatiquement sur la toile. En mai 2022, l'ACL (Association for Computational Linguistics) repérait trois ressources logicielles pour le breton. Le catalogue LDC (Linguistic Data Consortium) n'a repéré aucune ressource pour le breton. Une fois que ces corpus existent, il est donc essentiel de travailler sur leur repérabilité à l'international.

Ci-dessous, sont listées les ressources à-priori disponibles, ou déjà utilisées en TAL. Pour explorer les potentiels non-encore exploitables, regardez la liste des corpus tournés vers l'apprentissage humain dans la page corpus de ce site. Les dictionnaires et ouvrages disponibles en ligne mais sous copyright propriétaire ne sont pas utilisables en TAL. Vous les trouverez dans les applications numériques.


corpus de données brutes

Les corpus de données brutes ne sont pas annotés ni même traduits. Ce sont des textes monolingues utilisables car en accès libre, sans copyright propriétaire attaché. Plus une langue est disponible sous forme de corpus de données brutes, plus le développement d'outils TAL est aisé.


Thierry Poibeau signale 23 Mo de données brutes de texte en breton, sans annotations, dans le corpus Oscar, qui sert actuellement pour mettre au point des modèles pour le TAL par modèles neuronaux (type Bert).

  • Wikipedia en breton constitue un corpus de données brutes. Son utilisation devrait cependant être faite avec des brittophones à même de jauger si les pages sont rédigées dans une des variétés existantes.
  • L'université de Rennes a quelques écrits universitaires en ligne, avec signalement des écrits en open access.
  • TES a mis en ligne quelques documents pédagogiques à destination des enseignants de collège.

corpus parallèles, corpus alignés

Les corpus parallèles, dits aussi corpus alignés, sont constitués de corpus qui ont une traduction dans au moins une autre langue.

Il existe pour le breton quelques corpus parallèles bilingues et multilingues :

  • OPUS contient plus de 400,000 paires de phrases provenant de WikiMatrix, MultiCCAligned, GNOME, OfisPublik, KDE4, Mozilla, wikimedia, QED v2.0a, XLEnt, OpenSubtitles, Tatoeba, Ubuntu v14.10. Selon Sánchez-Cartagena & al. (2020), la plupart des phrases y sont spécialisées en informatique.
  • Les archives de traduction de l'Office constituent un corpus bilingue. Le corpus de traductions de l'OPLB, corpus de phrases en breton, et corpus de phrases en français, sont téléchargeables et libres de droit.
Ce corpus parallèle est évolutif au fur et à mesure des travaux de traduction de l'Office du français au breton. Il concerne principalement le breton standard, et un breton plutôt administratif et de discours politique. Ce corpus a été utilisé dès la création du premier traducteur automatique (Tyers 2009). Ar Mogn (2015:15m40s), co-directeur de l'Office, mentionne un corpus de 43000 phrases bretonnes traduites. Le compte-rendu d'activité de l'OPAB 2020 publié en 2022 mentionne 100 000 phrases alignées. Kerbrat (2021a,b) estime ce corpus à "environ 1 million de mots". Quelques centaines de phrases de ce corpus aligné sont utilisées dans le corpus annoté UD Breton KEB de Tyers & Ravishankar (2018).
  • la wikigrammaire ARBRES des dialectes du breton (Jouitteau 2009-) organise plus de 25000 phrases de breton dialectal, dont le breton standard, traduites en français.
  • David Ar Rouz. 2013. 'Traduisons encore et encore !', An Dasson, 17-38. texte
  • les corrigés d'épreuves de traductions des concours du CAPES et de l'AGREG


D'autres corpus parallèles sont sous copyright, comme les traductions du Petit Prince de Saint-Exupéry.

dictionnaires libres

Les dictionnaires disponibles pour le développement TAL sont accessibles et libres de droits. Si ils ont aussi une interface qui les rend utilisables pour des humains, ils constituent aussi des applications disponibles pour les locuteurs et les apprenants. Si ils ont ce lectorat humains mais ne sont pas libres de droits, ce sont des applications numériques qui ne sont pas des ressources de développement TAL.

Le dictionnaire breton-néerlandais de Jan Deloof comporte 40,000 entrées. Kevin Donnelly, qui a géré la mise en interface ici, considère qu'il s'agit du plus grand dictionnaire libre (GPL) pour une langue celtique (Donnelly 2010).

Le dictionnaire de Henry (1900), libre de droits, a été reversé dans wikisource, puis dans wikidata lexèmes.

Depuis 2019, Nicolas Vigneron développe wikidata lexèmes (voir par exemple les lexèmes gwez ou Meurzh). Le dictionnaire de Henry (1900) lui a fourni dans les 4000 lexèmes.

Le dictionnaire Freelang fr <-> br (disponible en ligne ou téléchargeable) de Tomaz Jacquet comporte 37.800 entrées. Tyers (2009) en a importé semi-automatiquement les classes lexicales.

La wikigrammaire ARBRES Jouitteau (2009-) utilise des listes de noms, de verbes, d'adjectifs, d'adverbes etc, classés par catégories.

Le dictionnaire multilingue de wikipedia, wiktionnary, comprend le breton avec wikeriadur.

Le dictionnaire br -> fr de Cornillet (2017) a été disponible en ligne. Il a été utilisé pour la synthèse de la parole, ce qui suggère une licence libre (?).

La base de données toponymique KerOfis de l'OPLB liste les noms propres des noms de lieux. Les fichiers CSV sont téléchargeables et libres de droits.

Le dictionnaire terminologique Termofis de l'OPLB.

Le dictionnaire multilingue Logos comprend le breton. C'est un site collaboratif de traducteurs professionnels sur invitation.

pour étendre cette liste de ressources et travailler sur les potentiels d'ouverture de copyright, se reporter aux dictionnaires numériques accessibles en lecture.


corpus de fichiers sonores

Il existe différents sites de collecte de données brutes, par des universités (Irisa à Lannion) ou par des collectifs associatifs à la durée de vie variable. Ces derniers n'en sont pas pour autant négligeables et constituent des travaux considérables, avec traductions des données dialectales ou explicitation en standard. À ma connaissance, il n'existe aucune aide organisée à ces travaux pionniers, même pour l'hébergement et la conservation à long terme des données.

  • Lingua libre, la médiathèque linguistique participative de Wikimédia France, a une entrée dédiée au breton. L'outil record wizard permet à l'utilisatrice d'enregistrer des mots proposés librement. L'outil permet d'enrichir ainsi une bibliothèque sonore pour les noms communs, mais aussi les noms propres dont les noms de lieux tels que prononcés par les personnes du lieu.
  • Les fichiers audio des enquêtes du Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001) devraient pouvoir être au moins partiellement utilisées, mais cela demanderait un tri méticuleux. L'utilisabilité de ces derniers corpus serait à vérifier au cas par cas, car il s'agit de séances d'élicitation de mots isolés de vocabulaire à partir de gestes produits par le chercheur, et qui sont donc par définitions absents de l'enregistrement. Sur l'enregistrement de Bourg-Blanc ici, la locutrice répond la plupart du temps par un mot isolé, et son intonation est souvent celle, interrogative, de la locutrice qui demande si sa réponse est satisfaisante.

Les enregistrements audio de corpus libres existent dans les différents dialectes du breton, stockés dans les archives des différentes radios et télés bretonnes, sous des formats différents allant de l'analogique au numérique. Il existe différentes initiatives privées d'alignement de corpus audio, mais la question de l'ouverture des droits empêche leur distribuabilité publique, et donc leur utilisation pour le développement. Côté public, le corpus massif utilisé par l'Irisa pour la synthèse de la parole n'est pas non plus encore accessible en ligne.

autres corpus existants, accès et estimations à vérifier

  • L'association An Drouizig revendique pour la construction de son correcteur orthographique Difazier [ver 4.4] l'analyse d'un corpus linguistique de 20 millions de mots bretons.
  • Leixa & al. (2014) ont essayé de recenser les corpus utilisables en TAL pour plusieurs langues minoritaires de l'État français. L'approche est un brin parachutée. Ils comptent pour le breton 420 corpus utilisables, dont 403 corpus oraux et 17 corpus textes. "On trouve parmi ces ressources de petits enregistrements audio de quelques minutes, mais également d'importants corpus alignés pouvant servir de base à des technologies de la langue. Parmi les ressources audio, nous avons par exemple les enregistrements effectués par M. Jean Le Dû lors d'une enquête dialectologique réalisée en Bretagne, en vue de constituer le Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001). L'identification précise de l'ensemble des corpus listés dans Leixa & al. (2014) "est disponible sur le CD qui est joint au rapport" à la DGLFLF.


corpus richement annotés

Les corpus richement annotés sont ceux qui contiennent beaucoup d'information méta sur les phrases. Les phrases sont traduites globalement comme dans un coprus aligné, mais elles sont aussi traduites mots-à-mots (cette traduction mot-à-mot est appelée une glose). La glose contient des informations sur l'élément linguistique en question (catégorie grammaticale, fonction, mutation déclenchée, etc.). Le corpus peut aussi contenir des informations sur les relations des mots entre eux (les relations verbe-sujet, les coréférences pronominales) et sur la structure syntaxique de la phrase. Comme la représentation syntaxique des phrases a vaguement la forme d'un arbre, on parle alors de banques d'arbres.

Les corpus annotés en ligne suivent des grands systèmes d'annotation reconnus au niveau international, comme celui de U.Penn, développé par Ann Taylor et Tony Kroch. Ces notations reconnues internationalement sont indispensables pour que des outils développés pour des grandes langues soient exploités pour des plus petites.


banques d'arbres Universal Dependencies

En 2022, la notation universelle reconnue pour le développement des outils TAL est Universal Dependencies ("format UD") (De Marneffe & al. 2021). Cette norme organise les phrases en banques d'arbres syntaxiques, c'est-à-dire des phrases dont on a analysé la structure syntaxique.

Certains de ses choix fondamentaux comme de subordonner les catégories fonctionnelles aux catégories lexicales ne sont pas soutenus linguistiquement, mais la conversion de structures UD à des structures syntaxiques en constituants est automatisable en grande partie (Osborne & Gerdes 2019). UD propose un jeu d'une douzaine de parties du discours (parts of speech, POS) et deux douzaines de fonctions grammaticales.


banque d'arbres UD de Tyers & Ravishankar (2018)

Tyers & Ravishankar (2018) ont constitué pour le breton le premier corpus sous forme de banque d'arbres. Ce corpus tree-bank breton hébergé sur GitHub annoté manuellement de 10 000 tokens. L'annotation suit les recommandations de Universal Depedencies. L'analyseur morphologique de Tyers (2009) pour Apertium a été utilisé pour la tokenisation et l'annotation morphologique. Le texte du corpus consiste en 888 phrases provenant d'exemples de grammaires, de phrases tirées de wikipedia en breton, de textes administratifs de l'Office et de textes du journal Bremaik, avec deux chansons traditionnelles. La composition est détaillée dans Tyers & Howell (2021:450).

Cette banque d'arbres a d'ores et déjà servi à une expérimentation pour la construction de grammaires de dépendances afin de construire un outil de lecture augmentée (Martinet 2021).

corpus annoté traduit de la grammaire formelle ARBRES

Le présent site ARBRES Jouitteau (2009-) est sous licence creative commons CC BY-NC-SA. Il comporte une masse importante de données du breton localisées par leur dialecte, traduites mais aussi glosées mot à mot. Fin 2021, le site contient plus de 75 000 tableaux de type "prettytable" qui ont servi à aligner chaque mot breton avec sa glose en français, et l'ensemble avec une traduction globale de la donnée en français et une typification dialectale du locuteur source. J'estime qu'en moyenne chaque phrase originale a été employée trois fois dans des endroits différents de la grammaire, ce qui donne une estimation de 25 000 phrases originales en breton, annotées traduites.

La wikigrammaire utilise des exemples tirés de plus de mille ouvrages de recherche scientifique sur le breton, des données de séances d'élicitation avec des locuteurs natifs effectuées par Mélanie Jouitteau, à son initiative ou à la demande d'autres linguistes, et dont les résultats bruts sont disponibles en ligne dans la centrale d'élicitation avant exploitation, ainsi que de 399 sources de corpus écrits différents, du vieux breton aux dialectes bretons modernes, breton standard y compris. Les dialectes y sont mentionnés comme tels, et la typification dialectale est associée à chaque donnée, donc il serait possible pour un traitement automatique de mettre de côté les états anciens de la langue, et les quelques données comparatives tirées de langues autres (hébreu, basque, occitan, etc.). Les données de la wikigrammaire ont servi à l'établissement d'une grammaire descriptive, donc elles ont été sélectionnées pour représenter la plus grande variété possible de structures syntaxiques. La graphie est riche car l'orthographe des sources diverses a été respectée - les gloses, elles, sont en orthographe peurunvan (unifiée). Certaines données, plutôt rares à l'échelle du corpus, comportent en plus une ligne de code donnant la tokenisation de la donnée en API, ou dans des orthographes originales renseignant la prononciation. Ces scripts peuvent être mis de côté car ils sont signalés par une balise de mise en couleur verte ( < (/) font color=green >). Les traductions en français viennent soit de corpus déjà bilingues, soit sont effectuées par Mélanie Jouitteau (native français, breton L2).

Il existe un projet de conversion de la base de données en un corpus UD, ébauché dans Jouitteau & Bideault (à venir) qui notent que le codage UD du breton treebank I Breton KEB ressemble sur bien des points au code de ARBRES. Cette conversion est tentée depuis début 2022 par un projet pilote de l'équipe de l'ANR Autogramm en collaboration avec Mélanie Jouitteau. La synthèse à jour de la mise en place de cette conversion est documentée sur la page Breton treebank II.

Les données de ARBRES ont contribué à la marge à la construction du conjugateur de verbes bretons (displeger verboù brezhonek).

Outils informatiques pour le développement TAL

outils de parole écrite

matériel lexical pour les interfaces des applications

L'Office Public de la Langue Bretonne fournit la traduction en breton des données du CLDR (Common Locale Data Repository) d'Unicode, qui regroupe l'ensemble des paramètres régionaux à destination des applications informatiques. Lors de la publication de la version 38 du CLDR fin 2020, Kerbrat (2021a,b) estime que le breton a atteint l'avant-dernier niveau de couverture (Moderate++). Tomaz Jacquet rend disponible en ligne sous différents formats un dictionnaire trilingue breton, français anglais du vocabulaire utilisé dans les logiciels.


dictionnaire

Le dictionnaire breton-français d' Apertium (Tyers & al. 2011) est sous license GPL-2. Il a aussi été converti en version Ontolex-lemon et TIAD (Chiarcos & Ionov 2020).


analyseur morphologique

Le premier analyseur morphologique du breton a été construit par Tyers (2009) pour Apertium (Tyers & al. 2011). Il est sous licence GPL-2.

Tyers & Howell (2021) évaluent les résultats de l'analyseur morphologique couplé avec un désambiguïsateur morphologique basé sur une grammaire de contraintes. Ces deux outils sont disponibles en logiciel open-source du projet Apertium (GNU GPL 3.0). L'analyseur consiste en un transducteur à états finis qui gère l'interface entre les formes de surface et les formes lexicales (les tags morphosyntaxiques et leurs lemmas). Il permet l'analyse de formes comme leur production. Les homophones sont départagés par un ensemble de règles de désambiguïsations morphologiques basé sur une grammaire de contraintes qui a été développée à partir de corrections des traductions automatisées par un locuteur [Fulup Jakez remercié en note ?] et Francis Tyers.


détecteur automatique de la langue

Foret (2018b) relève une méthode pour les langues celtiques dans Minocha & Tyers (2014) et cite deux détecteurs accessibles qui gèrent le breton: open.xerox.com et G2LI.

Le détecteur de langues de FastText élaboré par Joulin et al. (2016a, 2016b) inclut le Breton parmi les 157 langues traitées.

grammaire de contraintes

  • Apertium

traducteur

Le premier traducteur br > fr, Apertium, a été développé par Francis Tyers, Ofis ar Brezhoneg, la compagnie espagnole Prompsit Language Engineering, et l'université d'Alicante sur la plate-forme RBMT (Forcada & al., 2011). Le traducteur est accessible sur le site de l'Office. Il s'appuie au départ sur les dictionnaires libres regroupés par Lexilogos.

  • Apertium


Sánchez-Cartagena & al. (2020) ont étudié la qualité d'un système hybride de traduction automatique entre le breton et le français, qui utilise à la fois un système neuronal et un système basé sur des règles. En dépit du fait que le système basé sur des règles a des performances jugées pauvres, sa combinaison avec le système neuronal a amélioré la qualité globale des résultats obtenus.

Loic Grobol (Modyco) fait fin 2022 les premiers essais de développement de traducteur br <> fr à partir d'un traducteur multilingue entrainé sur le corpus de l'Ofis, un corpus rassemblé par OSCAR (Open Super-large Crawled Aggregated coRpus), et celui que l'ANR autogramm a extrait de la wikigrammaire ARBRES.

outils de parole orale

Les outils de parole orale comprennent deux pans, la synthèse vocale qui permet à un non-humain de produire des sons de la langue à partir d'un écrit, et la reconnaissance vocale qui permet de reconnaître la parole humaine et de la transcrire. Les deux systèmes sont indépendants et indispensables au développement d'assistants virtuels qui produisent un "dialogue" oral entre un humain et une machine.


synthèse vocale

La Région Bretagne à travers l'Office Public de la Langue Bretonne, a financé à hauteur de presque 200.000 euros la construction d'un moteur de synthèse de la parole (breton KLT standard, un homme, une femme). Le projet était dirigé en TAL par Damien Lolive et Gwénolé Lecorvé de l'ENSSAT du laboratoire Expression à Lannion en collaboration avec la maison d'édition Skol Vreizh. Il a été et livré à l'Office en mars 2021.

Les deux locuteurs qui ont prêté leur voix ont été élevés en milieu brittophone trégorrois, à tendance plus standard pour Annaig Kervella (fille de Frañsez Kervella), et plus traditionnelle pour Pascal Lintanf (avec influences léonardes pour ce dernier). Chacun des deux corpus oraux produits durent un peu plus de 20h, ils ont été constitués par tâche de lecture d'un corpus de breton standard constitué principalement de discours journalistique, et aussi de textes littéraires (environ 10% sont des dialogues, joués avec expressivité modérée). Le corpus écrit correspondant a été normalisé (écriture en lettres des nombres et acronymes, prononciation différenciée des noms propres, etc.) puis, un panel d'experts choisi par Skol Vreizh et principalement le second locuteur Pascal Lintanf (cf. An Intanv 1994) ont constitué un répertoire de règles de prononciation. Un lexique donnant une prononciation standard accentuée en API a été constitué par arbitrage entre plusieurs sources de lexiques phonétisés et écrits en orthographe unifiée : le dictionnaire An Here de Menard & Kadored (2001), le dictionnaire de Francis Francis Favereau (2015) et des bases de données consultables en ligne de Francis Favereau et de Gérard Cornillet (2017). D'autres données y ont été intégrées comme celles des noms propres, fournies par l'OPLB, et celles rencontrées dans les corpus constitués. Pour dix mois, Gaëlle Vidal, ingénieure d'études, a défini et enregistré un corpus de textes, sélectionné les locuteurs, et procédé aux enregistrements et à leur découpage en phrases. Hassan Hajipoor, ingénieur de recherche, a ensuite eu 18 mois (dont un confinement) pour construire un phonétiseur, comprenant un modèle de la syllabe et de l'accentuation qui a pu être paramétrisé pour les exceptions, et entraîner un réseau de neurones sur le corpus oral et le dictionnaire. Le système en end-to-end livre le fichier son à partir de la phrase écrite. La technique ne permet pas de prendre en charge la structure informationnelle et la prosodie associée, mais l'accentuation de mot et les phénomènes de frontière de mot comme la mutation ou le sandhi sont pris en charge (Guennec & al. 2022). En 2022, l'équipe étend son corpus oral aux autres dialectes du KLT.

les années pionnières de la synthèse vocale

La première vague de réalisations pour la synthèse vocale du breton occupe les années 1990 et le tout début des années 2000. Une génération de chercheurs universitaires s'attaque coup sur coup à la synthèse de la voix et aux applications accessibles à l'époque, avec une effervescence dont témoigne la diversité soudaine de rapports de stage à l'ENSSAT. Il existe des synthèses récapitulatives de ce que l'on peut appeler ce mouvement dans Aubry (2004), Mermet (2006) et Mercier (2018). Les organes de presse locaux gardent aussi parfois en archive les articles qui sortent à livraison des outils.


 Aubry (2004:13):
 "En 1994, le responsable des collections T.E.S. (Ti Embann ar Skolioù Brezhonek, maison d'édition pour les écoles bretonnes), R. Le Coadic, des personnes de Skol Vreizh, des enseignants linguistes (université de Rennes II et de Lampeter au pays de Galles), des chercheurs de l'I.R.I.S.A. (Institut de recherches en Informatique et Systèmes Aléatoires), enseignants à l'ENSSAT et des ingénieurs d'Alcatel et du C.N.E.T. (France Télécom), ayant travaillé dans le domaine du traitement du signal, de la parole ou dans l'informatique s'unissent pour former un groupe de travail informel. Ce groupe de travail se réunissant tous les mois essaie de faire le point sur l'état des différentes technologies de l'époque et sur les besoins pédagogiques des enseignants et des élèves des différentes filières de l'éducation (Diwan, écoles bilingues du public et du privé) enseignant le breton et en breton.
 En 1995, T.E.S., l'I.R.I.S.A., l'université de Rennes II, Skol Vreizh et les membres du groupe de travail décident de coopérer pour développer de nouveaux outils pédagogiques intégrant les technologies de l'information et les technologies vocales afin de tirer le meilleur parti de la rapidité, de la fiabilité et de la robustesse des techniques de traitement de la parole (analyse, synthèse, reconnaissance, visualisation) et pour lancer le projet K.G.B. (Kenaoz ar Gomz e Brezhoneg, synthèse de la parole en breton) dans le cadre du projet CORDIAL de l'IRISA."
 Mermet (2006:23-25) détaille les travaux :
 "De 1990 à 1998 se met en place les différents outils qui vont permettre la synthèse vocale de la langue bretonne. Successivement on note la transcription des graphèmes en phonèmes (Paskal An Intanv 1994, Jean Luc Tromparent 1995) qui débouche en 1996, sur la synthèse de quelques phrases en breton par Herve Gourmelon, puis l'enregistrement oral d'un corpus prononcé par la chanteuse Annie Ebrel et numérisé à l'ENSSAT par SOKOL.
 Le corpus est ensuite segmenté en phonèmes et diphones avec inclusion des marques de pitch. Toujours en 1996, est réalisé un travail de standardisation du corpus à l'école polytechnique de MONS en Belgique à l'aide du programme MBROLA.
 Le travail se poursuit en 1997 par la mise en place d'une base de diphone, par le passage de la norme API (Alphabet Phonétique International) à la forme Sampa utilisée par le synthétiseur MBROLA, par l'inclusion de marques prosodiques calculées à partir de la durée des phonèmes et de valeur de la hauteur des consonnes voisées.
 L'effort se poursuit la même année par la transcription des fichiers du dictionnaire de F. Favereau (1992) du format Word 2 au format RTF Rich Text Format (H. Gourmelon, J.P. Messager), l'identification des champs (stagiaires), le développement d'un programme de lecture du dictionnaire de Francis Favereau (X. Madigou avec l'ENSSAT), la modélisation des premiers schémas prosodiques (Herve Gourmelon). Le travail est finalisé par l'intégration du moteur de synthèse MBROLA au dictionnaire qui sera donc édité sous la forme d'un cédérom en 1998. 

À la fin des années 90, TES et l'équipe CORDIAL du laboratoire IRISA (U. Rennes I) sortent donc le dictionnaire parlant Favereau, IRISA & TES. (1999), Ar geriadur a gomz brezhoneg a-vremañ à Morlaix aux éditions Skol Vreizh. Il s'agit d'un dictionnaire vocal de 36.000 mots sur CD-ROM, tirés des entrées du Dictionnaire du breton contemporain de F. Favereau, 1993. Le journal Le Télégramme annonce la sortie du CD-rom le 26 mars 1999. C'est selon l'article "l'aboutissement de trois années de recherche sur la synthèse vocale en langue bretonne qui, avec l'appui de l'Union européenne, a réuni une exceptionnelle moisson de compétences [avec] l'ENSSAT (École nationale supérieure des sciences appliquées et de technologie) à Lannion, [l'équipe CORDIAL du laboratoire] IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) à Rennes, les universités de Rennes 2, Mons (Belgique), Limerick (Irlande) et Lampeter (Pays de Galles)." L'article ajoute que la chanteuse Annie Ebrel a du pour ce faire prononcer "3.000 demi-syllabes sur tous les tons". Plusieurs publications universitaires retracent la genèse de ce travail (voir le résumé de Aubry 2004:12-13, et Mermet (2006:20-38). Ar Barzh (1996) évoque la constitution d'un corpus de parole pour la synthèse de la langue bretonne, puis trois publications consécutives présentent l'aboutissement de ce projet de synthèse de la parole appelé Kenaoz ar Gomz e Brezhoneg (KGB) : Messager, Gourmelon, Mercier & Siroux (1998), Gourmelon, Mercier, Messager & Siroux (1999) et Mercier, Guyomard & Siroux (1999).

La diffusion de ce travail important a été disproportionnellement réduite. Mille exemplaires en ont été distribués aux écoles. William Marois, alors recteur d'académie, avait déclaré au Télégramme que "ce produit innovant marque la volonté de l'Éducation nationale de développer l'apprentissage de la langue". Au début des années 2000, le dictionnaire Favereau (1993) apparaît en ligne, mais sans parole associée. Le CD-ROM n'est plus au catalogue des éditions Skol Vreizh.

Dans Messager & al. (1998), le dictionnaire parlant est considéré comme réalisé, et l'équipe se tourne vers la création d'un entraineur prosodique pédagogique, et d'une amélioration globale de la prosodie obtenue. Irisa (2001) rend compte des progrès : "les principales améliorations concerne la modélisation prosodique. L'utilisation de nouveaux corpus de parole mis à notre disposition par l'université de Rennes I et le CRDP et la mise au point d'outils de segmentation automatique nous ont permis d'améliorer nos connaissances sur la prosodie du breton et d'améliorer les règles de calcul des paramètres prosodiques au niveau des syllabes accentuées et réduites." Le Télégramme (1999) annonçait pour 2001 "un logiciel de dictée avec un contrôle automatique adapté aux exercices individuels".

 Mermet (2006:25) :
 "Le dictionnaire de référence sera [...] transformé sous la forme d'une base de données par D. Auclerc en 2000. À partir de 2001 un nouveau programme sera intégré à la deuxième version du dictionnaire vocal (Yves Aubry, A. Bramoullé). 
 Cependant, dès 1998, les recherches reprennent visant à mettre au point un programme de traitement du signal de la parole et de sa visualisation (P. Parnet 1998 ; Mocquart 1999 ; A. Guillou 2000; F. Moullet 2001), puis de la concaténation des diphones par le synthétiseur vocal MBROLA (Dutoit 2001). À partir de 2001, une première version d'un logiciel de synthèse en breton à partir de texte est mis au point. L'interface est développée en langage DELPHI. La transcription des graphèmes en phonèmes est par ailleurs améliorée."


correcteur prosodique

Télégramme (1999) annonce "pour l'an 2000 un cédérom de prosodie qui permettra ainsi, par un système de courbes, de corriger automatiquement en temps réel les défauts de prononciation de l'élève. Un apport fondamental dans une langue où l'accent tonique a tant d'importance." Irisa (2001) rend compte des progrès: "Les améliorations introduites dans ce logiciel ont porté principalement sur le module de comparaison dynamique entre la parole à segmenter et la parole « modèle ». Grâce à ce module, le tuteur peut maintenant créer ses propres exercices pédagogiques de manière plus conviviale car il peut segmenter ses enregistrements de manière quasi automatique en comparant la représentation spectrale de sa prononciation à la représentation acoustique de la même phrase produite par synthèse à partir du texte. Grâce à cette segmentation automatique, on peut synchroniser et superposer les différentes courbes prosodiques (énergie, fréquence fondamentale), syllabe par syllabe et ainsi bien visualiser les différences de production entre le maître et l'élève."

Aubry (2000, 2004) publie deux articles de compte-rendu détaillé de création de cet entraineur prosodique.


reconnaissance vocale

La reconnaissance vocale représente un défi conséquent: si la synthèse de la voix a pu se concentrer sur le breton standard, la reconnaissance vocale nécessite de pouvoir traiter une source multidialectale, avec des tessitures vocales d'hommes, de femmes et d'enfants.

En ce qui concerne les conditions de réalisabilité de ce gros chantier de la reconnaissance vocale, et étant donné les techniques actuelles, Damien Lolive (c.p. 10.2021) estime que la reconnaissance de la voix nécessiterait un corpus d'un millier de locuteurs différents ne parlant pas plus de trois minutes, si l'audio est transcrit et que le son est propre (pas de chevauchements, environnement calme). Cela représenterait 50h en tout. Kerbrat (2021a,b) estime, lui, que le corpus devra atteindre les 200 heures. Francis Tyers a effectué quelques tests avec les données de Common Voice (Kerbrat 2021a,b), qui compte maintenant 2h de données vocales. Gweltaz Guennoc-Duval (2022) y ajouté 7h de corpus privé de données audio alignées de sources diverses, et témoigne d'une amélioration rapide. La clef du développement de la reconnaissance vocale tient actuellement d=toute entière dans la disponibilité libre de droits de corpus alignés importants.

La demande sociétale est forte. La communication à distance entre jeunes brittophones privilégie les sms, or la dictée des sms en français est possible, efficace et rapide alors qu'envoyer un sms en breton demande de taper le message, voire de stopper l'autocorrection à chaque mot, interprété comme du français. Ce handicap impacte lourdement les échanges en breton des plus jeunes générations. La reconnaissance vocale permet aussi l'accélération et la baisse de coûts d'usages dans des professions nécessaires au développement de la langue, comme le dérushage des réalisatrices ou réalisateurs de films, ou la transcription automatique de réunions ou compte-rendus professionnels, ou encore le sous-titrage d'évènements télévisuels en direct, comme des commentaires de match.

Applications disponibles, même si en perfectionnement

Les applications disponible pour l'usage des locuteurs, si leur construction est open source, constituent aussi des outils TAL pour le développement d'autres applications. Les applications dont le copyright est propriétaire ne sont pas réutilisables comme outils informatiques pour le développement.


applications de parole écrite

applications pour la traduction

Apertium fournit une interface de traduction breton > français, à partir de l'analyse morphologique de Tyers (2007-2009) et d'un dictionnaire bilingue (cf. Tyers 2009, 2010a, 2010b, 2015).

Tyers (2010) décrit un système de traduction automatique breton > français basé sur des règles. Poibeau (2014) contribue à l'étude du traitement de mutations consonantiques en proposant de rendre compte des mutations consonantiques avec des transducteurs à états finis (une règle de réécriture). Il s'agit d'une suggestion technique plus que d'une prise en charge du phénomène réel, car il n'évoque pas les barrières aux mutations.


br->fr

L'Office Public de la Langue Bretonne diffuse une version en ligne du traducteur d'Apertium, troer emgefre traducteur automatique breton > français. La dernière version est téléchargeable ici sur Sourceforge.

Le choix de l'Office est de ne pas distribuer le sens inverse de traduction avant une perfection des traducteurs vers le breton, car le risque d'utilisation sans correction par des non-locuteurs est grand, et serait très dommageable.

fr<->br, multilingues

  • Glosbe propose certaines traductions br <-> fr.
  • En utilisant la technologie des réseaux de neurones, l'équipe OPUS-MT de l'université d'Helsinki développe un traducteur automatique multilingue qui comprend un traducteur anglais-breton et breton-anglais.

conjugateur de verbes

Le conjugateur automatique de verbes DVB, displeger verboù brezhonek est développé par par des membres de l'association An Drouizig 'Le petit Druide', des membres du commité Poellgor Bed Niverel 'Commité Monde Numérique', ainsi que des membres du projet. Ce projet est en ligne depuis le 25 juin 2021.

Il pourrait être perfectionné avec une liste des verbes défectifs.


outils correcteurs

Le compte rendu d'activités de l'IRISA (2001) mentionnait qu'il était "désormais possible d'appeler le dictionnaire [vocal] comme outil de correction orthographique, dans une application de type traitement de texte". Il existe un rapport de projet de l'ENSSAT de 2003 sur le correcteur orthographique breton (Petit 2003). Poibeau (2014) qui fournit une formalisation des mutations consonantiques en utilisant des transducteurs à états finis suggère leur utilisation pour un correcteur orthographique.


MacOffice 2001, Microsoft Office 2013
Adobe Indesign, Firefox, LibreOffice & OpenOffice.org, MacOSX
  • Correcteur grammatical pour la suite bureautique LibreOffice, développé par Dominique Pellé avec l'aide le l'Office Public de la Langue Bretonne. Il utilise LanguageTool, testable en ligne ici. L'Office rapporte une première version de 400 règles, avec repérage des fautes de mutation. Ce correcteur est évalué dans Morvan (2019).


dictionnaires en ligne, ressources lexicographiques

Il existe de nombreux dictionnaires en ligne du breton contemporain, et un aggrégateur de dictionnaires. Certains sont en accès libre, mais peu sont sous licence libre. Ils n'en constituent pas moins des applications utilisées par les locuteurs. Menard & Bihan (2016-) et Favereau (1993), probablement les plus consultés en ligne en 2022, comportent des entrées de dialectes traditionnels. Les autres sont plutôt de breton standard, ou concernent des domaines spécialisés.

Le dictionnaire Devri a été constitué par Martial Ménard, mis en ligne à son décès et sérieusement étendu depuis par Herve ar Bihan Menard & Bihan (2016-).

Le dictionnaire Favereau (1993) comporte 40 000 entrées et est interrogeable en ligne. La première synthèse de la voix de l'IRISA avait utilisé un algorithme pour en accepter les orthographes multiples. Il n'est pas en licence libre, raison pour laquelle Tyers ne l'utilise pas (Tyers & Howell 2021:440, fn11).

Le dictionnaire historique Meurgorf (2014-) diffusé par l'OPLB forunit les plus anciennes attestations sur une frise historique.

Le dictionnaire Freelang fr <-> br (disponible en ligne ou téléchargeable) de Tomaz Jacquet comporte 37.800 entrées.

Le dictionnaire multilingue de wikipedia, wiktionnary, comprend le breton avec wikeriadur.

Le dictionnaire de l'association Stur traduit 22.302 noms du français vers le breton. Il est cherchable en ligne.

La base de données toponymique KerOfis de l'OPLB liste les noms propres des noms de lieux.

Le dictionnaire terminologique Termofis de l'OPLB.

Brezhoneg21 = KAG (2016) fournit un lexique de type scolaire des sciences et techniques

voir aussi le dictionnaire Glosbe, et vérifier l'accessibilité des lexiques de Preder


vers d'autres langues que le français

Le breton-néerlandais de Jan Deloof comporte 40,000 entrées. Mise en ligne par Kevin Donnelly (Donnelly 2010).

La wikigrammaire ARBRES Jouitteau (2009-) utilise des listes de noms, de verbes, d'adjectifs, d'adverbes etc, classés par catégories. Ils sont traduits en français et en anglais.

Le dictionnaire multilingue Logos comprend le breton. C'est un site collaboratif de traducteurs professionnels sur invitation.

dictionnaires papiers mis en ligne

Le dictionnaire Favereau (2016-évolutif) est en ligne sous format pdf, avec des dossiers séparés pour chaque lettre initiale. Le copyright propriétaire mentionné sur le site est de 2016, mais l'auteur enrichit l'ouvrage régulièrement et met en ligne les pdfs par lettre du dictionnaire. La date de dernière modification pour chaque dossier est au début de chaque pdf.

Le dictionnaire de Henry (1900) est disponible dans wikisource.

Le dictionnaire br -> fr de Cornillet (2017) a été disponible en ligne. Il a été utilisé pour la synthèse de la parole.

agrégateurs de dictionnaires

Le site Lexicool.com regroupe les dictionnaires multilingues breton-autre langue.

L'agrégateur Geriafurch développé par Anthony Lannuzel croise les résultats de plusieurs dictionnaires en ligne et en livre un résultat allégé. Il existe en application téléphone téléchargeable ici.

Brezhoneg21 = KAG (2016), ressource scolaire des sciences et techniques
Devri Menard & Bihan (2016-)
Favereau (1993)
Glosbe
Preder
Termofis, le dictionnaire terminologique de l'OPLB

Attention cependant, les résultats dans chacune des dictionnaires peuvent être bien plus importants que ce qui est repéré par geriafurch.

grammaires en ligne

Le présent site ARBRES (Jouitteau 2009-) offre une grammaire du breton et de ses variations microdialectales, avec une description fine des faits dialectaux et idiolectaux, ainsi qu'une grammaire formelle qui organise une description de leur impact théorique pour notre connaissance de la grammaire du langage humain (plus de 2000 articles thématique en décembre 2021).

L'OPLB a été consulté en 2008 afin de recueillir ses vœux en termes de développements, vœux qui ont influencé la genèse de la wikigrammaire, en particulier la constitution en format récupérable pour une base de données utilisable en TAL.

L'inventaire des grammaires en ligne comprend aussi des ouvrages dédiés à des parlers locaux particuliers. Il faut signaler la partie grammaticale du blog de collecte Brezhoneg Bro-Vear (Yekel, Georgelin & Ar C'hozh 2015-2022), et les plus récentes thèses et monographies universitaires dont les textes sont disponibles en ligne (cf. l'inventaire des grammaires).


logiciels, réseaux sociaux, jeux, traduits en breton

Diverses applications utilisables sur internet sont traduites, souvent partiellement, en breton mais cela reste insuffisant pour créer un environnement informatique immersif. Pour le web, les interfaces utilisables sont extrêmement limités en nombre et en pourcentage de traduction. Wordpress est le système de gestion de contenu (en anglais content management system, CMS) le plus utilisé dans le monde (40% des sites). Il n'est traduit, pour la version plus récente fin 2021 (V. 5.8.x), qu'à 18 %. Ce travail est suivi par 7 personnes. Pour comparaison, les versions en basque sont traduites à 96 %, en occitan à 53 %, pour respectivement 80 et 13 participant.e.s. Ce CMS s'appuie sur des plugins indispensables à une utilisation élargie, où le niveau de traduction est encore plus faible lorsqu'il existe. Reun Bideault (c.p. 2021), développeur web, considère que l'exemple de Wordpress est actuellement généralisable à tous les outils web libres et propriétaires, raison pour laquelle les professionnel.le.s du web ne peuvent actuellement fournir un produit fini et surtout évolutif permettant de travailler en breton à un coût supportable.

Sont disponibles, fin 2021 :

  • une suite bureautique (LibreOffice) associable aux correcteurs d'orthographe et de grammaire
  • un logiciel pour la navigation web (Firefox)
  • un logiciel pour l'échange de courriels (Thunderbird)
  • quelques logiciels multimédia (VLC pour la vidéo, Clementine pour la musique)
  • quelques logiciels d'édition graphique (Inkscape, Gimp, Tuxpaint)


Pour les réseaux sociaux, Facebook est utilisable en breton depuis 2014 (Ar Mogn 2015). Mastodon, réseau semblable à Twitter mais libre de droits, fait l'objet d'un projet de traduction participative. Pour une étude sociolinguistique des usages des réseaux sociaux et interfaces existant en breton, ainsi que de la demande sociale et des usages réels, se reporter à Hicks (2017), Dauneau (2019).


Il existe une version bretonne pour quelques applications smartphone.

  • Microsoft SwiftKey : autocorrection et prédiction de mot en breton, prise en charge multilingue
  • Firefox (iOS et Android), navigateur web
  • K-9 mail (Android), client de messagerie
  • Vanilla Music (Android), lecteur musical
  • AntennaPod (iOS et Android), lecteur de podcasts

Dans le domaine des jeux, Kerbrat (2021a,b) mentionne Minecraft ou FreeCol (sous licence libre), ou les applications Steredenn et Flipon.

Il a existé plusieurs systèmes de jeux multimédia et éducatifs distribués sous forme CD-ROM, répertoriés dans Mermet (2006:30-32).

Ressources humaines, recherche et infrastructures

ressources universitaires

En Bretagne, trois laboratoires de l'IRISA sont productifs sur le traitement automatique du breton. Ils collaborent avec le Celtic-BLM à Rennes II et avec l'OPLB.

Pour le traitement de la parole sonore, le laboratoire Expression à Lannion développe des projets de synthèse de la voix sous la direction de Damien Lolive (cf. ms. de HDR, Lolive 2017), en collaboration avec l'OPLB à Carhaix (cf. le projet Breton TTS, Breton Text to Speech, livré à l'Ofis en 2021).

Le laboratoire LOUSTIC et SemLIS de l'IRISA développent des projets de traitement automatique de la chaine écrite sous la direction de Annie Foret, en collaboration avec Erwan Hupel enseignant de breton au Celtic-BLM à Rennes II. Ces laboratoires accueillent des stagiaires en licences useTIC (dernièrement Karen Kechis, Pêr Morvan), ou dans le cadre de projets comme Lang-Num des stages TAL de 6 mois (cf. Martinet 2021). Les collaborations tissent un réseau avec Christian Boitet et Vallérie Bellynck (GETALP/LIG, U. Grenoble) et Denis Béchet (UMR 6004, U. Nantes). La lisibilité n'est pas toujours évidente de l'extérieur car il s'agit surtout de recherche fondamentale, mais des projets globaux menés par cette équipe peuvent à terme concerner le breton comme l'ANR SmartFCA (Formal Concept of Analysis, 2022-2026).

Nicolas Vigneron, wikimédien de longue date, est basé à Rennes avec un intérêt particulier pour le breton et le gallo. Depuis 2019, il développe wikidata lexèmes (voir par exemple les lexèmes gwez ou Meurzh).

À Paris, Sylvain Kahane (Modyco, CNRS) mène avec Christian Chanard à l'INALCO le projet Autogramm de développement de corpus UDs pour les langues peu dotées. Le codage est en format SUD avec un passage automatique en UD géré par Grewmatch (Bruno Guillaume, LORIA, INRIA). Les données de Jouitteau (2009-) extraites par Kim Gerdes (LISN!, CNRS) en 2022 sont ordonnées en format Conll puis en corpus UD par Katharine Jiang et Salomé Chandora (cf. Breton treebank II). Loic Grobol (Lattice, École Normale Supérieure & LLF, CNRS) propose de coordonner le développement d'un parseur pour le breton à partir des ressources disponibles.

Thierry Poibeau a publié un article (Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094) et organisé CLTW 2016. En 2017, Alice Millour, doctorante en linguistique au laboratoire STIH (Sens, Texte, Informatique, Histoire) de l'Université Paris IV Sorbonne, préparait une thèse intitulée Construction de ressources langagières par myriadisation (crowdsourcing) pour le traitement automatique des langues peu dotées : le cas des langues de France. Elle travaille maintenant sur le corse.

À l'international, Francis Tyers à Bloomington en Indiana développe des outils de TAL sur le breton depuis 2007, dernièrement en collaboration avec Vinit Ravishankar (U. Prague) et Nick Howell (Higher School of Economics à Moscou, Russie). Johannes Heinecke, en poste chez Orange à Lannion, a créé le corpus UD gallois (Heinecke & Tyers 2019). Il publie de longue date sur le breton et intervient sur le forum de Github à propos des langues celtiques dont le breton (par exemple sur les prépositions à pronom incorporé).


La présence des lieux de formation mentionnés plus haut est un facteur crucial de développement pour le TAL. Aubry (2004:12-13) retrace très clairement la genèse du dictionnaire parlant dans les années 90, qui peut se lire comme une longue succession de stagiaires et étudiants bénévoles passant dans les laboratoires, parfois ponctuellement suppléés par des bénévoles extérieurs ou aidés par des laboratoires de recherche étrangers. L'IRISA (ENSSAT) représente même un pôle universitaire qui fait figure de pionnier à la fin du XX° sur le TAL du breton avec leur collaboration avec TES dont le directeur de 1993 à 1999 fut Ronan Coadic, actuellement professeur à l'université Rennes II, et toujours en collaboration avec les projets de TAL (Foret & al. 2015).

conférences

Celtic Language Technology Workshop

Il y a eu trois éditions de l'atelier pour les technologies du langage appliquées aux langues celtiques (CLTW). La quatrième est prévue en 2022.


  • Judge, John, Teresa Lynn, Monica Ward & Brian Ó Raghallaigh (éds.). 2014. Proceedings of the First Celtic Language Technology Workshop, Association for Computational Linguistics and Dublin City University, Dublin, Ireland. texte.
  • Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.) 2016. Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016). texte.
  • Lynn, Teresa, Delyth Prys, Colin Batchelor & Francis Tyers (éds.). 2019. Proceedings of the Celtic Language Technology Workshop, European Association for Machine Translation, Dublin, Ireland, texte.
avec la présentation invitée de Claudia Soria (présentation du Digital Language Diversity Project (DLDP)

Celtic Knot

Wikimedia UK et Wikimedia Deutschland organisent la conférence annuelle Celtic Knot qui malgré son nom ne concerne pas uniquement les langues celtiques, même si son origine vient des pays celtiques. Elle se veut un évènement qui se concentre sur les langues peu représentées sur les projets Wikimédia (Wikipedia, Wikisource ou Wikidata), et cherche à rassembler les personnes impliquées dans ces projets afin d'échanger des connaissances et compétences. La conférence 2022 se tiendra en ligne en juillet/août 2022. Nicolas Vigneron, personne ressource sur le breton et le gallo, est un intervenant régulier.

TAL sur corpus restreint en France

Il existe plusieurs structures universitaires autour du TAL des langues peu dotées en France, sous la forme de Groupements de Recherche (GDR) et de projets regroupant plusieurs laboratoires, financés par l'Agence Nationale pour la Recherche (projets ANR).


  • GDR LIFT:

Le GDR LIFT (Linguistique Informatique, Formelle et de Terrain) essaie de mettre en contact linguistes formels et spécialistes du TAL. Ils ont un séminaire en ligne mensuel, que l'on peut suivre sur demande.


  • GDR-TAL, (2018-)

Le GDR-TAL-3 Multilinguisme, Multiplicité des langues comprend le laboratoire des sciences du numérique de Nantes. C'est un projet de recherche fondamentale sur les modèles de traduction automatique, soucieux de développer le potentiel des outils de traduction, mais aussi des outils pédagogiques d'apprentissage des langues et la captation de la variation dialectogique. Le pré-projet comporte un état des lieux dans l'État français qui identifie comme ressources pour les langues peu dotées les laboratoires LIG, USTRA, LINA, LIMSI, LORIA.


  • projet ANR Divital

Le projet ANR DIVITAL concerne en premier lieu les langues peu dotées parlées dans l'État français.


  • projet ANR Autogramm, (2022-2025)

Le projet Autogramm (2022-2025) est coordonné par Sylvain Kahane. Il concerne l'extraction automatique de grammaires quantitatives à partir de treebanks (corpus UD), des corpus restreints mais richement annotés, en collaboration avec Universal dependencies. On y retrouve aussi quelques langues parlées dans l'État français. Autogramm a une liste de diffusion et un séminaire en ligne régulier.


  • SIGUL, Special Interest Group for Under-resourced Languages
groupe d'intérêt spécial associé aux sociétés savantes ISCA (speech) et ELRA (language resources) sur les langues peu dotées (description)

European Language Grid

La plateforme ELG (European Language Grid) regroupe au niveau européen les ressources concernant les technologies du langage et les langues d'Europe (Labropoulou & al. 2020, Rehm & al. 2021). La plateforme, en 2021, liste déjà quelques ressources sur le breton concernant les technologies du langage.

Ressources financières, réutilisabilité

pôles de financement

Le ministère de l'éducation et de la recherche finance la recherche académique pour les salaires des titulaires chercheurs et enseignants-chercheurs, et puise dans les crédits récurrents des laboratoires (universités et CNRS) pour l'accueil de stagiaires, l'organisation de conférences.

La recherche académique dans l'État français peut aussi, sur projet, s'adresser à l'ANR et la recherche académique européenne aux infrastructures européennes. Le CNRS finance en 2021 la création d'une équipe sur 5 ans sur le traitement automatique des langues par intelligence artificielle (3 postes pour des crédits allant jusqu'à 1 M€, Appel Choose France - CNRS AI Rising Talents).

En partenaire avec des entreprises, il est possible de recourir à des CIFRE.

La Délégation Générale à la Langue Française et aux Langues de France (DGLFLF) a financé le projet Lang-Num (Foret 2018) à hauteur de 5000 euros (prospective, construction de réseau, stages étudiants à l'IRISA - LOUSTIC & SemLIS, cf. Martinet 2021). La DGLFLF avait retenu en tout pour son appel à projets Langues et numérique 2017, 25 projets dont les thématiques portent sur des technologies du TAL comme la traduction automatique, la reconnaissance et la synthèse de la parole, la correction orthographique, l'analyse sémantique, l'analyse grammaticale, la génération automatique de textes, ou encore le Web sémantique et l'industrialisation des technologies du langage issues de la recherche. Le but, large, est de développer des ressources (corpus, bases de données lexicales, atlas sonore) et des outils numériques (applications mobiles, jeux sérieux, dispositifs de traduction, sous-titrage automatique, moteurs de recherche spécialisés, claviers prédictifs).


La maison des sciences de l'Homme, à Rennes et à Nantes, peuvent être des partenaires.


La Région Bretagne a financé la synthèse de la parole par Damien Lolive et Gwenolé Lecorvé à hauteur d'un peu moins de 200 000 euros, par le biais d'un appel à projets de l'OPLB. La région débloque par ailleurs des crédits conséquents sur l'intelligence artificielle. Le service « Langues de Bretagne » de la Région Bretagne a fait le choix volontariste, quant à lui, de "laisser le soutien à la recherche universitaire à l'université", à l'exception notable des domaines pédagogiques (Ronan Le Louarn, c.p. à Mélanie Jouitteau 2011, 2014). Ces décisions sont cependant susceptibles d'évoluer au rythme des élections régionales, tous les six ans.

science ouverte

prospective structurelle

La diffusion des principes FAIR de la science ouverte sont améliorables dans le champ particulier du traitement automatique du breton. Cela permettrait d'accélérer la recherche et les applications disponibles au grand public, de faciliter la formation et la valorisation des acteurs.

En l'état, des ressources précieuses manquent de valorisations et de visibilité dans le champ d'étude. Le champ associatif, plus influencé par la culture du logiciel libre, est en avance sur le champ universitaire (Licence Publique Générale - GNU-GPL ou Creative Commons à différents degrés d'ouverture comme CC-SA, cf. comparaison des deux).

Certains choix dépendent des grandes infrastructures de recherche, comme la valorisation des réalisations de science ouverte pour les universitaires, et la création de webliothécaires de la recherche.

outils redistribuables

La fondation basque Alhuyar a reçu un soutien européen pour le développement sur 2020-2021 d'un assistant virtuel en basque (Smart euSpeaker project). Le logiciel comme l'assistant Mycroft voice (https://mycroft.ai/) sur lequel il est basé sont open source, et les développeurs promettent une réutilisabilité pour d'autres langues minorisées. Ces développements sont évidemment conditionnés pour le breton à la synthèse de la voix, mais aussi à la reconnaissance vocale.

Prospective et repérage des besoins

Plusieurs documents donnent un aperçu d'actions à entreprendre pour améliorer la capacité digitale des langues (Ceberio Berger & al. (2018) pour une approche détaillée et générale, ou voir, pour des exemples particuliersAlegria & al. 2011 pour le basque, Kevers & al. 2019 pour le corse).


 Kevers & al. (2019):
 "Lorsque l'on désire initier ou améliorer le traitement informatique d'une langue peu ou mal dotée, il est logique de créer les ressources de base avant de s'attaquer aux outils. 
 Ces ressources sont habituellement constituées de lexiques et/ou de corpus, annotés ou non, monolingues ou parallèles. 
 Les outils sont souvent élaborés suivant une complexité croissante. On partira par exemple d'un détecteur de langues, déjà utile lors de la phase de constitution des corpus, pour développer ensuite des composants d'analyse morphosyntaxique et lexicale, pour enfin aller vers des applications de plus haut niveau telles que la correction orthographique ou la traduction automatique." 


amélioration des outils existants

Les correcteurs orthographiques et le correcteur grammatical peuvent être améliorés d'annotations dialectales.

meilleur repérage des acteurs, bonnes pratiques

Les pratiques de science ouverte, qui rendent disponibles en accès libre de copyright les différentes réalisations numériques, permettent une construction incrémentale des ressources au développement. C'est absolument indispensable au développement TAL des petites langues. Trente personnes isolées peuvent être très pointues en informatique comme en breton et créer des applications qui le prouvent sans avoir le moindre impact sur le développement TAL de la langue tant que leurs ressources et réalisations ne sont pas disponibles pour la communauté.

Ces pratiques de science ouverte incluent des pratiques saines de citation des recherches, ressources de corpus et outils informatiques qui ont servi à une réalisation donnée. Une autre personne, en utilisant ces mêmes ressources, doit pouvoir vérifier qu'elle arrive au même résultat.

L'OPLB, suite aux réunions de Bed Niverel [monde Numérique] en 2017 qui a essayé de dynamiser le secteur, affiche une volonté de se placer en coordinateur des efforts de développement et souhaite "proposer à l'ensemble des acteurs, qu'ils soient institutionnels, professionnels ou tout simplement geek, une stratégie adaptée et progressive" et "que les technologies de la langue, aujourd'hui trop peu développées à l'égard du breton, prennent davantage en compte les particularités de cette langue et que soient lancés des projets de recherche dans cette direction en développant des partenariats avec les universités et les différents instituts de recherche" (Kerbrat 2021a,b). Ar Mogn (2015:4mn20), co-directeur de l'OPLB, déplorait pour le développement numérique "l'absence des universités sur ce terrain en Bretagne". Le rapport Kerbrat six ans plus tard ne repère pas plus d'acteurs universitaires - ce rapport est d'ailleurs sans bibliographie. Le rapport a une partie "acteurs", dont sont absents la plupart des développeurs de projets numériques, même ceux qui travaillent pour l'Office au sein de son conseil scientifique (Francis Favereau, Herve ar Bihan, Mélanie Jouitteau), ou encore Damien Lolive de l'IRISA que les représentants de l'Office ont pourtant rencontré tous les deux mois durant les trois ans de développement de la synthèse de la voix. Annie Foret n'est pas même mentionnée (Foret & al. 2015, Foret 2016, 2017, 2018a, 2018b). Francis Tyers, acteur central qui collabore avec l'Office depuis au moins 2009 et les remercie dans chacune de ses publications (Tyers & Howell 2021, Tyers & Ravishankar 2018, Tyers 2007-2009, 2009, 2010a, 2010b, 2015) n'y est mentionné que pour des essais non-fructueux sur la reconnaissance vocale.


exemples de pratiques inutiles pour le développement

- développer des ressources, outils, applications avec copyright propriétaire
- développer des ressources, outils, applications non-pérennes, qui ne seront plus accessibles dans 5 ans ou sous un format illisible

exemples de pratiques dommageables pour le développement

Certaines des pratiques dommageables pour le développement TAL sont passibles de justice, d'autres découlent directement de la mise en concurrence d'acteurs qui devraient collaborer tout en restant dans le cadre légal. Chacune de ces pratiques est un frein concret, vérifiable, couteux, au développement TAL d'une langue à corpus restreint. Il est de la responsabilité des financeurs de s'assurer qu'un soutien financier, surtout lorsqu'il s'agit de financements publics, n'est pas un soutien à de telles pratiques.

- diffusion d'outils ou d'applications réalisés par d'autres, ou en collaboration avec d'autres en s'en disant développeur (unique)
- citer uniquement dans un projet le travail de coordinateurs institutionnellement repérés, en dissimulant un travail effectif et important, voire central, de personnes réalisant concrètement ce projet en interne, et ce d'autant plus si ces personnes font partie de groupes en position sociale fragile ou minorisée (jeunes stagiaires, bénévoles, femmes, immigré.e.s, LGBTQI, etc.).
- pratiques monopolistiques (prétendre être le seul acteur dans un domaine, en sachant cela erroné, ou en essayant que cela devienne vrai en pratique)
- citations partielles ou inexistantes d'outils informatiques ayant servi au développement d'une application
- citations partielles ou inexistantes de recherches fondamentales ayant servi au développement d'un outil informatique
- absence de citation des locuteurs utilisés comme source primaire, et absence de caractérisation de leur variété dialectale
- mise en valeur auprès de financeurs ce que l'on a réalisé soi en cachant d'autres réalisations utiles, ou en s'appropriant le travail d'autrui.
- promettre la diffusion de ressources créées sous copyright libre sans le faire suivre des faits si on a réussi à les créer
- promettre la diffusion d'outils créés sous copyright libre sans le faire suivre des faits si on a réussi à les développer
- prétendre auprès de financeurs qu'un projet comprend une consultation scientifique lorsque c'est faux
- copier un travail, même en copyright libre, sans faire référence claire à cette utilisation, avec une citation correcte de la ressource
- financer des projets développant les pratiques ci-dessus mentionnées.

contenu responsif

Les terminaux de consultation d'internet sont de taille de plus en plus réduite, ce qui a obligé les services web à s'adapter rapidement. Le smartphone est maintenant le premier terminal web utilisé, avec une démocratisation rapide. Il touche presque toutes les couches sociales et tous les âges en sont largement équipés. Les applications dédiées pour ces terminaux sont normalisées pour offrir une lecture facile et ciblée. L'adaptation 'responsive web design' est indispensable à la lecture des sites web sur écran réduit. Une traduction automatique des applications déjà adaptées serait envisageable si un balisage adapté est mis en place.

diffusion de la synthèse de la voix

La synthèse de la voix de l'IRISA a été livrée à l'OPLB en septembre 2021. Sa diffusion reste un chantier ouvert. Entre autres, un besoin identifié de longue date est celle d'un système GPS capable de prononcer les noms de lieux en Bretagne (en son absence, ce sont les brittophones qui apprennent à interpréter des formes incongrues produites par des synthèses de la voix opérant sur d'autres langues).


prosodie

La prosodie de phrase est mal prise en charge dans la synthèse de la voix bretonne actuelle, mais l'un des coordinateurs de la création de la synthèse de la voix travaille de longue date sur la synthèse de la prosodie (cf. Lolive 2008).

Il reste par ailleurs à faire l'étude formelle de la prosodie des phrases en breton, pour systématiser le lien avec la structure syntaxique et avec la structure informationnelle des phrases (signal de focalisation de l'information nouvelle, de signal de l'information donnée, du topique de phrase, etc.).


lecture augmentée

Annie Foret (laboratoire LOUSTIC, Rennes I) a mené un repérage des besoins de développement des outils du TAL pour le breton en 2017-2018 (Foret 2018). L'enquête a consisté initialement en huit entretiens libre/semi-orienté d'1h30 d'enseignant.e.s et d'apprenant.e.s, complété par 61 réponses à un questionnaire en ligne comprenant une suggestion ouverte, deux questions sur le profil des répondants (niveau et usage professionnel du breton) et deux autres questions listant des outils développables en demandant lesquels étaient les plus urgents:

  • système de lecture augmentée sur écran/tablette avec des livres enrichis de bulles d'information intégrées
  • correcteur orthographique / grammatical
  • système d'aide à la recherche/exploration d'information
  • plateforme de discussion (exemple : échange de recettes ou autre sujet)
  • analyseur (aux niveaux morphologique, syntaxique)
  • système de détection d'ambiguïtés pour le breton
  • dictionnaire des synonymes et expressions/proverbes
  • lien entre un dictionnaire et un réseau sémantique

Ce repérage a été financé par le laboratoire LOUSTIC, et sur la période novembre 2017-décembre 2018 par la DGLFLF qui n'a pas prolongé son soutien pour la création des outils. Mekacher (2018) analyse les résultats. Il y a unanimité sur le manque de ressources sonores pour l'apprentissage d'une accentuation correcte et une souplesse crossdialectale. Les locuteurs souhaitent un correcteur orthographique et grammatical intégré aux outils bureautique, et sont enthousiastes à l'idée d'un système de lecture augmentée. Les résultats doivent être pondérés car la liste proposée dans le questionnaire peine à prendre en compte le manque de familiarité des brittophones, enseignant.e.s ou non, avec des outils que justement, ils utilisent peu, d'autant que certains de ces outils sont des outils de développement d'outils numériques.


Erwan Hupel a déposé en 2020 un dossier de demande de financement pour une thèse sur un dictionnaire des synonymes en ligne et la création d'un système de détection et de proposition de synonymes.


plate-forme pérenne de corpus

Les projets qui comportent la création d'une plate-forme pérenne de corpus sont récurrents.

Le projet Tal-Breizh (chaînes de traitement et ressources linguistiques pour le breton) porté en 2015-2017 par Annie Foret (Rennes 1, IRISA) et Ronan Le Coadic (Rennes 2, CRBC) n'a pas été retenu par la Maison de Science de l'Homme de Bretagne (MSHB). Foret & al. (2015) ont présenté le projet d'une plate-forme ouverte abritant les ressources disponibles pour le breton.

Mélanie Jouitteau et Reun Bideault ont présenté en 2018 à la DGLFLF (Délégation Générale à la Langue Française et aux Langues de France) un projet de plate-forme numérique pouvant articuler ces données enrichies avec des données de dépôt libre, dont chaque collecteur pourrait rester indépendamment propriétaire, afin de pouvoir proposer un hébergement pérenne, dans une banque cross-interrogeable et sous forme réutilisable. Il s'agit des données rendues disponibles sur ARBRES mais aussi sur les différents sites de collecte individuels et collectifs, et les futurs projets émergents. Le projet n'a pas été considéré pour financement.

Tyers & Howell (2021) mentionnent en projet la mise à disposition de la banque d'arbres UD dans une interface destinée aux linguistes.

Bibliographie

Cette bibliographie regroupe les références sur le traitement automatique de la langue bretonne, mais aussi plus globalement les projets numériques qui peuvent l'alimenter.

sur le breton

  • Aubry, Yves. 1999. Ordictée, logiciel de synthèse vocale en breton, rapport de stage, IUP MIME, Le Mans, TES/IRISA/ENSSAT, Lannion.
  • Aubry, Yves. 2000b. Logiciel de traitement de la parole et d'aide à l'enseignement et à l'apprentissage de la prosodie : application au breton, D.R.T. Ingénierie, université du Maine, Le Mans.
  • Aubry, Yves. 2000a. Synthèse vocale en breton, mémoire de maîtrise, IUP MIME Le Mans, TES/ENSSAT.
  • Aubry, Yves. 2004. Logiciel du traitement de la parole et d'aide à l'enseignement et à l'apprentissage de la prosodie: application au breton, travaux de D.R.T. d'ingénierie, Université du Maine.
  • Ar Barzh, H. 1996. Corpus de parole pour la synthèse de la langue bretonne, TES/IRISA.
  • Baxter, R.N. 2009. 'New technologies and terminological pressure in lesser-used languages. The Breton Wikipedia, from terminology consumer to potential terminology provider', Language Problems and Language Planning 33:1, John Benjamins: Amsterdam/Philadelphia, 60-80.
  • Blanchard, Jean-François. 2014. 'Pratiques langagières et processus dialogique d'identification pour une langue minorée. Le web en langue bretonne', Gaël Hily (dir.), Expression de l'identité dans le monde celtique, Rennes : TIR. 9-34.
  • Blanchard, Jean-François. 2015. Pratiques langagières et processus dialogiques d'identication sur les réseaux socionumériques. Le cas de la langue bretonne, ms. thèse. Université Rennes 2. texte.
  • Bramoullé, A. 2000. Dictionnaire vocal français – breton, rapport de projet, TES/IRISA, ENSSAT, Lannion.
  • Le Coadic, Ronan, Guy Mercier, J-P. Messager, J. Siroux. 1998. La synthèse vocale de la langue bretonne, projet de correcteur de prosodie, rapport annuel de la convention n°96-06-MDD-022-00,CEE, septembre 1998.
  • Davies-Deacon, Merryn. 2020. New speaker language and identity: Practices and perceptions around Breton as a regional language of France, ms. de thèse.
  • Donnelly, Kevin. 2010. 'Jan Deloof Breton-Dutch Dictionary', blog Me, Myself, Why? Free software and languages, not necessarily in that order, texte, consulté le [13.12.2021].
  • Dupin, J. 2001. Dictionnaire vocal multimédia français – breton, rapport de stage, TES/IRISA, IUP MIME Le Mans.
  • Finet, S. 2001. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.
  • Foret, Annie. 2016. 'Enrichissement de données en breton avec Wordnet', Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.), Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016), 55-61. texte.
  • Foret, Annie. 2017. 'Traitement automatique des langues, données légales, systèmes d'information et logique', CDN Convergences du droit et du numérique, Bordeaux, février 2017.
  • Foret, Annie. 2018. 'Breton-français et numérique, projet LangNum-br-fr (phase conception)'. Conférence Langues et numérique 2018, Juillet 2018, Paris, France. texte ou texte.
  • Foret, Annie. 2018b. 'Logiciels et ressources pour le breton', document du projet LangNum-br-fr, ms. 12p.
  • Gourmelon, Herve. 1996. Speech synthesis software using the TDPSOLA method, rapport de stage IRESTE, université de Limerick, Computer sciences & Information System Department.
  • Gourmelon, Herve, G. Mercier, J. P. Messager, J. Siroux. 1999. 'Synthèse vocale en breton', actes du colloque : le bilinguisme précoce en Bretagne, en pays celtiques et en Europe atlantique, Klask 5, PUR, Rennes, 125-138.
  • Guillou, A. 2000. Correcteur de prosodie pour la langue bretonne, rapport de projet.
  • L'Hostis, E. 2002. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.
  • An Intanv, Pascal. 1994. War hent fonetikadur ar Brezhoneg / Sur les chemins de la phonétisation du breton, mémoire de maîtrise, Université de Rennes II.
  • IRISA. 2001. Rapport d'activité 2001. Projet CORDIAL. Communication multimodale personne-machine à composantes orales : méthodes et modèles, texte.
  • Jouitteau, Mélanie. (éd.). 2009-2022. 'Traitement automatique du langage - Breton', ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle, IKER, CNRS, URL. présent article.
  • Kerbrat, Dewi. 2021a. Ar brezhoneg en oadvezh an niverel, diagnostik ha strategiezh diorren, ms. OPLB.
  • Kerbrat, Dewi. 2021b. La langue bretonne à l'ère du numérique, diagnostic et stratégie de développement, ms. OPLB.
  • Madigou, X. 1997. Interface graphique d'un dictionnaire vocal en breton, rapport de projet TES/IRISA ENSAT.
  • Martinet, Pierre. 2021. Contributions à l'enrichissement automatisé de langues peu dotées. Cas du breton et des grammaires formelles, rapport de stage (6 mois), laboratoire SemLIS (IRISA), Rennes I. texte.
  • Mercier, Guy. 2018. 'Ijinouriezh ar gomz evit ar brezhoneg', Ronan Le Coadic (éd.), Mélanges en l'honneur de Francis Favereau, Morlaix : Skol Vreizh, 551-574.
  • Mercier, Guy, M. Guyomard & J. Siroux. 1999. Synthèse de la parole en breton – Didacticiels pour une langue minoritaire, Speech Technology Applications in CALL, Eurocall 99, 57-61.
  • Mermet, Michel. 2001. An urzhiataerezh war dachenn an diwyezhegezh abred. Pleustradurioù pedagogel troet trema ar c'hehentiñ [l'ordinateur et le bilinguisme précoce, exercices pédagogiques orientés vers la communication], mémoire de maîtrise, Université de Rennes II, 95 p.
  • Mermet, Michel. 2002. Penaos deskiñ ar brosodiezh ? Implij kenaos ar gomz er skol–vamm, [Comment enseigner la prosodie ? Utilisation de la synthèse de la parole dans les écoles maternelles], rapport de DEA, Université de Rennes II, juillet 2002, 128 p.
  • Mermet, Michel. 2006. Informatique et maîtrise de l'oral en maternelle bilingue breton-français: modèle de l'élève dans le dialogue enfant-ordinateur et ergonomie de la parole en breton., mémoire de thèse U. Rennes II, pdf.
  • Messager, Jean-Pierre, Herve Gourmelon, Guy Mercier & Jacques Siroux. 1998. 'Research in speech processing for breton language training', ESCA-STiLL-1998, 29-32. texte.
  • Millour, Alice. à venir ?. Construction de ressources langagières par myriadisation (crowdsourcing) pour le traitement automatique des langues peu dotées : le cas des langues de France, thèse de linguistique au laboratoire STIH (Sens, Texte, Informatique, Histoire) de l'Université Paris IV Sorbonne.
  • Moal, Stefan. 2017. Médiation, transmission, création. La revernacularisation du breton au 21e siècle, ms. de HDR.
  • Mocquard, Guillaume. 1999. Correcteur de prosodie, rapport de stage IFSIC, TES/IRISA, ENSSAT.
  • Mocquard, Guillaume. 2001. Korpus prosodiezh, mémoire de maîtrise, Université de Rennes II.
  • Ar Mogn, Olier. 2015. 'Langue bretonne et nouvelles technologies : une vitalité à soutenir', présentation à Technologies pour les Langues Régionales de France, Meudon. vidéo.
  • Morales, H. 2002. Specian, dictionnaire français-breton, rapport de projet, IRISA/ENSSAT.
  • Morvan, Pierre. 2019. Ha difaziañ a ra LanguageTool ar c'hemmadurioù? Peseurt hentenn sevel evit gellet gouzout peseurt barregezh a zo gant an difazier LanguageTool war ar c'hemmadurioù?, mémoire de master, Université de Rennes II.
  • Moullet, Florent. 2001. rapport sur le programme de traitement du signal de la parole et de sa visualisation. xxx
  • OPLB. Termofis, dictionnaire terminologique, en ligne.
  • OPLB. Kerofis, base de données toponymique, en ligne.
  • OPLB. Corpus de phrases en breton, ou en français, accessible.
  • Parnet, Philippe. 1998. Correcteur de Prosodie, rapport de stage, DIIC1, IFSIC, ENSSAT.
  • Petit, M. 2003. Correcteur orthographique de langue bretonne, rapport de projet, ENSSAT, 1-37.
  • Poibeau, Thierry. 2014. 'Processing Mutations in Breton with Finite-State Transducers', Proceedings of the First Celtic Language Technology Workshop, Dublin, Ireland. texte.
  • Sokol, R. 1996. Projet de synthèse vocale en breton, création du répertoire de diphones, rapport de stage, TES/IRISA ENSAT, juillet 1996.
  • Tanguy, E. 2000. Dictionnaire vocal Gervogal breton / français, français / breton, mémoire de licence, IUP MIME, Le Mans TES/IRISA, Lannion.
  • Le Télégramme. 26 mars 1999. 'Synthèse vocale : les ordinateurs vont parler breton aux élèves'. texte. [accédé le 23 oct. 2021].
  • Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.
  • Tromparent, Jean-Luc. 1995. Synthèse de parole en langue bretonne, transcription orthographique – phonétique, rapport de DEA IFSIC, université de Rennes I.
  • Tyers, Francis Morton. 2008. 'Extracting bilingual word pairs from wikipedia', Proceedings of the SALTMIL Workshop at the Language Resources and Evaluation Conference, LREC2008, 19–22.
  • Tyers, Francis M. 2009. 'Rule-based augmentation of training data for breton–french statistical machine translation', Proceedings of the 13th Conference of the European Association for Machine Translation, 213–218. texte.
  • Tyers, Francis M. 2010a. 'Rule-based Breton to French machine translation', Proceedings of the 14th Annual Conference of the European Association of Machine Translation, 174-181. texte et poster.
  • Tyers, Francis, M. 2010b. 'An treiñ emgefreek diazezet war reolennoù evit treiñ ar brezhoneg e galleg', Hor Yezh 262, 27–39. [traduction par Thierry Fohanno]
  • Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.
  • Vigneron, Nicolas. 2022. 'Wikidata Lexemes', avec des exemples tirés du breton, vidéo.


bases de données

sur le TAL en général, par des chercheurs ayant étudié ou travaillé le breton par ailleurs

  • Amblard, Maxime, Johannes Heinecke, Estelle Maillebuau. 2008. 'Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel', TALN 2008, 350-359.
  • Akrivas, Giorgo, Georgios Th. Papadopoulos, Matthijs Douze, Johannes Heinecke, Noel O'Connor, Carsten Saathoff, Simon Waddington. 2007. 'Knowledge-based Semantic Annotation and Retrieval of Multimedia Content', SAMT 2007 - 2nd International Conference on Semantic and Digital Media Technologies, 5-7 December 2007, Genoa, Italy.
  • Dasiopoulou, Stamatia, Johannes Heinecke, Carsten Saathoff, Michael Strintzis. 2007. 'Multimedia reasoning with natural language support', IEEE-International Conference on Semantic Computing, Irvine CA.
  • Béchet, Denis & Annie Foret. 2016. 'Categorial dependency grammars with iterated sequences', Logical Aspects of Computational Linguistics celebrating 20 Years of LACL (1996-2016), 34–51.
  • Béchet, Denis & Annie Foret. 2016. 'Simple k-star categorial dependency grammars and their inference', Proceedings of the 13th International Conference on Grammatical Inference, ICGI 2016, Delft, The Netherlands, 3–14.
  • Heinecke, Johannes. 2006. 'Génération automatique des représentation ontologiques', Mertens, Piet; Fairon, Cédrick; Dister, Anne; Watrin, Patrick (éds.), Verbum ex Machina, Actes de la 13e conférence sur le traitement automatique des langues naturelles, vol. 2 Louvain: Presses universitaires de Louvain, 502-511.
  • Heinecke, Johannes. 2009. 'Matching natural language data on ontologies', Proceedings of the 4th International Workshop on Ontology Matching (OM-2009) Collocated with the 8th International Semantic Web Conference (ISWC-2009) Chantilly, USA, October 25, 2009. ISSN: 1613-0073.
  • Heinecke, Johannes. 2013. 'Typologie et ressources pour le TALN des langues caucasiennes: le cas du tchétchène', Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d'Europe, Sables d'Olonne, 181-194
  • Heinecke, Johannes, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem. 2008. 'TiLT : plateforme pour le Traitement Automatique des Langues Naturelles', TAL 49:2.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paula Hobson, François Goasdoué. 2006. 'The Semantic Web from an Industrial Perspective', Barahona, Pedro; Bry, François; Franconi, Enrico; Henze, Nicola; Sattler, Ulrike (éds.), Reasoning Web. Second International Summer School 2006 [ =Lecture Notes in Computer Science 4126], Heidelberg: Springer, 232-268.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paola Hobson, François Goasdoué. 2008. 'The Semantic Web from an Industrial Perspective', García, Roberto (éd.), Semantic Web for Business: Cases and Applications. New York: IGI GLobal. ISBN: 978-1-60566-066-0, 232-268.
  • Lolive, Damien. 2017. Vers plus de contrôle pour la synthèse de parole expressive. Intelligence artificielle [cs.AI], ms. HDR, Université de Rennes 1.
  • Lolive, Damien. 2008. Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix. Intelligence artificielle [cs.AI], thèse de l'Université Rennes 1. texte.
  • Park, Jungyeul; Maillebuau, Estelle; Guimier De Neef, Emilie; Vinesse, Jérôme; Heinecke, Johannes. 2007. 'Evaluating an Interlingual Semantic Representation', Gerdes, Kim; Reuther, Tilmann; Wanner, Leo (éds.), Meaning - Text Theory. München - Wien.
  • Plu, Michel, Heinecke, Johannes. 2011. 'Interprétation linguistique de requêtes pour un moteur de questions-réponses', CORIA 2011, Avignon, France, 593-598.
  • Plu, Michel, Heinecke, Johannes. 2011. 'Moteur de questions-réponses d'une base de connaissances', EGC 2011, Brest, France, 593-598.
  • Tyers, Francis M. & Kevin Donnelly. 2009. 'Apertium-cy: A collaboratively-developed free RBMT system for Welsh to English', Prague Bulletin of Mathematical Linguistics 91, 57–66.

autres langues à corpus restreint

  • Alegria, Iñaki, Xabier Artola, Arantza Díaz de Ilarraza, & Kepa Sarasola. 2011. 'Strategies to develop Language Technologies for Less-Resourced Languages based on the case of Basque', texte.
  • AUTOGRAMM (2022-2025). projet ANR de création de treebanks pour des langues à corpus restreint.
  • ABAIR. voix de synthèse du gaélique irlandais, Phonetics and Speech Laboratory at the School of Linguistic, Speech and Communication Sciences, Trinity College Dublin., en ligne.
  • Bernhard, Delphine, Anne-Laure Ligozat, Myriam Bras, Fanny Martin, Marianne Vergez-Couret, et al... 2021. 'Collecting and annotating corpora for three under-resourced languages of France: Methodological issues', Language Documentation & Conservation, University of Hawaiʻi Press 15, 316-357. pdf.
  • Cooper, Sarah, D. B. Jones & D. Prys, D. 2019. 'Crowdsourcing the Paldaruo Speech Corpus of Welsh for Speech Technology', Information 10:8, 247-259.
  • Cooper, Sarah, D. B. Jones & D. Prys, D. 2014. 'Developing further speech recognition resources for Welsh', Proceedings of the First Celtic Language Technology Workshop, Dublin, Ireland, 55-59. texte.
  • Deuchar, M., Davies, P. & Donnelly, K. 2018. Building and Using the Siarad Corpus: Bilingual Conversations in Welsh and English, Amsterdam: John Benjamins.
  • DIVITAL. projet ANR 2022-2025. coordinatrice Delphine Bernhard (LiLPa, Université de Strasbourg). constitution de corpus exploitables en TAL pour les langues minorisées de l'Etat français.
  • Körner, Erik, Felix Helfer, Christopher Schröder, Thomas Eckart, Dirk Goldhahn. 2022. 'Crawling Under-Resourced Languages – A Portal for Community-Contributed Corpus Collection', Proceedings of the 1st Workshop on Dataset Creation for Lower-Resourced Languages (DCLRL), @LREC2022, ELRA, 36–43. pdf.
  • Krauwer, S. 2003. 'The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap', Proceedings of the International Workshop “Speech and Computer”', SPECOM 2003, Moscow, Russia.
  • Lamb, Will. 2021. 'Emerging NLP for Scottish Gaelic', présentation à FACL2, U. Arizona. [March 26, 2021].
  • Meelen, Marieke. 'à paraître. 'Annotating Middle Welsh: POS tagging and chunk-parsing a partial corpus of native prose, Proceedings of the Maynooth Colloquium on Celtic Computational Linguistics, xx-xx.
  • Millour, Alice & Karën Fort. 2018. 'À l'écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées', Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), texte.
  • Prys, Delyth (éd.). 2021. Language and Technology in Wales: Volume I, Bangor : Prifysgol Bangor University, 120 p. texte.
  • Silfverberg, M., & Tyers, F . 2019. 'Data-driven morphological analysis for Uralic languages', Proceedings of the Fifth International Workshop on Computational Linguistics for Uralic Languages, 1–14.

prospectives régionales, françaises et européennes, DGLFLF

  • DGLFLF. 2015. Les technologies pour les langues régionales de France, Ministère de la Culture et de la Communication.
  • ELE. 2022. European Language Equality, rapport de la Commission européenne visant l'égalité linguistique numérique totale d'ici 2030 pour les langues d'Europe. Recommandations pour que les langues sous-financées et minoritaires en Europe disposent du soutien technologique pour exister à l'ère numérique.
  • Labropoulou, Penny & al. 2020. Making Metadata Fit for Next Generation Language Technology Platforms: The Metadata Schema of the European Language Grid. ms.
  • Rehm, Georg & al. 2021. 'European Language Grid: A Joint Platform for the European Language Technology Community', 16th EACL: Online - System Demonstrations, 221-230.
  • Sayers, D., R. Sousa-Silva, S. Höhn et al. (2021). The Dawn of the Human-Machine Era: A forecast of new and emerging language technologies. Report for EU COST Action CA19102 'Language In The Human-Machine Era'. www.lithme.eu., texte.

sur le format UD ou SUD

  • De Marneffe, Marie-Catherine , Christopher D. Manning, Joakim Nivre, Daniel Zeman. 'Universal Dependencies', Computational Linguistics 47:2, 255–308. texte.
  • Osborne, Timothy & Kim Gerdes. 2019. 'The status of function words in dependency grammar: A critique of Universal Dependencies (UD)', Glossa: a journal of general linguistics 4:1, p.17. doi: https://doi.org/10.5334/gjgl.537.
  • Gerdes, Kim, Bruno Guillaume, Sylvain Kahane & Guy Perrier. 2019. 'Pourquoi se tourner vers le SUD : L'importance de choisir un schéma d'annotationen dépendance surface-syntaxique', Actes des Journées scientifiques « Linguistique informatique, formelle et de terrain », Orléans, France. texte.