Le traitement automatique des langues (TAL) concerne tout le champ de traitement des langues par le biais d'instruments automatiques, que ce soit la parole écrite ou non.

Le traitement automatique de la parole concerne précisément le traitement automatique des réalisations orales ou signées dans le cas des langues signées. Ce champ comprend les systèmes de synthèse vocale.

Dans ses développements les plus avancés, le traitement automatique des langues utilise l'intelligence artificielle et les techniques de réalité augmentée, tant pour les outils de traduction automatique que pour les assistants virtuels ou la construction d'outils de pédagogie linguistique (pour une prospective et un état des lieux, voir Sayers & al. 2021). Les outils émergents pour les langues économiquement favorisées se nourrissent de masses importantes de données qui ne sont pas disponibles pour les langues comme le breton mais ces outils sont en évolution constante vers des possibilités de développement à partir de corpus plus restreints (cf. Silfverberg & Tyers 2019). Tout retard se paye cependant lourdement car dans ce domaine, le développement nourrit le développement. L'extinction digitale menace la plupart des langues à corpus restreint et l'enjeu pour ces langues, dont le breton, est de survie dans les usages aux vingt prochaines années (Nicholas & Bhatia 2023). Le TAL sur la langue bretonne est objectivement peu développé à ce jour (Tyers & Ravishankar 2018), mais il existe des outils finalisés précieux et un potentiel réel. On peut estimer les ressources pour le TAL breton à 2 sur l'échelle de Joshi & al. (2020).

Cet article dresse un inventaire détaillé de l'existant, forcément perfectible, et mentionne en seconde partie quelques pistes et potentiels, en se concentrant sur les outils du traitement automatique des langues et les ressources à son développement (pour les dernières mises à jour de l'inventaire synthétique des ressources en breton, se reporter à Entrelangues). Le domaine des applications web ne se trouveront mentionnés qu'à la marge. L'état des lieux ci-dessous respecte l'ordre ternaire de développement ressources > outils informatiques > applications. Les ressources sont constituées par tous les corpus numériques disponibles en accès libre dans une langue. Les outils informatiques sont développés à partir de ces corpus. Ils servent aux informaticien.ne.s à créer finalement les applications qui servent aux locuteurs. Je ne rends pas compte ici des études sociologiques des usages numériques. Ces dernières ne peuvent pas rendre compte du devéloppement TAL puisque, par définition, elles ne s'occupent que des applications existantes, déjà finalisées pour les utilisateurs.

Pour cet article, Mélanie Jouitteau (IKER, CNRS) a interviewé les chercheurs de l'IRISA Damien Lolive (3h) et Annie Foret (2h) en novembre et décembre 2021, et collaboré avec le développeur web Reun Bideault. Qu'ils soient remerciés ici du temps qu'ils y ont consacré. Cette synthèse est alimentée par ailleurs des synthèses du développement TAL pour le breton auparavant publiées: Aubry (2004), Mermet (2006), Foret & al. (2015), Tyers & Howell (2021:437-438), et pour les traductions de logiciels, Kerbrat (2021a,b). Cette page est tenue à jour. Vous pouvez signaler tout manque éventuel.

Ressources de corpus disponibles

Un corpus disponible pour le TAL est sous format numérique et libre de droits. La langue bretonne n'est pas une langue minorisée pour laquelle manquent les corpus en général, mais peu sont réellement immédiatement accessibles pour des traitements automatiques de la langue (éditions épuisées, copyrights restrictifs, documents non-OCR, corpus numériques à URLs non-stables, éditions papier non-numérisées, ronéotées, manuscrits, etc.).

Un corpus disponible pour le développement TAL signifie aussi que ce corpus est repérable automatiquement sur la toile. En mai 2022, l'ACL (Association for Computational Linguistics) repérait trois ressources logicielles pour le breton. Le catalogue LDC (Linguistic Data Consortium) n'a repéré aucune ressource pour le breton. Une fois que ces corpus existent, il est donc essentiel de travailler sur leur repérabilité à l'international.

Ci-dessous, sont listées les ressources à-priori disponibles, ou déjà utilisées en TAL. Pour explorer les potentiels non-encore exploitables, regardez la liste des corpus tournés vers l'apprentissage humain dans la page corpus de ce site.

corpus de données brutes

Les corpus de données brutes ne sont pas annotés ni même traduits. Ce sont des textes monolingues utilisables car en accès libre, ou des enregistrement vocaux, sans copyright propriétaire attaché. Plus une langue est disponible sous forme de corpus de données brutes, plus le développement d'outils TAL est aisé.

Thierry Poibeau signale 23 Mo de données brutes de texte en breton, sans annotations, dans le corpus Oscar, qui sert actuellement pour mettre au point des modèles pour le TAL par modèles neuronaux (type Bert). Ce corpus assemblé contient wikipedia.br et wikimammenn. L'extraction automatique doit au-delà être triée à la main, car elle contient d'autres langues.

Fin 2023, Wikipedia en breton constitue un corpus de données brutes de 85.059 articles.

Fin 2023, Wikimammenn distribue 9396 pages de texte (9088 début 2023).

Fin 2023, le dépôt universitaire de mémoires après soutenance (DUMAS) qui permet de les lister selon la langue du document en compte 14 en breton.

La bibliothèque de l'université de Rennes a quelques écrits universitaires en ligne, et signale les écrits disponibles en ligne.

L'association C'hoariva met en ligne des pièces de théâtre libres de droits.

TES a mis en ligne quelques documents pédagogiques à destination des enseignants de collège.

http://ircom.huma-num.fr/site/corpus.php?langue=Breton

Pour un inventaire écrit, forcément incomplet mais vérifié par des brittophones, voir l'inventaire des URLs de contenu en breton sur ce site.

corpus parallèles, corpus alignés

Les corpus parallèles, dits aussi corpus alignés, sont constitués de corpus qui ont une traduction dans au moins une autre langue.

Il existe pour le breton quelques corpus parallèles bilingues et multilingues :

OPUS contient plus de 400,000 paires de phrases provenant de WikiMatrix, MultiCCAligned, XLEnt (problèmes d'alignement du wiki), GNOME, KDE4 (vocab informatique pour les interfaces), OfisPublik (2009), Mozilla, Wikimedia, QED v2.0a, OpenSubtitles, Tatoeba, Ubuntu v14.10.

Sánchez-Cartagena & al. (2020) estime que la plupart des phrases y sont spécialisées en informatique, considérant probablement GNOME et KDE4.

Les archives de traduction de l'Office constituent un corpus bilingue. Le corpus de phrases en breton, et corpus de phrases en français, sont officiellement téléchargeables et libres de droit.

Ce corpus parallèle est évolutif au fur et à mesure des travaux de traduction de l'Office du français au breton. Il concerne principalement le breton standard, et un breton plutôt administratif et de discours politique. Ce corpus a été utilisé dès la création du premier traducteur automatique (Tyers 2009), et les premiers dépôts datent de cette époque. Ar Mogn (2015:15m40s), co-directeur de l'Office, mentionne un corpus de 43.000 phrases bretonnes traduites. Le compte-rendu d'activité de l'OPAB 2020 publié en 2022 mentionne 100.000 phrases alignées. Kerbrat (2021a,b) estime ce corpus à "environ 1 million de mots". Ce corpus apparaît versionné, mais sans date ou références. Le site fr.brezhoneg.bzh (accédé fin 2023) donne 4.500 paires de phrases. Le portail numérique ouvert en 2023 en livre 60.000, ce qui laisse 40.000 paires de phrases de côté.

Quelques centaines de phrases de ce corpus aligné ont été utilisées dans le corpus annoté UD Breton KEB de Tyers & Ravishankar (2018).

la wikigrammaire ARBRES des dialectes du breton (Jouitteau 2009-) organise plus de 15.000 phrases de breton dialectal, dont le breton standard, traduites en français. Il en existe une extraction partielle en format ConllU sur github, opérée par l'équipe de l'ANR Autogramm.

la Déclaration des Droits Humains de l'OHCHR

David Ar Rouz. 2013. 'Traduisons encore et encore !', An Dasson, 17-38. texte

les corrigés d'épreuves de traductions des concours du CAPES et de l'AGREG

La conférence WebNLG 2023 a mis en ligne un jeu de données multilingues irlandais/gallois/breton/anglais/russe. Attention cependant, au moins en gallois et en breton les données d'entrainement sont très mauvaises. Le jeu de données dev est un peu artificiel, mais grammatical.

D'autres corpus parallèles sont sous copyright, comme les traductions du Petit Prince de Saint-Exupéry.

dictionnaires libres

Les dictionnaires disponibles pour le développement TAL sont accessibles et libres de droits. Si ils ont aussi une interface qui les rend utilisables pour des humains, ils constituent aussi des applications disponibles pour les locuteurs et les apprenants. Si ils ont ce lectorat humains mais ne sont pas libres de droits, ce sont des applications numériques qui ne sont pas des ressources de développement TAL.

Le dictionnaire breton-néerlandais de Jan Deloof comporte 40,000 entrées. Kevin Donnelly, qui a géré la mise en interface ici, considère qu'il s'agit du plus grand dictionnaire libre (GPL) pour une langue celtique (Donnelly 2010).

Le dictionnaire de Henry (1900), libre de droits, a été reversé dans wikisource, puis dans wikidata lexèmes.

Depuis 2019, Nicolas Vigneron développe wikidata lexèmes (voir par exemple les lexèmes gwez ou Meurzh). Le dictionnaire de Henry (1900) lui a fourni dans les 4000 lexèmes.

Le dictionnaire Freelang fr <-> br (disponible en ligne ou téléchargeable) de Tomaz Jacquet comporte 37.800 entrées. Tyers (2009) en a importé semi-automatiquement les classes lexicales.

La wikigrammaire ARBRES Jouitteau (2009-) utilise des listes de noms, de verbes, d'adjectifs, d'adverbes etc, classés par catégories.

Le dictionnaire multilingue de wikipedia, wiktionnary, comprend le breton avec wikeriadur.

Le dictionnaire br -> fr de Cornillet (2017) a été disponible en ligne. Il a été utilisé pour la synthèse de la parole, ce qui suggère une licence libre (?).

La base de données toponymique KerOfis de l'OPLB liste les noms propres des noms de lieux. Les fichiers CSV sont téléchargeables et libres de droits.

Le dictionnaire terminologique Termofis de l'OPLB.

Le dictionnaire multilingue Logos comprend le breton. C'est un site collaboratif de traducteurs professionnels sur invitation.

pour étendre cette liste de ressources et travailler sur les potentiels d'ouverture de copyright, se reporter aux dictionnaires numériques accessibles en lecture.

corpus de fichiers sonores

Il existe différents sites de collecte de données brutes, par des universités (Irisa à Lannion) ou par des collectifs associatifs à la durée de vie variable. Ces derniers n'en sont pas pour autant négligeables et constituent des travaux considérables, avec traductions des données dialectales ou explicitation en standard. À ma connaissance, il n'existe aucune aide organisée à ces travaux pionniers, même pour l'hébergement et la conservation à long terme des données.

audio & textes alignés

Common voice de Mozilla a lancé en 2018 un module de collecte de la parole en crowdsourcing, qui permet aux utilisateurs d'enregistrer leur propre parole, ou d'évaluer les enregistrements laissés par d'autres (11h d'enregistrements validés début 2023, 12h en novembre 2023). (cf. analyse des données en breton).

Lingua libre, la médiathèque linguistique participative de Wikimédia France, a une entrée dédiée au breton. L'outil record wizard permet d'enregistrer des mots proposés librement. L'outil permet d'enrichir ainsi une bibliothèque sonore pour les noms communs, mais aussi les noms propres dont les noms de lieux tels que prononcés par les personnes du lieu.

La collection Jouitteau & al. (2023) sur Cocoon - le premier fichier en ligne est l'enregistrement transcrit de tâches de prononciation d'un protocole prosodique. Sur la première livraison, seul le breton de la locutrice est transcrit. 23 min fin 2023.

IRISA & OPAB (2024), publié à la suite de Guennec & al. (2022), est accessible sur GitHub. Il s'agit plus de 34h d'enregistrements de textes lus par 2 voix ("Aziliz", féminine et "Per", masculine), non-utilisable car sous licence propriétaire.

audio non-transcrit

Les fichiers audio non-transcrits des enquêtes du Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001) devraient pouvoir être au moins partiellement utilisées, mais cela demanderait un tri méticuleux. L'utilisabilité de ces derniers corpus serait à vérifier au cas par cas, car il s'agit de séances d'élicitation de mots isolés de vocabulaire à partir de gestes produits par le chercheur, et qui sont donc par définitions absents de l'enregistrement. Sur l'enregistrement de Bourg-Blanc ici, la locutrice répond la plupart du temps par un mot isolé, et son intonation est souvent celle, interrogative, de la locutrice qui demande si sa réponse est satisfaisante.

Les fichiers audio non-transcrits de l'ALCAM: Enquête dialectologique par ex. l'interview de Yves Le Goff à Landeda.

Le corpus VoxLingua107, constitué par l'université de Tallinn en Estonie dans l'objectif d'entraîner des modèles d'identification automatique des langues, comprend des enregistrements bruts (non alignés) de 107 langues différentes. On y trouve 44h d'extraits sonores pour le breton. Les extraits proviennent de Youtube et sont de qualité variable (extraction automatique, non validé). Le corpus est distribué sous licence Creative Commons Attribution 4.0 International.

les Dictionnaires bretons parlants (Cheveau & Kersulec 2012-évolutif)

la banque sonore des dialectes du breton (Desseigne & al. 2013-2018)

Brezhoneg Bro-Vear (Yekel, Georgelin & Ar C'hozh 2015-2023)

Les enregistrements audio de corpus libres existent dans les différents dialectes du breton, stockés dans les archives des différentes radios et télés bretonnes, sous des formats différents allant de l'analogique au numérique. Il existe différentes initiatives privées d'alignement de corpus audio, mais la question de l'ouverture des droits empêche leur distribuabilité publique, et donc leur utilisation pour le développement.

Ar Braz, Kristian. 2021. A-hed ar c'hantved, TES, en linenn.

Alan Dipode et Marivon Berr lisent sur Utube des extraits des quatre premiers chapitres du Hobbit, avec le texte qui défile et des sous-titres disponibles en français et anglais

Fin 2022, Breizh-Amerika annonce collaborer à la création d'un dictionnaire breton vivant, hébergé par le Living Tongues Institute for Endangered Languages fondé par Gregory Anderson. Selon les conditions d'utilisation, "the language community owns the rights to the data". En mai 2024, après publication des données, les droits sont finalement strictement propriétaires.

Le site langues de Bretagne fournit une application d'enregistrement Android, Accents de Bretagne, qui cartographie les fichiers obtenus sur une carte de Bretagne.

Le site du périodique Ya! contient (début 2023) une dizaine d'heures d'audio : lecture à voix haute d'articles sélectionnés (à partir du numéro 872) par différents locuteurs. Puisqu'il s'agit de lectures verbatim du contenu du journal (disponible en pdf après paiement), leur alignement avec le texte est relativement aisé.

Helias, P.J. & Trepos, P. 'War un dachenn foobal, comédie', C'Hoariva Brezoneg Radio-Kimerh [Le Théatre Breton de Radio-Quimerc'h], en ligne

autres corpus existants, accès et estimations à vérifier

L'association An Drouizig revendique pour la construction de son correcteur orthographique Difazier [ver 4.4] l'analyse d'un corpus linguistique de 20 millions de mots bretons.

Leixa & al. (2014) ont essayé de recenser les corpus utilisables en TAL pour plusieurs langues minoritaires de l'État français. L'approche était un brin parachutée, avec un comptage pour le breton de 420 corpus utilisables, dont 403 corpus oraux et 17 corpus textes. "On trouve parmi ces ressources de petits enregistrements audio de quelques minutes, mais également d'importants corpus alignés pouvant servir de base à des technologies de la langue. Parmi les ressources audio, nous avons par exemple les enregistrements effectués par M. Jean Le Dû lors d'une enquête dialectologique réalisée en Bretagne, en vue de constituer le Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001). L'identification précise de l'ensemble des corpus listés dans Leixa & al. (2014) "est disponible sur le CD qui est joint au rapport" à la DGLFLF.

Le corpus audio breton de l'IRISA & OPAB des deux voix enregistrées avant 2022, Guennec & al. (2022) n'a pas pour l'instant été publié, ni non plus celui des deux voix "Loeiz" et "Rozenn" enregistrées après 2022, mentionnées dans IRISA & OPAB (2024). Cette équipe a publié un corpus de deux voix, "Aziliz" et "Per", qui est lui publié sous licence propriétaire.

corpus richement annotés

Les corpus richement annotés sont ceux qui contiennent beaucoup d'information méta sur les phrases. Les phrases sont traduites globalement comme dans un coprus aligné, mais elles sont aussi traduites mots-à-mots (cette traduction mot-à-mot est appelée une glose). La glose contient des informations sur l'élément linguistique en question (catégorie grammaticale, fonction, mutation déclenchée, etc.). Le corpus peut aussi contenir des informations sur les relations des mots entre eux (les relations verbe-sujet, les coréférences pronominales) et sur la structure syntaxique de la phrase. Comme la représentation syntaxique des phrases a vaguement la forme d'un arbre, on parle alors de banques d'arbres.

Les corpus annotés en ligne suivent des grands systèmes d'annotation reconnus au niveau international, comme celui de U.Penn, développé par Ann Taylor et Tony Kroch. Ces notations reconnues internationalement sont indispensables pour que des outils développés pour des grandes langues soient exploités pour des plus petites.

banques d'arbres Universal Dependencies

En 2022, la notation universelle reconnue pour le développement des outils TAL est Universal Dependencies ("format UD") (Nivre & al. 2020, De Marneffe & al. 2021). Cette norme organise les phrases en banques d'arbres syntaxiques, c'est-à-dire des phrases dont on a analysé la structure syntaxique.

Certains de ses choix fondamentaux comme de subordonner les catégories fonctionnelles aux catégories lexicales ne sont pas soutenus linguistiquement, mais la conversion de structures UD à des structures syntaxiques en constituants est automatisable en grande partie (Osborne & Gerdes 2019). UD propose un jeu d'une douzaine de parties du discours (parts of speech, POS) et deux douzaines de fonctions grammaticales.

banque d'arbres UD de Tyers & Ravishankar (2018)

Tyers & Ravishankar (2018) ont constitué pour le breton le premier corpus sous forme de banque d'arbres. Ce corpus tree-bank breton de 10 000 tokens hébergé sur GitHub a été annoté manuellement. L'annotation suit les recommandations de Universal Depedencies. L'analyseur morphologique de Tyers (2009) pour Apertium a été utilisé pour la tokenisation et l'annotation morphologique. Le texte du corpus consiste en 888 syntagmes, la plupart des phrases, provenant d'exemples de grammaires, de phrases tirées de wikipedia en breton, de textes administratifs de l'Office et de textes du journal Bremaik, ainsi que deux chansons traditionnelles. La composition est détaillée dans Tyers & Howell (2021:450). Depuis 2023, les phrases sont traduites manuellement en français et anglais. Cette banque d'arbres a d'ores et déjà servi à une expérimentation pour la construction de grammaires de dépendances afin de construire un outil de lecture augmentée (Martinet 2021).

corpus annoté traduit de la grammaire formelle ARBRES

La wikigrammaire ARBRES sur le présent site (Jouitteau (2009-) est sous licence Creative Commons CC BY-NC-SA. Il comporte une masse importante de données du breton localisées par leur dialecte, traduites mais aussi glosées mot à mot. Fin 2021, le site contient plus de 7.300 phrases annotées et traduites, organisées en tableaux de type "prettytable" qui ont servi à aligner chaque mot breton avec sa glose en français. La système de catégorisation des pages du wiki fournit des informations catégorielles (POS).

La wikigrammaire utilise des exemples tirés de plus de mille ouvrages de recherche scientifique sur le breton, des données de séances d'élicitation avec des locuteurs natifs effectuées par Mélanie Jouitteau, à son initiative ou à la demande d'autres linguistes, et dont les résultats bruts sont disponibles en ligne dans la centrale d'élicitation avant exploitation, ainsi que de 467 sources de corpus écrits différents, du vieux breton aux dialectes bretons modernes, breton standard y compris. Les dialectes y sont mentionnés comme tels, et la typification dialectale est associée à chaque donnée, donc il serait possible pour un traitement automatique de mettre de côté les états anciens de la langue, et les quelques données comparatives tirées de langues autres (hébreu, basque, occitan, etc.). Les données de la wikigrammaire ont servi à l'établissement d'une grammaire descriptive, donc elles ont été sélectionnées pour représenter la plus grande variété possible de structures syntaxiques. La graphie est riche car l'orthographe des sources diverses a été respectée - les gloses, elles, sont en orthographe peurunvan (unifiée). Certaines données, plutôt rares à l'échelle du corpus, comportent en plus une ligne de code donnant la tokenisation de la donnée en API, ou dans des orthographes originales renseignant la prononciation. Ces scripts peuvent être mis de côté car ils sont signalés par une balise de mise en couleur verte ( < (/) font color=green >). Les traductions en français viennent soit de corpus déjà bilingues, soit sont effectuées par Mélanie Jouitteau (native français, breton L2).

Il existe un projet de conversion de la base de données en un corpus UD. Ce projet ébauché dans Jouitteau & Bideault (2023) relève que le codage UD du breton treebank I Breton KEB ressemble sur bien des points au code de la wikigrammaire ARBRES. Cette conversion des données en format SUD, puis UD, est tentée depuis début 2022 par un projet pilote de l'équipe de l'ANR Autogramm en collaboration avec Mélanie Jouitteau. La synthèse à jour de la mise en place de cette conversion est documentée sur la page Breton treebank II.

Les données de la wikigrammaire ARBRES ont contribué au développement du traducteur automatique Grobol (2022-) et au traducteur OPLB & al. (2022-), et à la marge à la construction du conjugateur de verbes bretons (displeger verboù brezhonek).

Outils informatiques pour le développement TAL

outils de parole écrite

reconnaissance de caractères

Il existe plusieurs outils de reconnaissance de caractères qui prétendent pouvoir interpréter du breton, c'est-à-dire extraire un format texte à partir d'une image ou d'un pdf. Certains sont inefficaces. i2OCR a des résultats moyens à partir d'images et mauvais à partir d'un pdf. OnlineOCR a des résultats moyens. IronOCR propose l'installation d'un pack, et fait appel aux développeurs. Jouitteau (2023e) signale l'absence d'OCR en breton comme un goulet d'étranglement de son développement numérique. Il existe en effet une masse considérable de breton écrit scanné en ligne (cf. IDBE) qui pourrait venir augmenter les corpus dans la langue.

matériel lexical pour les interfaces des applications

L'Office Public de la Langue Bretonne fournit la traduction en breton des données du CLDR (Common Locale Data Repository) d'Unicode, qui regroupe l'ensemble des paramètres régionaux à destination des applications informatiques. Lors de la publication de la version 38 du CLDR fin 2020, Kerbrat (2021a,b) estime que le breton a atteint l'avant-dernier niveau de couverture (Moderate++). Tomaz Jacquet rend disponible en ligne sous différents formats un dictionnaire trilingue breton, français anglais du vocabulaire utilisé dans les logiciels.

dictionnaire

Le dictionnaire breton-français d' Apertium (Tyers & al. 2011) est sous license GPL-2. Il a aussi été converti en version Ontolex-lemon et TIAD (Chiarcos & Ionov 2020).

analyseur morphologique

Le premier analyseur morphologique du breton a été construit par Tyers (2009) pour Apertium (Tyers & al. 2011). Il est sous licence GPL-2.

Tyers & Howell (2021) évaluent les résultats de l'analyseur morphologique couplé avec un désambiguïsateur morphologique basé sur une grammaire de contraintes. Ces deux outils sont disponibles en logiciel open-source du projet Apertium (GNU GPL 3.0). L'analyseur consiste en un transducteur à états finis qui gère l'interface entre les formes de surface et les formes lexicales (les tags morphosyntaxiques et leurs lemmas). Il permet l'analyse de formes comme leur production. Les homophones sont départagés par un ensemble de règles de désambiguïsations morphologiques basé sur une grammaire de contraintes qui a été développée à partir de corrections des traductions automatisées par un locuteur [Fulup Jakez remercié en note ?] et Francis Tyers.

détecteur automatique de la langue

Foret (2018b) relève une méthode pour les langues celtiques dans Minocha & Tyers (2014) et cite deux détecteurs accessibles qui gèrent le breton: open.xerox.com et G2LI.

Le détecteur de langues de FastText élaboré par Joulin et al. (2016a, 2016b) inclut le breton parmi les 157 langues traitées.

grammaire de contraintes

Apertium

parseur

De Lhoneux & al. (2022) testent une méthode de parsing qui a donné de bons résultats pour le breton spécifiquement.

outils de parole orale

Les outils de parole orale comprennent deux pans, la synthèse vocale qui permet à un non-humain de produire des sons de la langue à partir d'un écrit, et la reconnaissance vocale qui permet de reconnaître la parole humaine et de la transcrire. Les deux systèmes sont indépendants et indispensables au développement d'assistants virtuels qui produisent un "dialogue" oral entre un humain et une machine.

synthèse vocale

La Région Bretagne à travers l'Office Public de la Langue Bretonne, a financé à hauteur de presque 200.000 euros la construction d'un moteur de synthèse de la parole (breton KLT standard, un homme, une femme). Le projet était dirigé en TAL par Damien Lolive et Gwénolé Lecorvé de l'ENSSAT du laboratoire Expression à Lannion en collaboration avec la maison d'édition Skol Vreizh. Il a été et livré à l'Office en mars 2021.

Les deux locuteurs qui ont prêté leur voix ont été élevés en milieu brittophone trégorrois, à tendance plus standard pour Annaig Kervella (fille de Frañsez Kervella), et plus traditionnelle pour Pascal Lintanf (avec influences léonardes pour ce dernier). Chacun des deux corpus oraux produits durent un peu plus de 20h, ils ont été constitués par tâche de lecture d'un corpus de breton standard constitué principalement de discours journalistique, et aussi de textes littéraires (environ 10% sont des dialogues, joués avec expressivité modérée). Le corpus écrit correspondant a été normalisé (écriture en lettres des nombres et acronymes, prononciation différenciée des noms propres, etc.) puis, un panel d'experts choisi par Skol Vreizh et principalement le second locuteur Pascal Lintanf (cf. An Intanv 1994) ont constitué un répertoire de règles de prononciation. Un lexique donnant une prononciation standard accentuée en API a été constitué par arbitrage entre plusieurs sources de lexiques phonétisés et écrits en orthographe unifiée : le dictionnaire An Here de Menard & Kadored (2001), le dictionnaire de Francis Favereau (2015) et des bases de données consultables en ligne de Francis Favereau et de Gérard Cornillet (2017). D'autres données y ont été intégrées comme celles des noms propres, fournies par l'OPLB, et celles rencontrées dans les corpus constitués. Pour dix mois, Gaëlle Vidal, ingénieure d'études en acoustique, a défini et enregistré un corpus de textes, sélectionné les locuteurs, et procédé aux enregistrements et à leur découpage en phrases. Hassan Hajipoor, ingénieur de recherche, a ensuite eu 18 mois (dont un confinement) pour construire un phonétiseur, comprenant un modèle de la syllabe et de l'accentuation qui a pu être paramétrisé pour les exceptions, et entraîner un réseau de neurones sur le corpus oral et le dictionnaire. Pour ce travail, Gwénolé Lecorvé mentionne aussi les collaborations de Mr. Antoine Perquin, Dr. Laurent Amsaleg, Mr. Simon Giddings, Dr. Pierre Alain, Mr. Quentin Di-Fant, Dr. Arnaud Delhay, et Dr. Waseem Safi.

Le système en end-to-end livre le fichier son à partir de la phrase écrite. La technique ne permet pas de prendre en charge la structure informationnelle et la prosodie associée, mais l'accentuation de mot et les phénomènes de frontière de mot comme la mutation ou le sandhi sont pris en charge (Guennec & al. 2022). En 2022, l'équipe étend son corpus oral aux autres dialectes du KLT.

les années pionnières de la synthèse vocale

La première vague de réalisations pour la synthèse vocale du breton occupe les années 1990 et le tout début des années 2000. Une génération de chercheurs universitaires s'attaque coup sur coup à la synthèse de la voix et aux applications accessibles à l'époque, avec une effervescence dont témoigne la diversité soudaine de rapports de stage à l'ENSSAT. Il existe des synthèses récapitulatives de ce que l'on peut appeler ce mouvement dans Aubry (2004), Mermet (2006) et Mercier (2018). Les organes de presse locaux gardent aussi parfois en archive les articles qui sortent à livraison des outils.

 Aubry (2004:13):
 "En 1994, le responsable des collections T.E.S. (Ti Embann ar Skolioù Brezhonek, maison d'édition pour les écoles bretonnes), R. Le Coadic, des personnes de Skol Vreizh, des enseignants linguistes (université de Rennes II et de Lampeter au pays de Galles), des chercheurs de l'I.R.I.S.A. (Institut de recherches en Informatique et Systèmes Aléatoires), enseignants à l'ENSSAT et des ingénieurs d'Alcatel et du C.N.E.T. (France Télécom), ayant travaillé dans le domaine du traitement du signal, de la parole ou dans l'informatique s'unissent pour former un groupe de travail informel. Ce groupe de travail se réunissant tous les mois essaie de faire le point sur l'état des différentes technologies de l'époque et sur les besoins pédagogiques des enseignants et des élèves des différentes filières de l'éducation (Diwan, écoles bilingues du public et du privé) enseignant le breton et en breton.
 En 1995, T.E.S., l'I.R.I.S.A., l'université de Rennes II, Skol Vreizh et les membres du groupe de travail décident de coopérer pour développer de nouveaux outils pédagogiques intégrant les technologies de l'information et les technologies vocales afin de tirer le meilleur parti de la rapidité, de la fiabilité et de la robustesse des techniques de traitement de la parole (analyse, synthèse, reconnaissance, visualisation) et pour lancer le projet K.G.B. (Kenaoz ar Gomz e Brezhoneg, synthèse de la parole en breton) dans le cadre du projet CORDIAL de l'IRISA."

Mermet (2006:23-25) détaille les travaux :
"De 1990 à 1998 se met en place les différents outils qui vont permettre la synthèse vocale de la langue bretonne. Successivement on note la transcription des graphèmes en phonèmes (Paskal An Intanv 1994, Jean Luc Tromparent 1995) qui débouche en 1996, sur la synthèse de quelques phrases en breton par Herve Gourmelon, puis l'enregistrement oral d'un corpus prononcé par la chanteuse Annie Ebrel et numérisé à l'ENSSAT par SOKOL.
Le corpus est ensuite segmenté en phonèmes et diphones avec inclusion des marques de pitch. Toujours en 1996, est réalisé un travail de standardisation du corpus à l'école polytechnique de MONS en Belgique à l'aide du programme MBROLA.
Le travail se poursuit en 1997 par la mise en place d'une base de diphone, par le passage de la norme API (Alphabet Phonétique International) à la forme Sampa utilisée par le synthétiseur MBROLA, par l'inclusion de marques prosodiques calculées à partir de la durée des phonèmes et de valeur de la hauteur des consonnes voisées.
L'effort se poursuit la même année par la transcription des fichiers du dictionnaire de F. Favereau (1992) du format Word 2 au format RTF Rich Text Format (H. Gourmelon, J.P. Messager), l'identification des champs (stagiaires), le développement d'un programme de lecture du dictionnaire de Francis Favereau (X. Madigou avec l'ENSSAT), la modélisation des premiers schémas prosodiques (Herve Gourmelon). Le travail est finalisé par l'intégration du moteur de synthèse MBROLA au dictionnaire qui sera donc édité sous la forme d'un cédérom en 1998.

À la fin des années 90, TES et l'équipe CORDIAL du laboratoire IRISA (U. Rennes I) sortent donc le dictionnaire parlant Favereau, IRISA & TES. (1999), Ar geriadur a gomz brezhoneg a-vremañ à Morlaix aux éditions Skol Vreizh. Il s'agit d'un dictionnaire vocal de 36.000 mots sur CD-ROM, tirés des entrées du Dictionnaire du breton contemporain de F. Favereau, 1993. Le journal Le Télégramme annonce la sortie du CD-rom le 26 mars 1999. C'est selon l'article "l'aboutissement de trois années de recherche sur la synthèse vocale en langue bretonne qui, avec l'appui de l'Union européenne, a réuni une exceptionnelle moisson de compétences [avec] l'ENSSAT (École nationale supérieure des sciences appliquées et de technologie) à Lannion, [l'équipe CORDIAL du laboratoire] IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) à Rennes, les universités de Rennes 2, Mons (Belgique), Limerick (Irlande) et Lampeter (Pays de Galles)." L'article ajoute que la chanteuse Annie Ebrel a du pour ce faire prononcer "3.000 demi-syllabes sur tous les tons". Plusieurs publications universitaires retracent la genèse de ce travail (voir le résumé de Aubry 2004:12-13, et Mermet (2006:20-38). Ar Barzh (1996) évoque la constitution d'un corpus de parole pour la synthèse de la langue bretonne, puis trois publications consécutives présentent l'aboutissement de ce projet de synthèse de la parole appelé Kenaoz ar Gomz e Brezhoneg (KGB) : Messager, Gourmelon, Mercier & Siroux (1998), Gourmelon, Mercier, Messager & Siroux (1999) et Mercier, Guyomard & Siroux (1999).

La diffusion de ce travail important a été disproportionnellement réduite. Mille exemplaires en ont été distribués aux écoles. William Marois, alors recteur d'académie, avait déclaré au Télégramme que "ce produit innovant marque la volonté de l'Éducation nationale de développer l'apprentissage de la langue". Au début des années 2000, le dictionnaire Favereau (1993) apparaît en ligne, mais sans parole associée. Le CD-ROM n'est plus au catalogue des éditions Skol Vreizh.

Dans Messager & al. (1998), le dictionnaire parlant est considéré comme réalisé, et l'équipe se tourne vers la création d'un entraineur prosodique pédagogique, et d'une amélioration globale de la prosodie obtenue. Irisa (2001) rend compte des progrès : "les principales améliorations concerne la modélisation prosodique. L'utilisation de nouveaux corpus de parole mis à notre disposition par l'université de Rennes I et le CRDP et la mise au point d'outils de segmentation automatique nous ont permis d'améliorer nos connaissances sur la prosodie du breton et d'améliorer les règles de calcul des paramètres prosodiques au niveau des syllabes accentuées et réduites." Le Télégramme (1999) annonçait pour 2001 "un logiciel de dictée avec un contrôle automatique adapté aux exercices individuels".

 Mermet (2006:25) :
 "Le dictionnaire de référence sera […] transformé sous la forme d'une base de données par D. Auclerc en 2000. À partir de 2001 un nouveau programme sera intégré à la deuxième version du dictionnaire vocal (Yves Aubry, A. Bramoullé). 
 Cependant, dès 1998, les recherches reprennent visant à mettre au point un programme de traitement du signal de la parole et de sa visualisation (P. Parnet 1998 ; Mocquart 1999 ; A. Guillou 2000; F. Moullet 2001), puis de la concaténation des diphones par le synthétiseur vocal MBROLA (Dutoit 2001). À partir de 2001, une première version d'un logiciel de synthèse en breton à partir de texte est mis au point. L'interface est développée en langage DELPHI. La transcription des graphèmes en phonèmes est par ailleurs améliorée."

correcteur prosodique

Télégramme (1999) annonce "pour l'an 2000 un cédérom de prosodie qui permettra ainsi, par un système de courbes, de corriger automatiquement en temps réel les défauts de prononciation de l'élève. Un apport fondamental dans une langue où l'accent tonique a tant d'importance." Irisa (2001) rend compte des progrès: "Les améliorations introduites dans ce logiciel ont porté principalement sur le module de comparaison dynamique entre la parole à segmenter et la parole « modèle ». Grâce à ce module, le tuteur peut maintenant créer ses propres exercices pédagogiques de manière plus conviviale car il peut segmenter ses enregistrements de manière quasi automatique en comparant la représentation spectrale de sa prononciation à la représentation acoustique de la même phrase produite par synthèse à partir du texte. Grâce à cette segmentation automatique, on peut synchroniser et superposer les différentes courbes prosodiques (énergie, fréquence fondamentale), syllabe par syllabe et ainsi bien visualiser les différences de production entre le maître et l'élève."

Aubry (2000, 2004) publie deux articles de compte-rendu détaillé de création de cet entraineur prosodique.

reconnaissance vocale

La reconnaissance vocale représente un défi conséquent: si la synthèse de la voix a pu se concentrer sur le breton standard, la reconnaissance vocale nécessite de pouvoir traiter une source multidialectale, avec des tessitures vocales d'hommes, de femmes et d'enfants.

En ce qui concerne les conditions de réalisabilité de ce gros chantier de la reconnaissance vocale, et étant donné l'état des techniques en 2021, Damien Lolive (c.p. 10.2021) estimait que la reconnaissance de la voix nécessiterait un corpus d'un millier de locuteurs différents ne parlant pas plus de trois minutes, si l'audio est transcrit et que le son est propre (pas de chevauchements, environnement calme). Cela représenterait 50h en tout. Kerbrat (2021a,b) estime, lui, que le corpus devra atteindre les 200 heures. Francis Tyers a effectué quelques tests avec les données de Common Voice (Kerbrat 2021a,b), qui compte maintenant 2h de données vocales (dans le sous-ensemble train, sur 11h d'enregistrement validé). Gweltaz Duval-Guennoc (2022) y ajouté 7h de corpus privé de données audio alignées de diverses sources, et témoigne d'une amélioration rapide. Preben Vangberg a commencé une thèse à l'université de Bangor (Wales) sur la reconnaissance vocale du breton. La clef du développement de la reconnaissance vocale tient actuellement toute entière dans la disponibilité libre de droits de corpus alignés importants.

La demande sociétale est forte. La communication à distance entre jeunes brittophones privilégie les sms, or la dictée des sms en français est possible, efficace et rapide alors qu'envoyer un sms en breton demande de taper le message, voire de stopper l'autocorrection à chaque mot, interprété comme du français. Ce handicap impacte lourdement les échanges en breton des plus jeunes générations. La reconnaissance vocale permet aussi l'accélération et la baisse de coûts d'usages dans des professions nécessaires au développement de la langue, comme le dérushage des réalisatrices ou réalisateurs de films, ou la transcription automatique de réunions ou compte-rendus professionnels, ou encore le sous-titrage d'évènements télévisuels en direct, comme des commentaires de match.

Applications disponibles, même si en perfectionnement

Les applications disponible pour l'usage des locuteurs, si leur construction est open source, constituent aussi des outils TAL pour le développement d'autres applications. Les applications dont le copyright est propriétaire ne sont pas réutilisables comme outils informatiques pour le développement.

applications de parole écrite

traducteurs automatiques

historique : Apertium pionnier

Apertium a fourni une interface de traduction breton > français, à partir de l'analyse morphologique de Tyers (2007-2009) et d'un dictionnaire bilingue (cf. Tyers 2009, 2010a, 2010b). La dernière version est téléchargeable sur Sourceforge. Ce premier traducteur avait été développé par Francis Tyers, Ofis [publik] ar Brezhoneg, la compagnie espagnole Prompsit Language Engineering, et une équipe de l'université d'Alicante sur la plate-forme RBMT (Forcada & al., 2011, Khanna & al. 2021). LIl s'appuie au départ sur les dictionnaires libres regroupés par Lexilogos. L'Office Public de la Langue Bretonne en a diffusé jusqu'en 2023 une version en ligne du traducteur d'Apertium, troer emgefre traducteur automatique, uniquement dans le sens breton > français.

Tyers (2010) a décrit un système de traduction automatique breton > français basé sur des règles. Poibeau (2014) a contribué à l'étude du traitement de mutations consonantiques en proposant de rendre compte des mutations consonantiques avec des transducteurs à états finis (une règle de réécriture). Il s'agissait d'une suggestion technique plus que d'une prise en charge du phénomène réel, car il n'évoque pas les barrières aux mutations.

Sánchez-Cartagena & al. (2015) ont travaillé à une amélioration non supervisée d'Apertium. Ils ont créé un algorithme pour l'inférence automatique de règles de transfert superficiel à partir de petits corpus parallèles et de dictionnaires RBMT existants. En utilisant uniquement les données parallèles préparées par Tyers (2009), l'application de l'algorithme au système Apertium breton-français a obtenu un ensemble de règles dont la qualité, telle que mesurée par les métriques d'évaluation automatique de la traduction automatique, était proche des règles de traduction manuelles.

traducteurs IA

Il y a eu plusieurs utilisations des réseaux de neurones. Le premier est de l'équipe historique d'Apertium. Sánchez-Cartagena & al. (2020) ont étudié la qualité d'un système hybride de traduction automatique entre le breton et le français, qui utilise à la fois un système neuronal et un système basé sur des règles. En dépit du fait que le système basé sur des règles a des performances jugées pauvres, sa combinaison avec le système neuronal a amélioré la qualité globale des résultats obtenus. Le second emploi des réseaux de neurones est un traducteur du breton <> anglais (Opus-MT Team 2021) développé par l'université d'Helsinki. Le traducteur n'est pas encore en état d'être utilisé. Il donne parfois des résultats erratiques. Il est testable sur le site de European Language Grid.

Enfin, deux projets démarrés en 2022 ont été développés à partir du même algorithme, BERT. Les résultats des deux sont nettement qualitativement supérieurs à celui d'Apertium. Loïc Grobol (Modyco, Paris Nanterre) fait fin 2022 les premiers essais de développement de traducteur br <> fr à partir d'un traducteur multilingue entrainé sur un ancien corpus parallèle de l'Ofis, un corpus rassemblé par OSCAR (Open Super-large Crawled Aggregated coRpus), et Breton treebank II que l'ANR autogramm a extrait de la wikigrammaire ARBRES (Grobol 2022-). Alan Entem et Brendan-Budok Durand-Le Ludec développent en parallèle pour l'Office un traducteur automatique à partir du même algorithme (OPLB & al. 2022-). Les deux projets échangent sur leurs méthodologies depuis novembre 2022, mais seul le train d'entrainement de Loic Gorobol est partagé ouvertement. Malgré des demandes répétées, l'Office refuse d'ouvrir les données d'entrainement du traducteur qu'ils ont financé. Il est maintenant en ligne sous copyright propriétaire.

En 2023, Baidu a mis en ligne un traducteur multilingue prenant en charge le breton, en se servant du chinois comme langue pivot.

fr<->br, multilingues

Glosbe propose certaines traductions br <-> fr.

En utilisant la technologie des réseaux de neurones, l'équipe OPUS-MT de l'université d'Helsinki développe un traducteur automatique multilingue qui comprend un traducteur anglais-breton et breton-anglais.

évaluer les traducteurs

Xiang & al. (2021) évaluent un traducteur à partir d'une batterie de paires minimales montrant des phénomènes linguistiques triés sur le volet pour une langue donnée. Cela permet d'identifier où syntaxiquement un modèle rencontre des problèmes, et de comparer les performances de deux modèles.

conjugateur de verbes

Le conjugateur automatique de verbes DVB, displeger verboù brezhonek est développé par des membres de l'association An Drouizig 'Le petit Druide', des membres du commité Poellgor Bed Niverel 'Commité Monde Numérique', ainsi que des membres du projet. Ce projet est en ligne depuis le 25 juin 2021. Il pourrait être perfectionné avec une liste des verbes défectifs.

outils correcteurs

Le compte rendu d'activités de l'IRISA (2001) mentionnait qu'il était "désormais possible d'appeler le dictionnaire [vocal] comme outil de correction orthographique, dans une application de type traitement de texte". Il existe un rapport de projet de l'ENSSAT de 2003 sur le correcteur orthographique breton (Petit 2003). Poibeau (2014) qui fournit une formalisation des mutations consonantiques en utilisant des transducteurs à états finis suggère leur utilisation pour un correcteur orthographique.

Correcteur orthographique et grammatical Microsoft Office 2013, développé par l'association An Drouizig.

MacOffice 2001, Microsoft Office 2013

Correcteur orthographique Hunspell, développé par l'association An Drouizig.

Adobe Indesign, Firefox, LibreOffice & OpenOffice.org, MacOSX

Language tool, testable en ligne ici en breton, a des extensions pour différents navigateurs, applications bureautiques et emails. Ce correcteur orthographique et grammatical pour la suite bureautique a été développé par Dominique Pellé avec l'aide de l'Office Public de la Langue Bretonne, en intégrant Hunspell. L'Office rapporte une première version de 400 règles, avec repérage des fautes de mutation. Ce correcteur est évalué dans Morvan (2019).

dictionnaires en ligne, ressources lexicographiques

Il existe de nombreux dictionnaires en ligne du breton contemporain, et un aggrégateur de dictionnaires. Certains sont en accès libre, mais peu sont sous licence libre. Ils n'en constituent pas moins des applications utilisées par les locuteurs. Menard & Bihan (2016-) et Favereau (1993), probablement les plus consultés en ligne en 2022, comportent des entrées de dialectes traditionnels. Les autres sont plutôt de breton standard, ou concernent des domaines spécialisés.

Le dictionnaire Devri a été constitué par Martial Ménard, mis en ligne à son décès et sérieusement étendu depuis par Herve ar Bihan Menard & Bihan (2016-).

Le dictionnaire Favereau (1993) comporte 40.000 entrées et est interrogeable en ligne. La première synthèse de la voix de l'IRISA avait utilisé un algorithme pour en accepter les orthographes multiples. Il n'est pas en licence libre, raison pour laquelle Tyers ne l'utilise pas (Tyers & Howell 2021:440, fn11).

Le dictionnaire historique Meurgorf (2014-) diffusé par l'OPLB fournit les plus anciennes attestations sur une frise historique.

Le dictionnaire Freelang fr <-> br (disponible en ligne ou téléchargeable) de Tomaz Jacquet comporte 37.800 entrées.

Le dictionnaire multilingue de wikipedia, wiktionnary, comprend le breton avec wikeriadur.

Le dictionnaire de l'association Stur traduit 22.302 noms du français vers le breton. Il est cherchable en ligne.

La base de données toponymique KerOfis de l'OPLB liste les noms propres des noms de lieux.

Le dictionnaire terminologique Termofis de l'OPLB.

Brezhoneg21 = KAG (2016) fournit un lexique de type scolaire des sciences et techniques

voir aussi le dictionnaire Glosbe, et vérifier l'accessibilité des lexiques de Preder

vers d'autres langues que le français

Le breton-néerlandais de Jan Deloof comporte 40,000 entrées. Mise en ligne par Kevin Donnelly (Donnelly 2010).

La wikigrammaire ARBRES Jouitteau (2009-) utilise des listes de noms, de verbes, d'adjectifs, d'adverbes etc, classés par catégories. Ils sont traduits en français et en anglais.

Le dictionnaire multilingue Logos comprend le breton. C'est un site collaboratif de traducteurs professionnels sur invitation.

dictionnaires papiers mis en ligne

Le dictionnaire Favereau (2016-évolutif) est en ligne sous format pdf, avec des dossiers séparés pour chaque lettre initiale. Le copyright propriétaire mentionné sur le site est de 2016, mais l'auteur enrichit l'ouvrage régulièrement et met en ligne les pdfs par lettre du dictionnaire. La date de dernière modification pour chaque dossier est au début de chaque pdf.

Le dictionnaire de Henry (1900) est disponible dans wikisource.

Le dictionnaire br -> fr de Cornillet (2017) a été disponible en ligne. Il a été utilisé pour la synthèse de la parole.

agrégateurs de dictionnaires

Le site Lexicool.com regroupe les dictionnaires multilingues breton-autre langue.

L'agrégateur Geriafurch développé par Anthony Lannuzel croise les résultats de plusieurs dictionnaires en ligne et en livre un résultat allégé. Il existe en application téléphone téléchargeable ici.

Brezhoneg21 = KAG (2016), ressource scolaire des sciences et techniques

Devri Menard & Bihan (2016-)

Favereau (1993)

Glosbe

Preder

Termofis, le dictionnaire terminologique de l'OPLB

Attention cependant, les résultats dans chacune des dictionnaires peuvent être bien plus importants que ce qui est repéré par geriafurch.

grammaires en ligne

Le présent site ARBRES (Jouitteau 2009-) offre une grammaire du breton et de ses variations microdialectales, avec une description fine des faits dialectaux et idiolectaux, ainsi qu'une grammaire formelle qui organise une description de leur impact théorique pour notre connaissance de la grammaire du langage humain (plus de 2000 articles thématique en décembre 2021).

L'OPLB a été consulté en 2008 afin de recueillir ses vœux en termes de développements, vœux qui ont influencé la genèse de la wikigrammaire, en particulier la constitution en format récupérable pour une base de données utilisable en TAL.

L'inventaire des grammaires en ligne comprend aussi des ouvrages dédiés à des parlers locaux particuliers. Il faut signaler la partie grammaticale du blog de collecte Brezhoneg Bro-Vear (Yekel, Georgelin & Ar C'hozh 2015-2023), et les plus récentes thèses et monographies universitaires dont les textes sont disponibles en ligne (cf. l'inventaire des grammaires).

logiciels, réseaux sociaux, jeux, traduits en breton

Diverses applications utilisables sur internet sont traduites, souvent partiellement, en breton mais cela reste insuffisant pour créer un environnement informatique immersif. Pour le web, les interfaces utilisables sont extrêmement limités en nombre et en pourcentage de traduction. Wordpress est le système de gestion de contenu (en anglais content management system, CMS) le plus utilisé dans le monde (40% des sites). Il n'est traduit, pour la version plus récente fin 2021 (V. 5.8.x), qu'à 18 %. Ce travail est suivi par 7 personnes. Pour comparaison, les versions en basque sont traduites à 96 %, en occitan à 53 %, pour respectivement 80 et 13 participant.e.s. Ce CMS s'appuie sur des plugins indispensables à une utilisation élargie, où le niveau de traduction est encore plus faible lorsqu'il existe. Reun Bideault (c.p. 2021), développeur web, considère que l'exemple de Wordpress est actuellement généralisable à tous les outils web libres et propriétaires, raison pour laquelle les professionnel.le.s du web ne peuvent actuellement fournir un produit fini et surtout évolutif permettant de travailler en breton à un coût supportable.

Sont disponibles, fin 2021 :

une suite bureautique (LibreOffice) associable aux correcteurs d'orthographe et de grammaire
un logiciel pour la navigation web (Firefox)
un logiciel pour l'échange de courriels (Thunderbird)
quelques logiciels multimédia (VLC pour la vidéo, Clementine pour la musique)
quelques logiciels d'édition graphique (Inkscape, Gimp, Tuxpaint)

Pour les réseaux sociaux, Facebook est utilisable en breton depuis 2014 (Ar Mogn 2015). Mastodon, réseau semblable à Twitter mais libre de droits, fait l'objet d'un projet de traduction participative. Pour une étude sociolinguistique des usages des réseaux sociaux et interfaces existant en breton, ainsi que de la demande sociale et des usages réels, se reporter à Hicks (2017), Dauneau (2019).

Il existe une version bretonne pour quelques applications smartphone.

Microsoft SwiftKey : autocorrection et prédiction de mot en breton, prise en charge multilingue
Firefox (iOS et Android), navigateur web
K-9 mail (Android), client de messagerie
Vanilla Music (Android), lecteur musical
AntennaPod (iOS et Android), lecteur de podcasts

Dans le domaine des jeux, Kerbrat (2021a,b) mentionne Minecraft ou FreeCol (sous licence libre), ou les applications Steredenn et Flipon.

Il a existé plusieurs systèmes de jeux multimédia et éducatifs distribués sous forme CD-ROM, répertoriés dans Mermet (2006:30-32).

Ressources humaines, recherche et infrastructures

ressources universitaires

En Bretagne, trois laboratoires de l'IRISA sont productifs sur le traitement automatique du breton. Ils collaborent avec le Celtic-BLM à Rennes II et avec l'OPLB.

Pour le traitement de la parole sonore, le laboratoire Expression à Lannion développe des projets de synthèse de la voix sous la direction de Damien Lolive (cf. ms. de HDR, Lolive 2017), en collaboration avec l'OPLB à Carhaix (cf. le projet Breton TTS, Breton Text to Speech, livré à l'Ofis en 2021).

Le laboratoire LOUSTIC et SemLIS de l'IRISA développent des projets de traitement automatique de la chaine écrite sous la direction de Annie Foret, en collaboration avec Erwan Hupel enseignant de breton au Celtic-BLM à Rennes II. Ces laboratoires accueillent des stagiaires en licences useTIC (dernièrement Karen Kechis, Pêr Morvan), ou dans le cadre de projets comme Lang-Num des stages TAL de 6 mois (cf. Martinet 2021). Les collaborations tissent un réseau avec Christian Boitet et Vallérie Bellynck (GETALP/LIG, U. Grenoble) et Denis Béchet (UMR 6004, U. Nantes). La lisibilité n'est pas toujours évidente de l'extérieur car il s'agit surtout de recherche fondamentale, mais des projets globaux menés par cette équipe peuvent à terme concerner le breton comme l'ANR SmartFCA (Formal Concept of Analysis, 2022-2026).

Nicolas Vigneron, wikimédien de longue date, est basé à Rennes avec un intérêt particulier pour le breton et le gallo. Depuis 2019, il développe wikidata lexèmes (voir par exemple les lexèmes gwez ou Meurzh).

À Paris, Sylvain Kahane (Modyco, CNRS) mène avec Christian Chanard à l'INALCO le projet Autogramm de développement de corpus UDs pour les langues peu dotées. Le codage est en format SUD avec un passage automatique en UD géré par Grewmatch (Bruno Guillaume, LORIA, INRIA) et Arboratorgrew. Les données de Jouitteau (2009-) extraites par Kim Gerdes (LISN!, CNRS) en 2022 sont ordonnées en format Conll par Katharine Jiang et Salomé Chandora (cf. Breton treebank II). Loic Grobol (Modyco, U. Paris Nanterre) propose de coordonner le développement d'un parseur pour le breton à partir des ressources disponibles.

Thierry Poibeau a publié un article (Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094) et organisé CLTW 2016. En 2017, Alice Millour, doctorante en linguistique au laboratoire STIH (Sens, Texte, Informatique, Histoire) de l'Université Paris IV Sorbonne, préparait une thèse intitulée Construction de ressources langagières par myriadisation (crowdsourcing) pour le traitement automatique des langues peu dotées : le cas des langues de France. Elle travaille maintenant sur le corse.

À l'international, Francis Tyers à Bloomington en Indiana développe des outils de TAL sur le breton depuis 2007, dernièrement en collaboration avec Vinit Ravishankar (U. Prague) et Nick Howell (Higher School of Economics à Moscou, Russie). Johannes Heinecke, en poste chez Orange à Lannion, a créé le corpus UD gallois (Heinecke & Tyers 2019). Il publie de longue date sur le breton et intervient sur le forum de Github à propos des langues celtiques dont le breton (par exemple sur les prépositions à pronom incorporé).

La présence des lieux de formation mentionnés plus haut est un facteur crucial de développement pour le TAL. Aubry (2004:12-13) retrace très clairement la genèse du dictionnaire parlant dans les années 90, qui peut se lire comme une longue succession de stagiaires et étudiants bénévoles passant dans les laboratoires, parfois ponctuellement suppléés par des bénévoles extérieurs ou aidés par des laboratoires de recherche étrangers. L'IRISA (ENSSAT) représente même un pôle universitaire qui fait figure de pionnier à la fin du XXe sur le TAL du breton avec leur collaboration avec TES dont le directeur de 1993 à 1999 fut Ronan Coadic, actuellement professeur à l'université Rennes II, et toujours en collaboration avec les projets de TAL (Foret & al. 2015).

conférences

Celtic Language Technology Workshop

Il y a eu quatre éditions de l'atelier pour les technologies du langage appliquées aux langues celtiques (CLTW). La dernière date de 2022.

Theodorus Fransen, William Lamb & Delyth Prys (éds.). 2022. Proceedings of the 4th Celtic Language Technology Workshop within LREC2022, European Language Resources Association, Marseille, France. texte.

Judge, John, Teresa Lynn, Monica Ward & Brian Ó Raghallaigh (éds.). 2014. Proceedings of the First Celtic Language Technology Workshop, Association for Computational Linguistics and Dublin City University, Dublin, Ireland. texte.

Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.) 2016. Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016). texte.

Lynn, Teresa, Delyth Prys, Colin Batchelor & Francis Tyers (éds.). 2019. Proceedings of the Celtic Language Technology Workshop, European Association for Machine Translation, Dublin, Ireland, texte.

avec la présentation invitée de Claudia Soria (présentation du Digital Language Diversity Project (DLDP)

Celtic Knot

Wikimedia UK et Wikimedia Deutschland organisent la conférence annuelle Celtic Knot qui malgré son nom ne concerne pas uniquement les langues celtiques, même si son origine vient des pays celtiques. Elle se veut un évènement qui se concentre sur les langues peu représentées sur les projets Wikimédia (Wikipedia, Wikisource ou Wikidata), et cherche à rassembler les personnes impliquées dans ces projets afin d'échanger des connaissances et compétences. La conférence 2022 se tiendra en ligne en juillet/août 2022. Nicolas Vigneron, personne ressource sur le breton et le gallo, est un intervenant régulier.

TAL sur corpus restreint en France

Il existe plusieurs structures universitaires autour du TAL des langues peu dotées en France, sous la forme de Groupements de Recherche (GDR) et de projets regroupant plusieurs laboratoires, financés par l'Agence Nationale pour la Recherche (projets ANR).

ANR Divital

Le projet ANR DIVITAL concerne en premier lieu les langues peu dotées parlées dans l'État français.

ANR Autogramm, (2022-2025)

Le projet ANR Autogramm (2022-2025) est coordonné par Sylvain Kahane. Il concerne l'extraction automatique de grammaires quantitatives à partir de treebanks (corpus UD), des corpus restreints mais richement annotés, et compatibles avec les notations Universal dependencies. On y retrouve aussi quelques langues parlées dans l'État français. Autogramm a une liste de diffusion et un séminaire en ligne régulier.

GDR LIFT:

Le GDR LIFT (Linguistique Informatique, Formelle et de Terrain) met en contact linguistes formels et spécialistes du TAL avec un séminaire en ligne mensuel, que l'on peut suivre sur demande.

GDR-TAL, (2018-)

Le GDR-TAL-3 Multilinguisme, Multiplicité des langues comprend le laboratoire des sciences du numérique de Nantes. C'est un projet de recherche fondamentale sur les modèles de traduction automatique, soucieux de développer le potentiel des outils de traduction, mais aussi des outils pédagogiques d'apprentissage des langues et la captation de la variation dialectogique. Le pré-projet comporte un état des lieux dans l'État français qui identifie comme ressources pour les langues peu dotées les laboratoires LIG, USTRA, LINA, LIMSI, LORIA.

SIGUL, Special Interest Group for Under-resourced Languages

groupe d'intérêt spécial associé aux sociétés savantes ISCA (speech) et ELRA (language resources) sur les langues peu dotées (description)

European Language Grid

La plateforme ELG (European Language Grid) regroupe au niveau européen les ressources concernant les technologies du langage et les langues d'Europe (Labropoulou & al. 2020, Rehm & al. 2021). La plateforme, en 2021, liste déjà quelques ressources sur le breton concernant les technologies du langage.

Ressources financières, réutilisabilité

pôles de financement

Le ministère de l'éducation et de la recherche finance la recherche académique pour les salaires des titulaires chercheurs et enseignants-chercheurs, et puise dans les crédits récurrents des laboratoires (universités et CNRS) pour l'accueil de stagiaires, l'organisation de conférences.

La recherche académique dans l'État français peut aussi, sur projet, s'adresser à l'ANR et la recherche académique européenne aux infrastructures européennes.

En partenaire avec des entreprises, il est possible de recourir à des CIFRE.

La Délégation Générale à la Langue Française et aux Langues de France (DGLFLF) a financé le projet Lang-Num (Foret 2018) à hauteur de 5000 euros (prospective, construction de réseau, stages étudiants à l'IRISA - LOUSTIC & SemLIS, cf. Martinet 2021). La DGLFLF avait retenu en tout pour son appel à projets Langues et numérique 2017, 25 projets dont les thématiques portent sur des technologies du TAL comme la traduction automatique, la reconnaissance et la synthèse de la parole, la correction orthographique, l'analyse sémantique, l'analyse grammaticale, la génération automatique de textes, ou encore le Web sémantique et l'industrialisation des technologies du langage issues de la recherche. Le but, large, est de développer des ressources (corpus, bases de données lexicales, atlas sonore) et des outils numériques (applications mobiles, jeux sérieux, dispositifs de traduction, sous-titrage automatique, moteurs de recherche spécialisés, claviers prédictifs).

La maison des sciences de l'Homme, à Rennes et à Nantes, peuvent être des partenaires.

La Région Bretagne a financé la synthèse de la parole par Damien Lolive et Gwenolé Lecorvé à hauteur d'un peu moins de 200 000 euros, par le biais d'un appel à projets de l'OPLB. La région débloque par ailleurs des crédits conséquents sur l'intelligence artificielle. Le service « Langues de Bretagne » de la Région Bretagne a fait le choix volontariste, quant à lui, de "laisser le soutien à la recherche universitaire à l'université", à l'exception notable des domaines pédagogiques (Ronan Le Louarn, c.p. à Mélanie Jouitteau 2011, 2014). Ces décisions sont cependant susceptibles d'évoluer au rythme des élections régionales, tous les six ans.

science ouverte

prospective structurelle

La diffusion des principes FAIR de la science ouverte sont améliorables dans le champ particulier du traitement automatique du breton. Cela permettrait d'accélérer la recherche et les applications disponibles au grand public, de faciliter la formation et la valorisation des acteurs.

En l'état, des ressources précieuses manquent de valorisations et de visibilité dans le champ d'étude. Le champ associatif, plus influencé par la culture du logiciel libre, est en avance sur le champ universitaire (Licence Publique Générale - GNU-GPL ou Creative Commons à différents degrés d'ouverture comme CC-SA, cf. comparaison des deux).

Certains choix dépendent des grandes infrastructures de recherche, comme la valorisation des réalisations de science ouverte pour les universitaires, et la création de webliothécaires de la recherche.

outils redistribuables

La fondation basque Alhuyar a reçu un soutien européen pour le développement sur 2020-2021 d'un assistant virtuel en basque (Smart euSpeaker project). Le logiciel comme l'assistant Mycroft voice (https://mycroft.ai/) sur lequel il est basé sont open source, et les développeurs promettent une réutilisabilité pour d'autres langues minorisées. Ces développements sont évidemment conditionnés pour le breton à la synthèse de la voix, mais aussi à la reconnaissance vocale.

Prospective et repérage des besoins

Plusieurs documents donnent un aperçu d'actions à entreprendre pour améliorer la capacité digitale des langues (Ceberio Berger & al. 2018 pour une approche détaillée et générale, ou voir, pour des exemples particuliersAlegria & al. 2011 pour le basque, Kevers & al. 2019 pour le corse).

 Kevers & al. (2019):
 "Lorsque l'on désire initier ou améliorer le traitement informatique d'une langue peu ou mal dotée, il est logique de créer les ressources de base avant de s'attaquer aux outils. 
 Ces ressources sont habituellement constituées de lexiques et/ou de corpus, annotés ou non, monolingues ou parallèles. 
 Les outils sont souvent élaborés suivant une complexité croissante. On partira par exemple d'un détecteur de langues, déjà utile lors de la phase de constitution des corpus, pour développer ensuite des composants d'analyse morphosyntaxique et lexicale, pour enfin aller vers des applications de plus haut niveau telles que la correction orthographique ou la traduction automatique."

amélioration des outils existants

Les correcteurs orthographiques et le correcteur grammatical peuvent être améliorés d'annotations dialectales.

meilleur repérage des acteurs, bonnes pratiques

Les pratiques de science ouverte, qui rendent disponibles en accès libre de copyright les différentes réalisations numériques, permettent une construction incrémentale des ressources au développement. C'est absolument indispensable au développement TAL des petites langues. Trente personnes isolées peuvent être très pointues en informatique comme en breton et créer des applications qui le prouvent sans avoir le moindre impact sur le développement TAL de la langue tant que leurs ressources et réalisations ne sont pas disponibles pour la communauté.

Ces pratiques de science ouverte incluent des pratiques saines de citation des recherches, ressources de corpus et outils informatiques qui ont servi à une réalisation donnée. Une autre personne, en utilisant ces mêmes ressources, doit pouvoir vérifier qu'elle arrive au même résultat.

L'OPLB, suite aux réunions de Bed Niverel [monde Numérique] en 2017 qui a essayé de dynamiser le secteur, affiche une volonté de se placer en coordinateur des efforts de développement et souhaite "proposer à l'ensemble des acteurs, qu'ils soient institutionnels, professionnels ou tout simplement geek, une stratégie adaptée et progressive" et "que les technologies de la langue, aujourd'hui trop peu développées à l'égard du breton, prennent davantage en compte les particularités de cette langue et que soient lancés des projets de recherche dans cette direction en développant des partenariats avec les universités et les différents instituts de recherche" (Kerbrat 2021a,b). Ar Mogn (2015:4mn20), co-directeur de l'OPLB, déplorait pour le développement numérique "l'absence des universités sur ce terrain en Bretagne". Le rapport Kerbrat six ans plus tard ne repère pas plus d'acteurs universitaires - ce rapport est d'ailleurs sans bibliographie. Le rapport a une partie "acteurs", dont sont absents la plupart des développeurs de projets numériques, même ceux qui travaillent pour l'Office au sein de son conseil scientifique (Francis Favereau, Herve ar Bihan, Mélanie Jouitteau), ou encore Damien Lolive de l'IRISA que les représentants de l'Office ont pourtant rencontré tous les deux mois durant les trois ans de développement de la synthèse de la voix. Annie Foret n'est pas même mentionnée (Foret & al. 2015, Foret 2016, 2017, 2018a, 2018b). Francis Tyers, acteur central qui collabore avec l'Office depuis au moins 2009 et les remercie dans chacune de ses publications (Tyers & Howell 2021, Tyers & Ravishankar 2018, Tyers 2007-2009, 2009, 2010a, 2010b) n'y est mentionné que pour des essais non-fructueux sur la reconnaissance vocale.

exemples de pratiques inutiles pour le développement

- développer des ressources, outils, applications avec copyright propriétaire

- développer des ressources, outils, applications non-pérennes, qui ne seront plus accessibles dans 5 ans ou sous un format illisible

exemples de pratiques dommageables pour le développement

Certaines des pratiques dommageables pour le développement TAL sont passibles de justice, d'autres découlent directement de la mise en concurrence d'acteurs qui devraient collaborer tout en restant dans le cadre légal. Chacune de ces pratiques est un frein concret, vérifiable, couteux, au développement TAL d'une langue à corpus restreint. Il est de la responsabilité des financeurs de s'assurer qu'un soutien financier, surtout lorsqu'il s'agit de financements publics, n'est pas un soutien à de telles pratiques.

- diffusion d'outils ou d'applications réalisés par d'autres, ou en collaboration avec d'autres en s'en disant développeur (unique)

- citer uniquement dans un projet le travail de coordinateurs institutionnellement repérés, en dissimulant un travail effectif et important, voire central, de personnes réalisant concrètement ce projet en interne, et ce d'autant plus si ces personnes font partie de groupes en position sociale fragile ou minorisée (jeunes stagiaires, bénévoles, femmes, immigré.e.s, LGBTQI, etc.).

- pratiques monopolistiques (prétendre être le seul acteur dans un domaine, en sachant cela erroné, ou en essayant que cela devienne vrai en pratique)

- citations partielles ou inexistantes d'outils informatiques ayant servi au développement d'une application

- citations partielles ou inexistantes de recherches fondamentales ayant servi au développement d'un outil informatique

- absence de citation des locuteurs utilisés comme source primaire, et absence de caractérisation de leur variété dialectale

- mise en valeur auprès de financeurs ce que l'on a réalisé soi en cachant d'autres réalisations utiles, ou en s'appropriant le travail d'autrui.

- promettre la diffusion de ressources créées sous copyright libre sans le faire suivre des faits si on a réussi à les créer

- promettre la diffusion d'outils créés sous copyright libre sans le faire suivre des faits si on a réussi à les développer

- prétendre auprès de financeurs qu'un projet comprend une consultation scientifique lorsque c'est faux

- copier un travail, même en copyright libre, sans faire référence claire à cette utilisation, avec une citation correcte de la ressource

- financer des projets développant les pratiques ci-dessus mentionnées.

contenu responsif

Les terminaux de consultation d'internet sont de taille de plus en plus réduite, ce qui a obligé les services web à s'adapter rapidement. Le smartphone est maintenant le premier terminal web utilisé, avec une démocratisation rapide. Il touche presque toutes les couches sociales et tous les âges en sont largement équipés. Les applications dédiées pour ces terminaux sont normalisées pour offrir une lecture facile et ciblée. L'adaptation 'responsive web design' est indispensable à la lecture des sites web sur écran réduit. Une traduction automatique des applications déjà adaptées serait envisageable si un balisage adapté est mis en place.

diffusion de la synthèse de la voix

La synthèse de la voix de l'IRISA a été livrée à l'OPLB en septembre 2021. Sa diffusion reste un chantier ouvert. Entre autres, un besoin identifié de longue date est celle d'un système GPS capable de prononcer les noms de lieux en Bretagne (en son absence, ce sont les brittophones qui apprennent à interpréter des formes incongrues produites par des synthèses de la voix opérant sur d'autres langues).

prosodie

La prosodie de phrase est mal prise en charge dans la synthèse de la voix bretonne actuelle, mais l'un des coordinateurs de la création de la synthèse de la voix travaille de longue date sur la synthèse de la prosodie (cf. Lolive 2008).

Il reste par ailleurs à faire l'étude formelle de la prosodie des phrases en breton, pour systématiser le lien avec la structure syntaxique et avec la structure informationnelle des phrases (signal de focalisation de l'information nouvelle, de signal de l'information donnée, du topique de phrase, etc.).

lecture augmentée

Annie Foret (laboratoire LOUSTIC, Rennes I) a mené un repérage des besoins de développement des outils du TAL pour le breton en 2017-2018 (Foret 2018). L'enquête a consisté initialement en huit entretiens libre/semi-orienté d'1h30 d'enseignant.e.s et d'apprenant.e.s, complété par 61 réponses à un questionnaire en ligne comprenant une suggestion ouverte, deux questions sur le profil des répondants (niveau et usage professionnel du breton) et deux autres questions listant des outils développables en demandant lesquels étaient les plus urgents:

système de lecture augmentée sur écran/tablette avec des livres enrichis de bulles d'information intégrées
correcteur orthographique / grammatical
système d'aide à la recherche/exploration d'information
plateforme de discussion (exemple : échange de recettes ou autre sujet)

analyseur (aux niveaux morphologique, syntaxique)
système de détection d'ambiguïtés pour le breton
dictionnaire des synonymes et expressions/proverbes
lien entre un dictionnaire et un réseau sémantique

Ce repérage a été financé par le laboratoire LOUSTIC, et sur la période novembre 2017-décembre 2018 par la DGLFLF qui n'a pas prolongé son soutien pour la création des outils. Mekacher (2018) analyse les résultats. Il y a unanimité sur le manque de ressources sonores pour l'apprentissage d'une accentuation correcte et une souplesse crossdialectale. Les locuteurs souhaitent un correcteur orthographique et grammatical intégré aux outils bureautique, et sont enthousiastes à l'idée d'un système de lecture augmentée. Les résultats doivent être pondérés car la liste proposée dans le questionnaire peine à prendre en compte le manque de familiarité des brittophones, enseignant.e.s ou non, avec des outils que justement, ils utilisent peu, d'autant que certains de ces outils sont des outils de développement d'outils numériques.

Erwan Hupel a déposé en 2020 un dossier de demande de financement pour une thèse sur un dictionnaire des synonymes en ligne et la création d'un système de détection et de proposition de synonymes.

plate-forme pérenne de corpus

Les projets qui comportent la création d'une plate-forme pérenne de corpus sont récurrents.

Le projet Tal-Breizh (chaînes de traitement et ressources linguistiques pour le breton) porté en 2015-2017 par Annie Foret (Rennes 1, IRISA) et Ronan Le Coadic (Rennes 2, CRBC) n'a pas été retenu par la Maison de Science de l'Homme de Bretagne (MSHB). Foret & al. (2015) ont présenté le projet d'une plate-forme ouverte abritant les ressources disponibles pour le breton.

Mélanie Jouitteau et Reun Bideault ont présenté en 2018 à la DGLFLF (Délégation Générale à la Langue Française et aux Langues de France) un projet de plate-forme numérique pouvant articuler ces données enrichies avec des données de dépôt libre, dont chaque collecteur pourrait rester indépendamment propriétaire, afin de pouvoir proposer un hébergement pérenne, dans une banque cross-interrogeable et sous forme réutilisable. Il s'agit des données rendues disponibles sur ARBRES mais aussi sur les différents sites de collecte individuels et collectifs, et les futurs projets émergents. Le projet n'a pas été considéré pour financement.

Tyers & Howell (2021) mentionnent en projet la mise à disposition de la banque d'arbres UD dans une interface destinée aux linguistes.

Bibliographie

Cette bibliographie regroupe les références sur le traitement automatique de la langue bretonne, mais aussi plus globalement les projets numériques qui peuvent l'alimenter.

sur le breton

Aubry, Yves. 1999. Ordictée, logiciel de synthèse vocale en breton, rapport de stage, IUP MIME, Le Mans, TES/IRISA/ENSSAT, Lannion.

Aubry, Yves. 2000b. Logiciel de traitement de la parole et d'aide à l'enseignement et à l'apprentissage de la prosodie : application au breton, D.R.T. Ingénierie, université du Maine, Le Mans.

Aubry, Yves. 2000a. Synthèse vocale en breton, mémoire de maîtrise, IUP MIME Le Mans, TES/ENSSAT.

Aubry, Yves. 2004. Logiciel du traitement de la parole et d'aide à l'enseignement et à l'apprentissage de la prosodie: application au breton, travaux de D.R.T. d'ingénierie, Université du Maine.

Ar Barzh, H. 1996. Corpus de parole pour la synthèse de la langue bretonne, TES/IRISA.

Baxter, R.N. 2009. 'New technologies and terminological pressure in lesser-used languages. The Breton Wikipedia, from terminology consumer to potential terminology provider', Language Problems and Language Planning 33:1, John Benjamins: Amsterdam/Philadelphia, 60-80.

Blanchard, Jean-François. 2014. 'Pratiques langagières et processus dialogique d'identification pour une langue minorée. Le web en langue bretonne', Gaël Hily (dir.), Expression de l'identité dans le monde celtique, Rennes : TIR. 9-34.

Blanchard, Jean-François. 2015. Pratiques langagières et processus dialogiques d'identication sur les réseaux socionumériques. Le cas de la langue bretonne, ms. thèse. Université Rennes 2. texte.

Bramoullé, A. 2000. Dictionnaire vocal français – breton, rapport de projet, TES/IRISA, ENSSAT, Lannion.

Le Coadic, Ronan, Guy Mercier, J-P. Messager, J. Siroux. 1998. La synthèse vocale de la langue bretonne, projet de correcteur de prosodie, rapport annuel de la convention n°96-06-MDD-022-00,CEE, septembre 1998.

An drouizig.

Dauneau, Goulven. 2019. Brezhoneg, Niverel, Deskadurezh : hiziv ha warc'hoazh, mémoire de master, U. Rennes II. texte.

Davies-Deacon, Merryn. 2020. New speaker language and identity: Practices and perceptions around Breton as a regional language of France, ms. de thèse.

De Lhoneux, Miryam, Sheng Zhang, & Anders Søgaard. 2022. 'Zero-shot dependency parsing with worst-case aware automated curriculum learning', Association for Computational Linguistics (ACL). texte.

Donnelly, Kevin. 2010. 'Jan Deloof Breton-Dutch Dictionary', blog Me, Myself, Why? Free software and languages, not necessarily in that order, texte, consulté le [13.12.2021].

Dupin, J. 2001. Dictionnaire vocal multimédia français – breton, rapport de stage, TES/IRISA, IUP MIME Le Mans.

Favereau, IRISA & TES. 1999. Ar geriadur a gomz brezhoneg a-vremañ, Morlaix : Skol Vreizh. CD-ROM.

Finet, S. 2001. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.

Forcada, Mikel L., M. Ginest ́ı-Rosell, J. Nordfalk, J. O' Regan, S. Ortiz-Rojas, J. A. Ṕerez-Ortiz, F. Sánchez-Martínez, G. Ramírez-Sánchez, & F. M. Tyers. 2011. 'Apertium: a free/open-source platform for rule-based machine translation', Machine translation, 25:2, 127–144.

Foret, Annie, Denis Béchet, Valérie Bellynck. 2022. 'Iterated Dependencies in a Breton treebank and implications for a Categorial Dependency Grammar', Proceedings of the CLTW 4 à LREC 2022, 40–46.

Foret, Annie, Valérie Bellynck & Christian Boitet. 2015. 'Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton', présentation à la conférence TALARE (Traitement Automatique des Langues Régionales de France et d'Europe), texte.

Foret, Annie. 2016. 'Enrichissement de données en breton avec Wordnet', Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.), Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016), 55-61. texte.

Foret, Annie. 2017. 'Traitement automatique des langues, données légales, systèmes d'information et logique', CDN Convergences du droit et du numérique, Bordeaux, février 2017.

Foret, Annie. 2018. 'Breton-français et numérique, projet LangNum-br-fr (phase conception)'. Conférence Langues et numérique 2018, Juillet 2018, Paris, France. texte ou texte.

Foret, Annie. 2018b. 'Logiciels et ressources pour le breton', document du projet LangNum-br-fr, ms. 12p.

Gourmelon, Herve. 1996. Speech synthesis software using the TDPSOLA method, rapport de stage IRESTE, université de Limerick, Computer sciences & Information System Department.

Gourmelon, Herve, G. Mercier, J. P. Messager, J. Siroux. 1999. 'Synthèse vocale en breton', Actes du colloque : Le bilinguisme précoce en Bretagne, en pays celtiques et en Europe atlantique, Klask 5, PUR, Rennes, 125-138.

Grobol, Loïc. 2022. 'Troer v0', https://huggingface.co/spaces/lgrobol/troer. licence d'utilisation ouverte MIT.

Guennec, David, Hassan Hajipoor, Gwénolé Lecorvé, Pascal Lintanf, Damien Lolive, Antoine Perquin, Gaëlle Vidal. 2022. 'BreizhCorpus: a Large Breton Language Speech Corpus and its use for Text-to-Speech Synthesis', The Speaker and Language Recognition Workshop (Odyssey 2022), 263-270, texte.

Duval-Guennoc, Gweltaz. 2022-présent. 'A VOSK model for the Breton language', texte et github.

Guillou, A. 2000. Correcteur de prosodie pour la langue bretonne, rapport de projet.

Hicks, Davyth. 2017. 'Breton – a digital language ?', The Digital Language Diversity Project, Erasmus +. texte.

Jouitteau, M. 2023e. 'Community Internally-driven Corpus Buildings. Three Examples from the Breton Ecosystem', Proc. 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL 2023), 103-107, doi: 10.21437/SIGUL.2023-22.

L'Hostis, E. 2002. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.

An Intanv, Pascal. 1994. War hent fonetikadur ar Brezhoneg / Sur les chemins de la phonétisation du breton, mémoire de maîtrise, Université de Rennes II.

IRISA. 2001. Rapport d'activité 2001. Projet CORDIAL. Communication multimodale personne-machine à composantes orales : méthodes et modèles, texte.

Joshi, Pratik, Sebastin Santy, Amar Budhiraja, Kalika Bali, & Monojit Choudhury. 2020. 'The State and Fate of Linguistic Diversity and Inclusion in the NLP World', Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 6282–6293, Association for Computational Linguistics, texte.

Jouitteau, Mélanie. 2023d. 'Guide de survie des langues minorisées à l'heure de l'intelligence artificielle : Appel aux communautés parlantes', Lapurdum, numéro spécial 6, texte.

Jouitteau, Mélanie & Reun Bideault. 2023. 'Outils numériques et traitement automatique du breton', Annie Rialland, Michela Russo (dir.), Langues régionales de France: nouvelles approches, nouvelles méthodologies, revitalisation, Éditions de la Société de Linguistique de Paris, 37-74. texte.

Jouitteau, Mélanie. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte en ligne.

Jouitteau, Mélanie. (éd.). 2009-2023. 'Traitement automatique du langage - Breton', ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle, IKER, CNRS, URL. présent article.

Joulin, Armand, Edouard Grave, Piotr Bojanowski, Tomas Mikolov. 2016a. Bag of Tricks for Efficient Text Classification, texte.

Joulin, Armand, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Hérve Jégou, Tomas Mikolov. 2016b. Compressing text classification models, texte.

Kerbrat, Dewi. 2021a. Ar brezhoneg en oadvezh an niverel, diagnostik ha strategiezh diorren, ms. OPLB.

Kerbrat, Dewi. 2021b. La langue bretonne à l'ère du numérique, diagnostic et stratégie de développement, ms. OPLB.

Khanna, T., Washington, J.N., Tyers, F.M. & al. 2021. 'Recent advances in Apertium, a free/open-source rule-based machine translation platform for low-resource languages', Machine Translation 35, 475–502 (2021). https://doi.org/10.1007/s10590-021-09260-6.

Madigou, X. 1997. Interface graphique d'un dictionnaire vocal en breton, rapport de projet TES/IRISA ENSAT.

Marjou, Xavier. 2021. 'OTEANN: Estimating the Transparency of Orthographies with an Artificial Neural Network', ACL Anthology, texte.

Martinet, Pierre. 2021. Contributions à l'enrichissement automatisé de langues peu dotées. Cas du breton et des grammaires formelles, rapport de stage (6 mois), laboratoire SemLIS (IRISA), Rennes I. texte.

Mekacher, Echraf. 2018. Projet LangNum-br-fr, LOUSTIC. texte.

Mercier, Guy. 2018. 'Ijinouriezh ar gomz evit ar brezhoneg', Ronan Le Coadic (éd.), Mélanges en l'honneur de Francis Favereau, Morlaix : Skol Vreizh, 551-574.

Mercier, Guy, M. Guyomard & J. Siroux. 1999. Synthèse de la parole en breton – Didacticiels pour une langue minoritaire, Speech Technology Applications in CALL, Eurocall 99, 57-61.

Mermet, Michel. 2001. An urzhiataerezh war dachenn an diwyezhegezh abred. Pleustradurioù pedagogel troet trema ar c'hehentiñ [l'ordinateur et le bilinguisme précoce, exercices pédagogiques orientés vers la communication], mémoire de maîtrise, Université de Rennes II, 95 p.

Mermet, Michel. 2002. Penaos deskiñ ar brosodiezh ? Implij kenaos ar gomz er skol–vamm, [Comment enseigner la prosodie ? Utilisation de la synthèse de la parole dans les écoles maternelles], rapport de DEA, Université de Rennes II, juillet 2002, 128 p.

Mermet, Michel. 2006. Informatique et maîtrise de l'oral en maternelle bilingue breton-français: modèle de l'élève dans le dialogue enfant-ordinateur et ergonomie de la parole en breton., mémoire de thèse U. Rennes II, pdf.

Messager, Jean-Pierre, Herve Gourmelon, Guy Mercier & Jacques Siroux. 1998. 'Research in speech processing for breton language training', ESCA-STiLL-1998, 29-32. texte.

Millour, Alice. à venir ?. Construction de ressources langagières par myriadisation (crowdsourcing) pour le traitement automatique des langues peu dotées : le cas des langues de France, thèse de linguistique au laboratoire STIH (Sens, Texte, Informatique, Histoire) de l'Université Paris IV Sorbonne.

Minocha, Akshay & Francis Tyers. 2014. 'Subsegmental language detection in Celtic language text', Proceedings of the First Celtic Language Technology Workshop CLTW1, 76-80, texte.

Moal, Stefan. 2017. Médiation, transmission, création. La revernacularisation du breton au 21e siècle, ms. de HDR.

Mocquard, Guillaume. 1999. Correcteur de prosodie, rapport de stage IFSIC, TES/IRISA, ENSSAT.

Mocquard, Guillaume. 2001. Korpus prosodiezh, mémoire de maîtrise, Université de Rennes II.

Ar Mogn, Olier. 2015. 'Langue bretonne et nouvelles technologies : une vitalité à soutenir', présentation à Technologies pour les Langues Régionales de France, Meudon. vidéo.

Morales, H. 2002. Specian, dictionnaire français-breton, rapport de projet, IRISA/ENSSAT.

Morvan, Pierre. 2019. Ha difaziañ a ra LanguageTool ar c'hemmadurioù? Peseurt hentenn sevel evit gellet gouzout peseurt barregezh a zo gant an difazier LanguageTool war ar c'hemmadurioù?, mémoire de master, Université de Rennes II.

Moullet, Florent. 2001. rapport sur le programme de traitement du signal de la parole et de sa visualisation. xxx

OPLB. Termofis, dictionnaire terminologique, en ligne.

OPLB. Kerofis, base de données toponymique, en ligne.

OPLB. Corpus de phrases en breton, ou en français, accessible.

OPLB, Alan Entem, Brendan-Budok Durand-Le Ludec. 2022-. Traducteur automatique breton-français / français-breton.

Parnet, Philippe. 1998. Correcteur de Prosodie, rapport de stage, DIIC1, IFSIC, ENSSAT.

Petit, M. 2003. Correcteur orthographique de langue bretonne, rapport de projet, ENSSAT, 1-37.

Poibeau, Thierry. 2014. 'Processing Mutations in Breton with Finite-State Transducers', Proceedings of the First Celtic Language Technology Workshop, Dublin, Ireland. texte.

Ropers, Christophe. 2007. 'KYG: A Corpus of Spoken Breton for Both Researchers and Advanced Learners', Journal of Celtic Language Learning, 5-24. texte.

Williams, G. C. & Christophe Ropers. 2007. 'Textes électroniques et corpus : pourquoi utiliser les normes de la TEI ?', Hédiard M. (éd.), Linguistica dei corpora: strumenti e applicazioni, Cassino: Edizioni Università di Cassino, 23-44.

Sánchez-Cartagena, V. M., J. A. Pérez-Ortiz, & F. Sánchez-Martínez. 2015. 'A generalised alignment template formalism and its application to the inference of shallow-transfer machine translation rules from scarce bilingual corpora', Computer Speech & Language, 32:1, 46–90. texte.

Sánchez-Cartagena, Víctor M., Mikel L. Forcada, & Felipe Sánchez-Martínez. 2020. 'A multi-source approach for Breton–French hybrid machine translation', Proceedings of the 22nd Annual Conference of the European Association for Machine Translation, Lisboa, Portugal. European Association for Machine Translation, 61–70. texte.

Sokol, R. 1996. Projet de synthèse vocale en breton, création du répertoire de diphones, rapport de stage, TES/IRISA ENSAT, juillet 1996.

Tanguy, E. 2000. Dictionnaire vocal Gervogal breton / français, français / breton, mémoire de licence, IUP MIME, Le Mans TES/IRISA, Lannion.

Le Télégramme. 26 mars 1999. 'Synthèse vocale : les ordinateurs vont parler breton aux élèves'. texte. [accédé le 23 oct. 2021].

Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.

Tromparent, Jean-Luc. 1995. Synthèse de parole en langue bretonne, transcription orthographique – phonétique, rapport de DEA IFSIC, université de Rennes I.

Tyers, Francis Morton. 2008. 'Extracting bilingual word pairs from wikipedia', Proceedings of the SALTMIL Workshop at the Language Resources and Evaluation Conference, LREC2008, 19–22.

Tyers, Francis M. 2009. 'Rule-based augmentation of training data for breton–french statistical machine translation', Proceedings of the 13th Conference of the European Association for Machine Translation, 213–218. texte.

Tyers, Francis. 2007-2009. Breton morphological analysis, definition file: apertium-br-fr.br.dix, released under the GNU GPL.

Tyers, Francis M. 2010a. 'Rule-based Breton to French machine translation', Proceedings of the 14th Annual Conference of the European Association of Machine Translation, 174-181. texte et poster.

Tyers, Francis, M. 2010b. 'An treiñ emgefreek diazezet war reolennoù evit treiñ ar brezhoneg e galleg', Hor Yezh 262, 27–39. [traduction par Thierry Fohanno]

Tyers, Francis M. & Vinit Ravishankar. 2018. 'A prototype dependency treebank for Breton', Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018, 197-204. texte.

Tyers, Francis M. & Nicholas Howell. 2021. 'Morphological analysis and disambiguation for Breton', Language Resources and Evaluation, 431-473. preview.

Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.

Vangberg, Preben & Leena Farhat. 2023. 'Speech-to-text for Breton', présentation à Celtic Student Conference, 30 Mar 2023, Glasgow, United Kingdom.

Vigneron, Nicolas. 2022. 'Wikidata Lexemes', avec des exemples tirés du breton, vidéo.

bases de données

Chiarcos, Christian & Maxim Ionov. 2020. 'Ontolex-lemon and TIAD versions of Apertium Breton-French dictionary'. GNU GPL v2.0 or later, DOI 10.5281/zenodo.4012217.

Jouitteau, Mélanie. 2009-2023. ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle, IKER, CNRS, http://arbres.iker.cnrs.fr., CC BY-NC-SA 4.0.

Tyers, Francis. 2008-2011, Fulup Jakez. 2009-2011, Gwenvael Jekel 2009. Apertium-breton, en ligne.

Tyers, Francis M. & Vinit Ravishankar. 2018. 'A prototype dependency treebank for Breton', Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018, 197-204. texte.

sur le TAL en général, par des chercheurs ayant étudié ou travaillé le breton par ailleurs

Amblard, Maxime, Johannes Heinecke, Estelle Maillebuau. 2008. 'Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel', TALN 2008, 350-359.

Akrivas, Giorgo, Georgios Th. Papadopoulos, Matthijs Douze, Johannes Heinecke, Noel O'Connor, Carsten Saathoff, Simon Waddington. 2007. 'Knowledge-based Semantic Annotation and Retrieval of Multimedia Content', SAMT 2007 - 2nd International Conference on Semantic and Digital Media Technologies, 5-7 December 2007, Genoa, Italy.

Dasiopoulou, Stamatia, Johannes Heinecke, Carsten Saathoff, Michael Strintzis. 2007. 'Multimedia reasoning with natural language support', IEEE-International Conference on Semantic Computing, Irvine CA.

Béchet, Denis & Annie Foret. 2016. 'Categorial dependency grammars with iterated sequences', Logical Aspects of Computational Linguistics celebrating 20 Years of LACL (1996-2016), 34–51.

Béchet, Denis & Annie Foret. 2016. 'Simple k-star categorial dependency grammars and their inference', Proceedings of the 13th International Conference on Grammatical Inference, ICGI 2016, Delft, The Netherlands, 3–14.

Heinecke, Johannes. 2006. 'Génération automatique des représentation ontologiques', Mertens, Piet; Fairon, Cédrick; Dister, Anne; Watrin, Patrick (éds.), Verbum ex Machina, Actes de la 13e conférence sur le traitement automatique des langues naturelles, vol. 2 Louvain: Presses universitaires de Louvain, 502-511.

Heinecke, Johannes. 2009. 'Matching natural language data on ontologies', Proceedings of the 4th International Workshop on Ontology Matching (OM-2009) Collocated with the 8th International Semantic Web Conference (ISWC-2009) Chantilly, USA, October 25, 2009. ISSN: 1613-0073.

Heinecke, Johannes. 2013. 'Typologie et ressources pour le TALN des langues caucasiennes: le cas du tchétchène', Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d'Europe, Sables d'Olonne, 181-194

Heinecke, Johannes & Anastasia Shimorina. 2022. 'Multilingual Abstract Meaning Representation for Celtic Languages', Proceedings of the 4th Celtic Language Technology Workshop within LREC2022, Marseille, France. European Language Resources Association, 1–6. texte.

Heinecke, Johannes, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem. 2008. 'TiLT : plateforme pour le Traitement Automatique des Langues Naturelles', TAL 49:2.

Lecorvé, Gwénolé. 2020. 'Traitement automatique du style dans le langage naturel : quelques contributions et perspectives', Informatique et langage [cs.CL]. Université de Rennes 1, texte.

Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paula Hobson, François Goasdoué. 2006. 'The Semantic Web from an Industrial Perspective', Barahona, Pedro; Bry, François; Franconi, Enrico; Henze, Nicola; Sattler, Ulrike (éds.), Reasoning Web. Second International Summer School 2006 [= Lecture Notes in Computer Science 4126], Heidelberg: Springer, 232-268.

Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paola Hobson, François Goasdoué. 2008. 'The Semantic Web from an Industrial Perspective', García, Roberto (éd.), Semantic Web for Business: Cases and Applications. New York: IGI GLobal. ISBN: 978-1-60566-066-0, 232-268.

Lolive, Damien. 2017. Vers plus de contrôle pour la synthèse de parole expressive. Intelligence artificielle [cs.AI], ms. HDR, Université de Rennes 1.

Lolive, Damien. 2008. Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix. Intelligence artificielle [cs.AI], thèse de l'Université Rennes 1. texte.

Park, Jungyeul; Maillebuau, Estelle; Guimier De Neef, Emilie; Vinesse, Jérôme; Heinecke, Johannes. 2007. 'Evaluating an Interlingual Semantic Representation', Gerdes, Kim; Reuther, Tilmann; Wanner, Leo (éds.), Meaning - Text Theory. München - Wien.

Plu, Michel, Heinecke, Johannes. 2011. 'Interprétation linguistique de requêtes pour un moteur de questions-réponses', CORIA 2011, Avignon, France, 593-598.

Plu, Michel, Heinecke, Johannes. 2011. 'Moteur de questions-réponses d'une base de connaissances', EGC 2011, Brest, France, 593-598.

Tyers, Francis M. & Kevin Donnelly. 2009. 'Apertium-cy: A collaboratively-developed free RBMT system for Welsh to English', Prague Bulletin of Mathematical Linguistics 91, 57–66.

autres langues à corpus restreint

Alegria, Iñaki, Xabier Artola, Arantza Díaz de Ilarraza, & Kepa Sarasola. 2011. 'Strategies to develop Language Technologies for Less-Resourced Languages based on the case of Basque', texte.

Austin, P. K. 2016. 'Language documentation 20 years on', Endangered languages and languages in danger : Issues of documentation, policy, and language rights, 147–170.

Autoglosser 2 pour le gallois

AUTOGRAMM (2022-2025). projet ANR de création de treebanks pour des langues à corpus restreint.

ABAIR. voix de synthèse du gaélique irlandais, Phonetics and Speech Laboratory at the School of Linguistic, Speech and Communication Sciences, Trinity College Dublin., en ligne.

Bernhard, Delphine, Anne-Laure Ligozat, Myriam Bras, Fanny Martin, Marianne Vergez-Couret. 2021. 'Collecting and annotating corpora for three under-resourced languages of France: Methodological issues', Language Documentation & Conservation, University of Hawaiʻi Press 15, 316-357. pdf.

Ceberio, Berger, K., Gurrutxaga Hernaiz, A., Baroni, P., Hicks, D., Kruse, E., Quochi, V., Russo, I., Salonen, T., Sarhimaa, A. & Claudia Soria. 2018. Digital Language Survival Kit. The DLDP Recommendations to Improve Digital Vitality, The Digital Language Diversity Project, texte.

Cooper, Sarah, D. B. Jones & D. Prys, D. 2019. 'Crowdsourcing the Paldaruo Speech Corpus of Welsh for Speech Technology', Information 10:8, 247-259.

Cooper, Sarah, D. B. Jones & D. Prys, D. 2014. 'Developing further speech recognition resources for Welsh', Proceedings of the First Celtic Language Technology Workshop, Dublin, Ireland, 55-59. texte.

Deuchar, M., Davies, P. & Donnelly, K. 2018. Building and Using the Siarad Corpus: Bilingual Conversations in Welsh and English, Amsterdam: John Benjamins.

DIVITAL. projet ANR 2022-2025. coordinatrice Delphine Bernhard (LiLPa, Université de Strasbourg). constitution de corpus exploitables en TAL pour les langues minorisées de l'Etat français.

Hedderich, Michael A., Lukas Lange, Heike Adel, Jannik Strötgen, & Dietrich Klakow. 2021. 'A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios', Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics, 2545–2568, texte.

Heinecke, Johannes & Francis M. Tyers. 2019. 'Development of a Universal Dependencies treebank for Welsh', Proceedings of the Celtic Language Technology Workshop, European Association for Machine Translation, Dublin, Ireland, 21-31. texte.

Herrera, Santiago, Sylvain Kahane & Bruno Guillaume. 2022. 'Extraction de règles de grammaire à partir de treebanks : développement d'un outil et premiers résultats', Actes des journées jointes des Groupements de Recherche Linguistique Informatique, Formelle et de Terrain (LIFT) et Traitement Automatique des Langues (TAL), 93-98, texte.

Laurent Kevers, Florian Guéniot, A. Ghjacumina Tognotti, Stella Retali Medori. 2019. 'Outiller une langue peu dotée grâce au TALN : l'exemple du corse et BDLC', 26e Conférence sur le Traitement Automatique des Langues Naturelles, Toulouse, France. 371-380. texte.

Körner, Erik, Felix Helfer, Christopher Schröder, Thomas Eckart, Dirk Goldhahn. 2022. 'Crawling Under-Resourced Languages – A Portal for Community-Contributed Corpus Collection', Proceedings of the 1st Workshop on Dataset Creation for Lower-Resourced Languages (DCLRL), @LREC2022, ELRA, 36–43. pdf.

Krauwer, S. 2003. 'The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap', Proceedings of the International Workshop “Speech and Computer”', SPECOM 2003, Moscow, Russia.

Lamb, Will. 2021. 'Emerging NLP for Scottish Gaelic', présentation à FACL2, U. Arizona. [March 26, 2021].

Le Ferrand, Eric, Claudel Pierre-Louis, Ruoran Dong, Benjamin Lecouteux, Daphné Gonçalves-Teixeira, et al. 2023. 'Outiller la documentation des langues créoles', LIFT 2023 : journées scientifiques du GdR Linguistique Informatique, Formelle et de Terrain, Nov 2023, Vandoeuvre-Lès-Nancy, France. texte.

Meelen, Marieke. 'à paraître. 'Annotating Middle Welsh: POS tagging and chunk-parsing a partial corpus of native prose, Proceedings of the Maynooth Colloquium on Celtic Computational Linguistics, xx-xx.

Michaud Alexis, S. Guillaume, G. Jacques, D.-K. Mak, M. Jacobson, T.-H. Pham & M. Deo. 2016. 'Contribuer au progrès solidaire des recherches et de la documentation : la collection pangloss et la collection auco', Journées d'Étude de la Parole 1, 155–163.

Millour, Alice & Karën Fort. 2018. 'À l'écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées', Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), texte.

Nicholas, G. & A. Bhatia. 2023. Lost in Translation: Large Language Models in Non-English Content Analysis, Center for Democracy & Technology. texte.

Nicolas, Lionel, Verena Lyding, Claudia Borg, Corina Forăscu, Karën Fort, Katerina Zdravkova, Iztok Kosem, Jaka Čibej, Špela Arhar Holdt, Alice Millour, Alexander König, Christos Rodosthenous, Federico Sangati, Umair ul Hassan, Anisia Katinskaia, Anabela Barreiro, Lavinia Aparaschivei, Yaakov HaCohen-Kerner. 2020. 'Creating Expert Knowledge by Relying on Language Learners: a Generic Approach for Mass-Producing Language Resources by Combining Implicit Crowdsourcing and Language Learning', Proceedings of The 12th Language Resources and Evaluation Conference, 268-278.

Prys, Delyth (éd.). 2021. Language and Technology in Wales: Volume I, Bangor : Prifysgol Bangor University, 120 p. texte.

Silfverberg, M., & Tyers, F . 2019. 'Data-driven morphological analysis for Uralic languages', Proceedings of the Fifth International Workshop on Computational Linguistics for Uralic Languages, 1–14.

SALTMIL, Speech And Language Technology for MInority Languages est une initiative basque du Sud (ISCA Special Interest Group) qui a organisé une série de conférences. Elle est dormante en ligne depuis 2014.

évaluation des modèles de traduction

Romero & al. 2024. 'CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark', texte.

Bawden, Rachel & François Yvon. 2023. 'Investigating the translation performance of a large multilingual language model: the Case of BLOOM', ArXiv. Preprint. texte.

Haddow, Barry, Rachel Bawden, Antonio Valerio Miceli Barone, Jindřich Helcl & Alexandra Birch. 2022. 'Survey of Low-Resource Machine Translation', Association for Computational Linguistics, texte.

Hendy & al., 2023. Hendy, A., Abdelrehim, M., Sharaf, A., Raunak, V., Gabr, M., Matsushita, H., Kim, Y. J., Afify, M., & Awadalla, H. H. 2023. 'How good are GPT models at machine translation? A comprehensive evaluation'. ArXiv. Preprint. texte.

Xiang, Beilei., Changbing Yang, Yu Li, Alex Warstadt, & Katharina Kann. 2021. CLiMP: A Benchmark for Chinese Language Model Evaluation. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 2784–2790, Association for Computational Linguistics, texte.

prospectives régionales, françaises et européennes, DGLFLF

DGLFLF. 2015. Les technologies pour les langues régionales de France, Ministère de la Culture et de la Communication.

ELE. 2022. European Language Equality, rapport de la Commission européenne visant l'égalité linguistique numérique totale d'ici 2030 pour les langues d'Europe. Recommandations pour que les langues sous-financées et minoritaires en Europe disposent du soutien technologique pour exister à l'ère numérique.

Hicks, Davyth, Claudia Soria, Paola Baroni, Klara Ceberio Berger, Antton Gurrutxaga Hernaiz, Eleonore Kruse, Valeria Quochi, Irene Russo, Tuomo Salonen, Anneli Sarhimaa. 2018. Kit de survie numérique pour la langue Bretonne, Les recommandations du DLDP pour améliorer la vitalité numérique du Breton, Erasmus +, texte.

Labropoulou, Penny & al. 2020. Making Metadata Fit for Next Generation Language Technology Platforms: The Metadata Schema of the European Language Grid. ms.

Rehm, Georg & al. 2021. 'European Language Grid: A Joint Platform for the European Language Technology Community', 16th EACL: Online - System Demonstrations, 221-230.

Leixa, Jérémy, Valérie Mapelli & Khalid Choukri. 2014. Inventaire des ressources linguistiques de langues de France, Organisme ELDA pour la DGLFLF.

Sayers, D., R. Sousa-Silva, S. Höhn et al. (2021). The Dawn of the Human-Machine Era: A forecast of new and emerging language technologies. Report for EU COST Action CA19102 'Language In The Human-Machine Era'. www.lithme.eu., texte.

format UD ou SUD, logiciels d'annotation

codage SUD

ConllU Editor, développé par Johannes Heinecke à Orange (pour utilisateurs uniques).

Arborator Grew

De Marneffe, Marie-Catherine, Christopher D. Manning, Joakim Nivre, Daniel Zeman. 2021. 'Universal Dependencies', Computational Linguistics 47:2, 255–308. texte.

Gerdes, Kim, Bruno Guillaume, Sylvain Kahane & Guy Perrier. 2019. 'Pourquoi se tourner vers le SUD : L'importance de choisir un schéma d'annotationen dépendance surface-syntaxique', Actes des Journées scientifiques « Linguistique informatique, formelle et de terrain », Orléans, France. texte.

Guibon, Gaël, Marine Courtin, Kim Gerdes, & Bruno Guillaume. 2020. 'When Collaborative Treebank Curation Meets Graph Grammars', Proceedings of The 12th Language Resources and Evaluation Conference, Marseille, France, European Language Resources Association, 5293--5302, texte

Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Jan Hajič, Christopher Manning, Sampo Pyysalo, Sebastian Schuster, Francis Tyers, Daniel Zeman. 2020. 'Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection', Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020), European Language Resources Association, Marseille, France, pp. 4034-4043, ISBN 979-10-95546-34-4. texte.

Osborne, Timothy & Kim Gerdes. 2019. 'The status of function words in dependency grammar: A critique of Universal Dependencies (UD)', Glossa: a journal of general linguistics 4:1, p.17. doi: https://doi.org/10.5334/gjgl.537.

Anonyme

Rechercher

Traitement automatique des langues - Breton