Traitement automatique des langues - Breton

De Arbres

Le traitement automatique des langues (TAL) concerne tout le champ de traitement des langues par le biais d'instruments automatiques.

Le traitement automatique de la parole concerne précisément le traitement automatique des réalisations (formes orales ou signées pour les langues signées). Ce champ comprend les systèmes de synthèse vocale.

Dans ses développements les plus avancés, le traitement automatique des langues utilise l'intelligence artificielle et les techniques de réalité augmentée, tant pour les outils de traduction automatique que pour les assistants virtuels ou la construction d'outils de pédagogie linguistique (pour une prospective et un état des lieux, voir Sayers & al. 2021). Les outils émergents pour les langues économiquement favorisées se nourrissent de masses importantes de données qui ne sont pas disponibles pour les langues comme le breton mais ces outils sont en évolution constante vers des possibilités de développement à partir de corpus plus restreints (cf. Silfverberg & Tyers 2019). Tout retard se paye cependant lourdement car dans ce domaine, le développement nourrit le développement.

Le TAL sur la langue bretonne est objectivement peu développé à ce jour (Tyers & Ravishankar 2018), mais il existe des outils finalisés précieux et un potentiel réel. Cet article dresse un inventaire de l'existant, forcément perfectible, et mentionne en seconde partie quelques pistes et potentiels, en se concentrant sur les outils du traitement automatique des langues et les ressources à son développement. Le domaine des applications web ne s'y trouvent mentionnés qu'à la marge. Je ne rends pas compte des études sociologiques des usages numériques.

Pour cet article, Mélanie Jouitteau a interviewé les chercheurs de l'IRISA Damien Lolive (3h) et Annie Foret (2h) en novembre et décembre 2021, et collaboré avec le développeur web Reun Bideault. Qu'ils soient remerciés ici du temps qu'ils y ont consacré. Cette synthèse est alimentée par ailleurs des synthèses du développement TAL pour le breton auparavant publiées: Aubry (2004), Foret & al. (2015), Tyers & Howell (2021:437-438), et pour les traductions de logiciels, Kerbrat (2021a,b).


Matériel numérique existant même si en perfectionnement

outils de parole écrite

outils pour la traduction

Apertium fournit une interface de traduction breton > français, à partir de l'analyse morphologique de Tyers (2007-2009) et d'un dictionnaire bilingue (cf. Tyers 2009, 2010a, 2010b, 2015). L'analyseur est sous licence GPL-2 (copyright Francis Tyers 2008-2011, Fulup Jakez 2009-2011, Gwenvael Jekel 2011), disponible ici sur le site d'Apertium.

Tyers (2010) décrit un système de traduction automatique breton > français basé sur des règles. Poibeau (2014) contribue à l'étude du traitement de mutations consonantiques en proposant de rendre compte des mutations consonantiques avec des transducteurs à états finis (une règle de réécriture). Il s'agit d'une suggestion technique plus que d'une prise en charge du phénomène réel, car il n'évoque pas les barrières aux mutations.

Tyers & Howell (2021) évaluent les résultats de l'analyseur morphologique couplé avec un désambiguïsateur morphologique basé sur une grammaire de contraintes. Ces deux outils sont disponibles en logiciel open-source du projet Apertium (GNU GPL 3.0). L'analyseur consiste en un transducteur à états finis qui gère l'interface entre les formes de surface et les formes lexicales (les tags morphosyntaxiques et leurs lemmas). Il permet l'analyse de formes comme leur production. Les homophones sont départagés par un ensemble de règles de désambiguïsations morphologiques basé sur une grammaire de contraintes qui a été développée à partir de corrections des traductions automatisées par un locuteur [probablement Fulup Jakez remercié en note] et Francis Tyers.


br->fr

L'Office Public de la Langue Bretonne fournit une version en ligne du traducteur d'Apertium, troer emgefre traducteur automatique breton > français. La dernière version est téléchargeable ici sur Sourceforge.

Le choix de l'Office est de ne pas distribuer le sens inverse de traduction avant une perfection des traducteurs vers le breton, car le risque d'utilisation sans correction par des non-locuteurs est grand, et serait très dommageable.

fr<->br, multilingues

  • Glosbe propose certaines traductions br <-> fr.
  • En utilisant la technologie des réseaux de neurones, l'équipe OPUS-MT de l'université d'Helsinki développe un traducteur automatique multilingue qui comprend un traducteur anglais-breton et breton-anglais.

conjugateur de verbes

Le conjugateur automatique de verbes DVB, displeger verboù brezhonek développé par Per Morvan est en ligne depuis juin 2021.

Il pourrait être perfectionné avec une liste des verbes défectifs.

détecteur de langue

Foret (2018b) relève une méthode pour les langues celtiques dans Minocha & Tyers (2014) et cite deux détecteurs accessibles qui gèrent le breton: open.xerox.com et G2LI.


outils correcteurs

Le compte rendu d'activités de l'IRISA (2001) mentionnait qu'il était "désormais possible d’appeler le dictionnaire [vocal] comme outil de correction orthographique, dans une application de type traitement de texte". Il existe un rapport de projet de l'ENSSAT de 2003 sur le correcteur orthographique breton (Petit 2003). Poibeau (2014) qui fournit une formalisation des mutations consonantiques en utilisant des transducteurs à états finis suggère leur utilisation pour un correcteur orthographique.


MacOffice 2001, Microsoft Office 2013
Adobe Indesign, Firefox, LibreOffice & OpenOffice.org, MacOSX
  • Correcteur grammatical pour la suite bureautique LibreOffice, développé par Dominique Pellé avec l'aide le l'Office Public de la Langue Bretonne. Il utilise LanguageTool, testable en ligne ici. L'Office rapporte une première version de 400 règles, avec repérage des fautes de mutation. Ce correcteur est évalué dans Morvan (2019).


dictionnaires en ligne

Il existe de nombreux dictionnaires en ligne du breton contemporain, et un aggrégateur de dictionnaires. certains sont en accès libre, mais peu sont sous licence libre. Menard & Bihan (2016-) et Favereau (1993) comportent des entrées de dialectes traditionnels. Les autres sont plutôt de breton standard.

  • L'aggrégateur Geriafurch développé par Anthony Lannuzel croise les résultats de plusieurs dictionnaires en ligne et en livre un résultat allégé. Il existe en application téléphone téléchargeable ici.
Brezhoneg21 = KAG (2016), ressource scolaire des sciences et techniques
Devri Menard & Bihan (2016-)
Favereau (1993)
Glosbe
Preder
Termofis, le dictionnaire terminologique de l'OPLB


Le dictionnaire breton-néerlandais de Jan Deloof comporte 40,000 entrées. Kevin Donnelly, qui a géré la mise en interface ici, considère qu'il s'agit du plus grand dictionnaire libre (GPL) pour une langue celtique (Donnelly 2010).

Le dictionnaire Favereau (1993) comporte 40 000 entrées. La première synthèse de la voix de l'IRISA avait utilisé un algorithme pour en accepter les orthographes multiples. Il n'est pas en licence libre, raison pour laquelle Tyers ne l'utilise pas (Tyers & Howell 2021:440, fn11).

Le dictionnaire Freelang fr <-> br (disponible en ligne ou téléchargeable) de Tomaz Jacquet comporte 37.800 entrées. Tyers (2009) en a importé semi-automatiquement les classes lexicales.

Le dictionnaire br -> fr de Cornillet (2017) est disponible en ligne. Il a été utilisé pour la synthèse de la parole.

Le dictionnaire de l'association Stur traduit 22.302 noms du français vers le breton. Il est cherchable en ligne.

Le dictionnaire Favereau (2016-évolutif) est en ligne sous format pdf, avec des dossiers séparés pour chaque lettre initiale. Le copyright propriétaire mentionné sur le site est de 2016, mais l'auteur enrichit l'ouvrage régulièrement et met en ligne les pdfs par lettre du dictionnaire. La date de dernière modification pour chaque dossier est au début de chaque pdf.

La base de données toponymique KerOfis de l’OPLB liste les noms propres noms de lieux. Les fichiers CSV sont tékéchargeables et libres de droit.

Le dictionnaire terminologique Termofis de l'OPLB.

Le dictionnaire multilingue Logos comprend le breton. C'est un site collaboratif de traducteurs professionnels sur invitation.

Le dictionnaire multilingue wiktionnary comprend le breton avec wikeriadur.


dictionnaire historique

grammaires en ligne

Le présent site ARBRES (Jouitteau 2009-) offre une grammaire du breton et de ses variations microdialectales, avec une description fine des faits dialectaux et idiolectaux, ainsi qu'une grammaire formelle qui organise une description de leur impact théorique pour notre connaissance de la grammaire du langage humain (plus de 2000 articles thématique en décembre 2021).

L'OPLB a été consulté en 2008 afin de recueillir ses vœux en termes de développements, vœux qui ont influencé la genèse de la wikigrammaire, en particulier la constitution en format récupérable pour une base de données utilisable en TAL.

L’inventaire des grammaires en ligne comprend aussi des ouvrages dédiés à des parlers locaux particuliers. Il faut signaler la partie grammaticale du blog de collecte Brezhoneg Bro-Vear (Yekel, Georgelin & Ar C'hozh 2015-2021), et les plus récentes thèses et monographies universitaires dont les textes sont disponibles en ligne (cf. l'inventaire des grammaires).

traduction de logiciels, réseaux sociaux, jeux, etc.

L'Office Public de la Langue Bretonne fournit la traduction en breton des données du CLDR (Common Locale Data Repository) d'Unicode, qui regroupe l’ensemble des paramètres régionaux à destination des applications informatiques. Lors de la publication de la version 38 du CLDR fin 2020, Kerbrat (2021a,b) estime que le breton a atteint l'avant dernier niveau de couverture (Moderate++). Tomaz Jacquet rend disponible en ligne sous différents formats un dictionnaire trilingue breton, français anglais du vocabulaire utilisé dans les logiciels.

Diverses applications utilisables sur internet sont traduites, souvent partiellement, en breton mais cela reste insuffisant pour créer un environnement informatique immersif. Pour le web, les interfaces utilisables sont extrêmement limités en nombre et en pourcentage de traduction. Wordpress est le système de gestion de contenu (en anglais content management system, CMS) le plus utilisé dans le monde (40% des sites). Il n’est traduit, pour la version plus récente fin 2021 (V. 5.8.x), qu’à 18 %. Ce travail est suivi par 7 personnes. Pour comparaison, les versions en basque sont traduites à 96 %, en occitan à 53 %, pour respectivement 80 et 13 participant.e.s. Ce CMS s’appuie sur des plugins indispensables à une utilisation élargie, où le niveau de traduction est encore plus faible lorsqu'il existe. Reun Bideault (c.p. 2021), développeur web, considère que l'exemple de Wordpress est actuellement généralisable à tous les outils web libres et propriétaires, raison pour laquelle les professionnel.le.s du web ne peuvent actuellement fournir un produit fini et surtout évolutif permettant de travailler en breton à un coût supportable.

Sont disponibles, fin 2021 :

  • une suite bureautique (LibreOffice) associable aux correcteurs d’orthographe et de grammaire
  • un logiciel pour la navigation web (Firefox)
  • un logiciel pour l'échange de courriels (Thunderbird)
  • quelques logiciels multimédia (VLC pour la vidéo, Clementine pour la musique)
  • quelques logiciels d'édition graphique (Inkscape, Gimp, Tuxpaint)


Pour les réseaux sociaux, Facebook est utilisable en breton depuis 2014 (Ar Mogn 2015). Mastodon, réseau semblable à Twitter mais libre de droits, fait l’objet d’un projet de traduction participative. Pour une étude sociolinguistique des usages des réseaux sociaux et interfaces existant en breton, ainsi que de la demande sociale et des usages réels, se reporter à Hicks (2017), Dauneau (2019).


Il existe une version bretonne pour quelques applications smartphone, en plus de l’autocorrection et la prédiction de mot en breton sur le clavier virtuel Microsoft SwiftKey:

  • Firefox (iOS et Android), navigateur web
  • K-9 mail (Android), client de messagerie
  • Vanilla Music (Android), lecteur musical
  • AntennaPod (iOS et Android), lecteur de podcasts

Dans le domaine des jeux, kerbrat (2021a,b) mentionne Minecraft ou FreeCol (sous licence libre), ou les applications Steredenn et Flipon.

outils de parole orale

synthèse vocale

La Région Bretagne à travers l'Office Public de la Langue Bretonne, a financé à hauteur de presque 200.000 euros la construction d'un moteur de synthèse de la parole (breton KLT standard, un homme, une femme). Le projet était dirigé en TAL par Damien Lolive et Gwénolé Lecorvé de l'ENSSAT du laboratoire Expression à Lannion en collaboration avec la maison d'édition Skol Vreizh. Il a été et livré à l'Office en mars 2021.

Les deux locuteurs qui ont prêté leur voix ont été élevés en milieu brittophone trégorrois, à tendance plus standard pour Annaig Kervella (fille de Frañsez Kervella), et plus traditionnelle pour Pascal Lintanf (avec influences léonardes pour ce dernier). Chacun des deux corpus oraux produits durent un peu plus de 20h, ils ont été constitués par tâche de lecture d'un corpus de breton standard constitué principalement de discours journalistique, et aussi de textes littéraires (environ 10% sont des dialogues, joués avec expressivité modérée). Le corpus écrit correspondant a été normalisé (écriture en lettres des nombres et acronymes, prononciation différenciée des noms propres, etc.) puis, un panel d'experts choisi par Skol Vreizh et principalement le second locuteur Pascal Lintanf ont constitué un répertoire de règles de prononciation. Un lexique donnant une prononciation standard accentuée en API a été constitué par arbitrage entre plusieurs sources de lexiques phonétisés et écrits en orthographe unifiée : le dictionnaire An Here de Menard & Kadored (2001), le dictionnaire de Francis Francis Favereau (2015) et des bases de données consultables en ligne de Francis Favereau et de Gérard Cornillet (2017). D'autres données y ont été intégrées comme celles des noms propres, fournies par l'OPLB, et celles rencontrées dans les corpus constitués. Pour dix mois, Gaëlle Vidal, ingénieure d'études, a défini et enregistré un corpus de textes, sélectionné les locuteurs, et procédé aux enregistrements et à leur découpage en phrases. Hassan Hajipoor, ingénieur de recherche, a ensuite eu 18 mois (dont un confinement) pour construire un phonétiseur, comprenant un modèle de la syllabe et de l'accentuation qui a pu être paramétrisé pour les exceptions, et entraîner un réseau de neurones sur le corpus oral et le dictionnaire. Le système en end-to-end livre le fichier son à partir de la phrase écrite. La technique ne permet pas de prendre en charge la structure informationnelle et la prosodie associée, mais l'accentuation de mot et les phénomènes de frontière de mot comme la mutation ou le sandhi sont pris en charge.

les années pionnières de la synthèse vocale

 Aubry (2004:13):
 "En 1994, le responsable des collections T.E.S. (Ti Embann ar Skolioù Brezhonek, maison d’édition pour les écoles bretonnes), R. Le Coadic, des personnes de Skol Vreizh, des enseignants linguistes (université de Rennes II et de Lampeter au pays de Galles), des chercheurs de l’I.R.I.S.A. (Institut de recherches en Informatique et Systèmes Aléatoires), enseignants à l’ENSSAT et des ingénieurs d’Alcatel et du C.N.E.T. (France Télécom), ayant travaillé dans le domaine du traitement du signal, de la parole ou dans l’informatique s’unissent pour former un groupe de travail informel. Ce groupe de travail se réunissant tous les mois essaie de faire le point sur l’état des différentes technologies de l’époque et sur les besoins pédagogiques des enseignants et des élèves des différentes filières de l’éducation (Diwan, écoles bilingues du public et du privé) enseignant le breton et en breton.
 En 1995, T.E.S., l’I.R.I.S.A., l’université de Rennes II, Skol Vreizh et les membres du groupe de travail décident de coopérer pour développer de nouveaux outils pédagogiques intégrant les technologies de l’information et les technologies vocales afin de tirer le meilleur parti de la rapidité, de la fiabilité et de la robustesse des techniques de traitement de la parole (analyse, synthèse, reconnaissance, visualisation) et pour lancer le projet K.G.B. (Kenaoz ar Gomz e Brezhoneg, synthèse de la parole en breton) dans le cadre du projet CORDIAL de l’IRISA."

A la fin des années 90, TES et l'équipe CORDIAL du laboratoire IRISA (U. Rennes I) sortent le dictionnaire parlant Favereau, IRISA & TES (1999), Ar geriadur a gomz brezhoneg a-vremañ à Morlaix aux éditions Skol Vreizh. Il s'agit d'un dictionnaire vocal de 36.000 mots sur CD-ROM, tirés des entrées du Dictionnaire du breton contemporain de F. Favereau, 1993. L'outil de synthèse de la voix est MBROLA, qui est basé sur la concaténation de diphones, avec un input préparé en API. Le journal Le Télégramme annonce la sortie du CD-rom le 26 mars 1999. C'est selon l'article "l'aboutissement de trois années de recherche sur la synthèse vocale en langue bretonne qui, avec l'appui de l'Union européenne, a réuni une exceptionnelle moisson de compétences [avec] l'ENSSAT (École nationale supérieure des sciences appliquées et de technologie) à Lannion, [l'équipe CORDIAL du laboratoire] IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) à Rennes, les universités de Rennes 2, Mons (Belgique), Limerick (Irlande) et Lampeter (Pays de Galles)." L'article ajoute que la chanteuse Annie Ebrel a du pour ce faire prononcer "3.000 demi-syllabes sur tous les tons". Plusieurs publications universitaires retracent la genèse de ce travail (voir le résumé de Aubry 2004:12-13). Ar Barzh (1996) évoque la constitution d'un corpus de parole pour la synthèse de la langue bretonne, puis trois publications consécutives présentent l'aboutissement de ce projet de synthèse de la parole appelé Kenaoz ar Gomz e Brezhoneg (KGB): Messager, Gourmelon, Mercier & Siroux (1998), Gourmelon, Mercier, Messager & Siroux (1999) et Mercier, Guyomard & Siroux (1999).

La diffusion de ce travail important a été disproportionnellement réduite. Mille exemplaires en ont été distribués aux écoles. William Marois, alors recteur d'académie, avait déclaré au Télégramme que "ce produit innovant marque la volonté de l’Éducation nationale de développer l'apprentissage de la langue". Au début des années 2000, le dictionnaire Favereau (1993) apparaît en ligne, mais sans parole associée. Le CD-ROM n'est plus au catalogue des éditions Skol Vreizh.

Dans Messager & al. (1998), le dictionnaire parlant est considéré comme réalisé, et l'équipe se tourne vers la création d'un entraineur prosodique pédagogique, et d'une amélioration globale de la prosodie obtenue. Irisa (2001) rend compte des progrès: "les principales améliorations concerne la modélisation prosodique. L’utilisation de nouveaux corpus de parole mis à notre disposition par l’université de Rennes I et le CRDP et la mise au point d’outils de segmentation automatique nous ont permis d’améliorer nos connaissances sur la prosodie du breton et d’améliorer les règles de calcul des paramètres prosodiques au niveau des syllabes accentuées et réduites."

Télégramme (1999) annonçait pour 2001 "un logiciel de dictée avec un contrôle automatique adapté aux exercices individuels".


correcteur prosodique

Télégramme (1999) annonce "pour l'an 2000 un cédérom de prosodie qui permettra ainsi, par un système de courbes, de corriger automatiquement en temps réel les défauts de prononciation de l'élève. Un apport fondamental dans une langue où l'accent tonique a tant d'importance." Irisa (2001) rend compte des progrès: "Les améliorations introduites dans ce logiciel ont porté principalement sur le module de comparaison dynamique entre la parole à segmenter et la parole « modèle ». Grâce à ce module, le tuteur peut maintenant créer ses propres exercices pédagogiques de manière plus conviviale car il peut segmenter ses enregistrements de manière quasi automatique en comparant la représentation spectrale de sa prononciation à la représentation acoustique de la même phrase produite par synthèse à partir du texte. Grâce à cette segmentation automatique, on peut synchroniser et superposer les différentes courbes prosodiques (énergie, fréquence fondamentale), syllabe par syllabe et ainsi bien visualiser les différences de production entre le maître et l’élève."

Aubry (2000, 2004) publie deux articles de compte-rendu détaillé de création de cet entraineur prosodique.

Corpus existants

La langue bretonne n'est pas une langue minorisée pour laquelle manquent les corpus, mais ils ne sont pas tous immédiatement accessibles pour des traitements automatiques de la langue (copyright restrictif, éditions épuisées, documents non-OCR, corpus numériques à URLs non-stables, etc.). Ci-dessous, sont listées les ressources à-priori disponibles, ou déjà utilisées en TAL. Un recensement plus exhaustif des corpus tournés vers l'apprentissage humain est trouvable dans la page "corpus" de ce site.


corpus de données brutes

Thierry Poibeau signale 23 Mo de données brutes de texte en breton, sans annotations, dans le corpus Oscar, qui sert actuellement pour mettre au point des modèles pour le TAL par modèles neuronaux (type Bert).

Wikipedia en breton constitue un corpus de données brutes, mais son utilisation doit être faite avec des brittophones à même de jauger si les pages sont rédigées dans une des variétés existantes.

corpus parallèles

Il existe quelques corpus parallèles bilingues et multilingues.

  • Les archives de traduction de l'Office constituent un corpus bilingue. Il a été utilisé pour le traducteur automatique (Tyers 2009). Ar Mogn (2015:15m40s), co-directeur de l'Office, mentionne un corpus de 43000 phrases bretonnes traduites. Kerbrat (2021a,b) l'estime à "environ 1 million de mots". Le corpus de traductions de l'OPLB, corpus de phrases en breton, et corpus de phrases en français, sont téléchargeables et libres de droit.
  • les traduction du Petit Prince de Saint-Exupéry

corpus avec fichiers sonores

Il existe différents sites de collecte de données brutes, par des universités (Irisa à Lannion) ou par des collectifs à la durée de vie variable. Ces derniers n'en sont pas pour autant négligeables et constituent pourtant des travaux considérables, avec traductions des données dialectales ou explicitation en standard. A ma connaissance, il n'existe aucune aide organisée à ces travaux pionniers, même pour l'hébergement.


Common voice de Mozilla a lancé en 2018 un module de collecte de la parole en crowdsourcing, qui permet aux utilisateurs d'enregistrer leur propre parole, ou d'évaluer les enregistrements laissés par d'autres (9h d'enregistrements validés en 2021).

Les enregistrements audio de corpus libres existent dans les différents dialectes du breton, stockés dans les archives des différentes radios bretonnes, sous des formats différents allant de l'analogique au numérique.

Les fichiers audio des enquêtes du Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001) devraient pouvoir être au moins partiellement utilisées, mais cela demanderait un tri méticuleux. L'utilisabilité de ces derniers corpus serait à vérifier au cas par cas, car il s'agit de séances d'élicitation de mots isolés de vocabulaire à partir de gestes produits par le chercheur, et qui sont donc par définitions absents de l'enregistrement. Sur l'enregistrement de Bourg-Blanc ici, la locutrice répond la plupart du temps par un mot isolé, et son intonation est souvent celle, interrogative, de la locutrice qui demande si sa réponse est satisfaisante.


autres corpus existants, accès et estimations à vérifier

  • L'association An Drouizig revendique pour la construction de son correcteur orthographique Difazier [ver 4.4] l'analyse d'un corpus linguistique de 20 millions de mots bretons.
  • Leixa & al. (2014) ont essayé de recenser les corpus utilisables en TAL pour plusieurs langues minoritaires de l'État français. L'approche est un brin parachutée. Ils comptent pour le breton 420 corpus utilisables, dont 403 corpus oraux et 17 corpus textes. "On trouve parmi ces ressources de petits enregistrements audio de quelques minutes, mais également d’importants corpus alignés pouvant servir de base à des technologies de la langue. Parmi les ressources audio, nous avons par exemple les enregistrements effectués par M. Jean Le Dû lors d’une enquête dialectologique réalisée en Bretagne, en vue de constituer le Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001). L'identification précise de l'ensemble des corpus listés dans Leixa & al. (2014) "est disponible sur le CD qui est joint au rapport" à la DGLFLF.


corpus glosés traduits

Les corpus glosés traduits sont ceux qui comportent des phrases en breton traduites mot-à-mot et traduites globalement. La traduction mot-à-mot est une glose, qui contient des informations sur l'élément linguistique en question (catégorie grammaticale, fonction, mutation déclenchée, etc.).

banques d'arbres Universal Dependencies

La notation universelle qui émerge est de Universal Dependencies ("format UD"), même si certains de ses choix fondamentaux comme de subordonner les catégories fonctionnelles aux catégories lexicales ne sont pas soutenus linguistiquement. La conversion de structures UD à des structures syntaxiques en constituants est cependant automatisable en grande partie (Osborne & Gerdes 2019). UD propose un jeu d'une douzaine de parties du discours (parts of speech, POS) et deux douzaines de fonctions grammaticales.


banque d'arbres UD de Tyers & Ravishankar (2018)

Tyers & Ravishankar (2018) ont constitué un corpus tree-bank breton annoté manuellement de 10 000 tokens. L'annotation suit les recommandations de Universal Depedencies. L'analyseur morphologique de Tyers (2009) pour Apertium a été utilisé pour la tokenisation et l'annotation morphologique. Le texte du corpus consiste en 888 phrases provenant d'exemples de grammaires, de phrases tirées de wikipedia en breton, de textes administratifs de l'Office et de textes du journal Bremaik, avec deux chansons traditionnelles. La composition est détaillée dans Tyers & Howell (2021:450).


Le codage obtenu ressemble sur bien des points au code de ARBRES, ce qui pourrait ouvrir la possibilité d'une alimentation de tree-bank par l'annotation déjà réalisée pour ARBRES. D'autant que ARBRES est traduit en français par une locutrice native, et non par l’algorithme.


Exemple de codage de la banque d'arbres de Tyers & Ravishankar (2018):

# sent_id = apertium.vislcg.txt:1:0
# text = N'int ket aet war-raok.
# text[fra] = Ils n'ont pas progressé.
# labels = to_check
1	N'	ne	ADV	adv	Polarity=Neg	4	advmod	_	SpaceAfter=No
2	int	bezañ	AUX	vblex	Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin	4	aux	_	_
3	ket	ket	ADV	adv	_	4	advmod	_	_
4	aet	mont	VERB	vblex	Tense=Past|VerbForm=Part	0	root	_	_
5	war-raok	war-raok	ADV	adv	_	4	advmod	_	SpaceAfter=No
6	.	.	PUNCT	sent	_	4	punct	_	_


Certains codages sont étranges, et pourraient être discutés. Dans En em c'houlenn a ran ou En em gannet out c’hoazh? le proclitique réfléchi en em est par exemple noté / det + aux /, alors qu'en format UD les réfléchis et réciproques sont étiquetés PRON.

La banque d'arbres a d'ores et déjà servi à une expérimentation pour la construction de grammaires de dépendances afin de construire un outil de lecture augmentée (Martinet 2021).

corpus annoté traduit de la grammaire formelle ARBRES

Le présent site ARBRES Jouitteau (2009-) est sous licence creative commons CC BY-NC-SA. Il comporte une masse importante de données du breton localisées par leur dialecte, traduites mais aussi glosées mot à mot. Fin 2021, le site contient plus de 75 000 tableaux de type "prettytable" qui ont servi à aligner chaque mot breton breton avec sa glose en français, et l'ensemble avec une traduction globale de la donnée en français et une typification dialectale du locuteur source. J'estime qu'en moyenne chaque phrase originale a été employée trois fois dans des endroits différents de la grammaire, ce qui donne une estimation de 25 000 phrases originales en breton.

La wikigrammaire utilise des exemples tirés de plus de mille ouvrages de recherche scientifique sur le breton, des données de séances d'élicitation avec des locuteurs natifs effectuées par Mélanie Jouitteau, à son initiative ou à la demande d'autre linguistes, et dont les résultats bruts sont disponibles en ligne dans la centrale d'élicitation avant exploitation, ainsi que de 399 sources de corpus écrits différents, du vieux breton aux dialectes bretons modernes, breton standard y compris. Les dialectes y sont mentionnés comme tels, et la typification dialectale est associée à chaque donnée, donc il serait possible pour un traitement automatique de mettre de côté les états anciens de la langue, et les quelques données comparatives tirées de langues autres (hébreu, basque, occitan, etc.). Les données du breton ont servi à l'établissement d'une grammaire donc elles ont été sélectionnées pour représenter la plus grande variété possible de structures. La graphie est riche car l'orthographe des sources diverses a été respectée - les gloses, elles, sont en orthographe peurunvan unifiée. Certaines données, plutôt rares à l'échelle du corpus, comportent en plus une ligne de code donnant la tokenisation de la donnée en API, ou dans des orthographes originales renseignant la prononciation. Ces scripts peuvent être mis de côté car ils sont signalés par une balise de mise en couleur verte ( < (/) font color=green >). Les traductions en français viennent soit de corpus déjà bilingues, soit sont effectuées par Mélanie Jouitteau (native français, breton L2).

Pour comparaison avec le treebank UD de Tyers & Ravishankar (2018), je code ci-dessous le même exemple, dans sa forme visible aux utilisateurs et le code que cela nécessite. Le codage dans ARBRES donne ceci, tel que vu par les utilisateurs. Chaque exemple est donné en breton, glosé et traduit. La ligne de gloses fournit la traduction littérale, mot-à-mots en français. Elle comprend une mention des mutations consonantiques en superscript sur son élément déclencheur (ici, l'adverbe négatif ne qui provoque une lénition dans tous les dialectes, codée 1 en superscript. La mutation est notée même si, en l'occurrence, elle ne peut pas avoir ici d'effet car l'initiale du verbe qui suit n'est de fait pas mutable. La troisième ligne visible du tableau fournit la traduction globale de la phrase en français standard.


(1) N'int ket aet war-raok.
ne1 sont pas allé sur-avant
'Ils n'ont pas progressé.'
Dialecte, source référencée de la donnée


Pour obtenir une telle visualisation, le code wiki est comme ci-dessous.


0 {| class="prettytable"
1 |(1)|| N'int || ket || aet || war-raok. 
2 |-
3 ||| [ [ ne ] ][ [1] ] [ [COP|sont] ] || [ [ ket | pas ] ] || [ [ mont | allé ] ] || [ [ war-raok | sur-avant ] ]
4 |-
5 |||colspan="10" |'Ils n'ont pas progressé.' 
6 |- 
7 |||||||||colspan="10" |Dialecte, source référencée de la donnée
8 |}


Dans le code, les colonnes (||) de la première ligne fournissent un découpage grossier non-atomique de la donnée bretonne. Cette ligne comporte la ponctuation. Le découpage y est inégal, souvent prosodique car les éléments marqués d'une apostrophe ou d'un tiret n'y sont pas séparés. Il découpe aussi parfois des blocs de constituants syntaxiques. La seconde ligne visible pour l'utilisateur est la ligne 3. C'est la ligne de gloses, qui fournit une tokenisation plus fine et la lemmatisation. Avec l'exemple de la négation et de sa copule, on voit que le découpage en double crochets dessine alors les sous-parties du découpage de la première ligne. Les tokens atomiques sont séparés, les clitiques y sont ainsi séparés de leur hôte

Pour que les gloses soient cliquables pour les utilisateurs, le script wiki nécessite que chaque traduction mot-à-mot, la glose, soit associée à une adresse d'article dans la grammaire. Dans la syntaxe wiki, ce script est ordonné comme suit: [ [ adresse du lien | glose ] ]. C'est ainsi que grâce à un script [ [ mont | allé ] ], l'utilisatrice qui clique sur la glose allé, visible pour elle juste sous le mot breton aet, ouvre la page du site dédiée au verbe mont 'aller'. Ce script, pour un format UD, fournit le lemma. Ce lemma est associé à la traduction française du token aligné en colonne avec lui. Dans le cas de la préposition composée war-raok /sur-avant/ 'en avant', un seul lemma lui est associé.


0 {| class="prettytable"
1 |(1)|| mot 1' mot 2 || mot 3 || mot 4 || mot 5-mot 6. 
2 |-
3 ||| [ [ lemma breton 1 | français pour lemma 1 ] ] [ [ mutation déclenchée ] ] [ [ lemma 2 | français pour lemma 2 ] ] || [ [ lemma 3 | français pour lemma 3 ] ] || [ [ lemma 4 | français pour lemma 4 ] ] || [ [ lemma 5 | français pour lemma 5 ] ]
4 |-
5 |||colspan="10" |'Traduction de la phrase en français.' 
6 |- 
7 |||||||||colspan="10" |Dialecte, source référencée de la donnée
8 |}


Le lemma breton est donné sous sa forme non-dérivée, ce qui signifie dans cette langue celtique que le lemma est donné au singulier pour un nom comptable mais au pluriel pour un nom collectif. Pour la flexion verbale, le lemma donné est, par convention, la forme infinitive dans la wikigrammaire comme dans UD. Il y a une petite divergence avec le format UD pour les formes qui ont des racines supplétives au comparatif de supériorité comme gwell ou gwelloc'h 'mieux', ou gwazh ou gwashoc'h 'pire'. UD recommande de leur assigner le lemma non-comparatif ce qui donnerait gwelloc'h 'mieux' > [ [ mat | bien ] ].[ [ -oc'h | plus] ] et gwasoc'h 'pire' > [ [ fall | mal ] ].[ [ -oc'h | plus] ], alors que la wikigrammaire a prévu de dédier un article à chaque racine irrégulière, ce qui est géré pour l'instant par des redirections ([ [ -oc'h | mieux ] ]). Ce pourrait être régularisé assez facilement.

UD requiert que les lemmas soient fournis sous la forme de surface canonique, ce qui pose le problème des formes ambigües, concrètement en breton les verbes infinitifs et les noms déverbaux, ainsi que les noms différenciés par leur genre en situation (pal, ar pal 'le but', pal, ar bal 'la pelle' ou taol, an taol 'le coup', taol, an daol 'la table'). Dans le dictionnaire en ligne Menard & Bihan (2016-), ces ambiguïtés sont prises résolues par un système de spécifieurs numériques assez régulier (pal.1, pal.2) mais le format UD recommande de privilégier les formes de surface comme lemmas. UD propose de classer ces homonymes dans la colonne MISC dans l'attribut optionnel LId (LId=can-1). Le désambiguïsateur morphologique de Tyers & Howell (2021) semble pouvoir se charger des homophones. Ce dernier pourrait peut-être être solidifié par la liste des pages de désambiguïsation qui liste dans la wikigrammaire les suffixes pouvant être ambigus.

Les mots fusionnés sont un ensemble de plusieurs mots syntaxiques qui apparaissent en breton comme un mot opaque. Ils sont traités en ligne de glose comme des tokens distincts reliés par un point. Ainsi, la préposition e devant un article défini en 'dans le' est notée en en ligne 1 est glosée : [ [ P.e | dans ] ].[ [ art | le ] ]. La plupart des prépositions peuvent recevoir un pronom objet incorporé - on les appelle prépositions fléchies. La préposition fléchie ennon 'en moi' est glosée [ [ P.e | dans ] ].[ [ pronom incorporé | moi ] ]. La préposition ganin 'avec moi' est glosée [ [ gant | avec ] ].[ [ pronom incorporé | moi ] ], ce qui permet de récupérer deux formes différentes de pronom incorporé 1SG: -in et -on, et d'associer chacune avec la préposition qui la déclenche.

En ligne de glose, le découpage en tokens descend au niveau morphologique dans la mesure où le permettait son lectorat prioritairement humain, qui a témoigné régulièrement d'une difficulté d'accès à des formes trop décomposées, ou à des abréviations linguistiques pourtant communes de types 3SG, 3PL. La dérivation morphologique est inégalement prise en charge dans les gloses de la wikigrammaire. Lorsqu'un seul suffixe est repérable, le découpage donne directement le suffixe en question dans la glose, mais lorsque plusieurs suffixes forment une finale complexe, le lemma donné est directement cette finale complexe. Le nom distresadur 'transformation' est glosé [ [ di-, dis- | trans ] ].[ [ tres | form ] ].[ [ -adur | ation ] ]. Dans la page de la finale complexe -adur, la finale est décomposée dans ses différents suffixes. Le système de catégorisation de pages permet de générer automatiquement la liste des finales complexes et la liste des suffixes répertoriés dans le site. La dérivation flexionnelle est prise en charge pour les pluriels des noms. Pour les pluriels simples, le morphème pluriel final apparaît séparé d'un point. Ainsi, le nom pluriel krouadurioù 'enfants' est glosé [ [ krouadur | enfant ] ].[ [ -ioù (PL.)| s ] ]. En breton, les pluriels dits "pluriels internes" ont la propriété de modifier leur racine. Le nom pluriel bugale 'enfants' est glosé [ [ bugel | enfant ] ].[ [ pluriel interne | s ] ], avec le lemma qui est la forme de surface au singulier, et le pluriel qui renvoie l'utilisateur à la page sur les pluriels internes. Les morphèmes porte-manteaux de la flexion verbale, les traits de conjugaison, ne sont pas non plus donnés en glose. Ces traits de flexion verbale sont calculables par la traduction français associée, qui, elle, est donnée fléchie dans les gloses. Les traits UD (UD features) sont donc récupérables dans la mesure où la morphologie verbale française est assez riche. La matrice de traits "Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin" du verbe breton int 'sont' peut être récupérée par la glose en français sont. Cette carence dans la glose de ARBRES pour la flexion verbale pourrait en principe aussi être supplée par les données de DVB, displeger verboù développé par Per Morvan.

Un cas difficile et intéressant est posé par la tempête de variation morphologique (et syntaxique) dans le verbe et auxiliaire 'avoir'. En (2), ce verbe précédé de la négation ne sous sa forme proclitique est orthographié de manière discontinue, o dez. Il comporte les traits du sujet interprété sur sa gauche avec un pronom 3PL o sous une forme qui semble oblique, puis d'une initiale /d-/ typique des personnes 3 (au singulier comme au pluriel; en de(v)ez 3SGM, he de(v)ez 3SGF, o de(v)ez 3PL). La racine marque la trace de la forme dite d'habitude, qui n'est pas interprétée ou produite dans toutes les variétés sur ce verbe. On pourrait, dans le même contexte syntaxique, trouver n'o deus ket en breton standard, la notion d'habitude étant convoyée par un présent à lecture générique. Ceci implique qu'un glosage précis nécessite d'être en mesure de vérifier pour chaque variété si le morphème comprend réellement ces traits, en syntaxe comme en sémantique. Enfin, la finale pourrait être, selon les analyses, une racine dénuée à sa droite de morphème d'accord, un accord 3SG réalisé avec un élément qui n'est pas le sujet, ou encore un morphème d'accord par défaut qui ne fait qu'emprunter la morphologie 3SG et qui apparaît lorsque le sujet est exprimé ailleurs (se reporter aux analyses formelles du système d'accord).


(2) Ha forzh boued n'o dez ket...
et beaucoup nourriture ne 3PL 3.a pas
'Et ils n'ont pas beaucoup de nourriture.'
Vannetais, Herrieu (1994:90)


Ce problème n'est pas facilement écartable car certains dialectes centraux ont, de toute façon, pour une sous-partie du paradigme, un morphème d'accord à droite du composé (memp 'nous avons'), dialectes dans lesquels peuvent exister en plus des règles d'accord différentes (ni meump /1PL 1.racine.1PL/ vs. ni neus /1PL 3.racine.3SG/ ou /1PL 3.racine.Ø/, 'nous avons'). Les gloses dans la wikigrammaire reflètent la diversité des données au plus près de ce qu'on en comprend scientifiquement, et cela peut être un frein à la conversion automatique. Les buts d'un traitement automatique peuvent nécessiter de faire abstraction de la variation et de se contenter de stocker les formes diverses en lien avec leur traduction française.

Les traits de tous les types de pronoms sont récupérables en glose. Le pronom fort indépendant (pfi) 1SG me 'moi' est noté en glose [ [ pfi | moi ] ], Le pronom fort indépendant 2SG te 'toi' est noté en glose [ [ pfi | toi ] ], etc. De même, le déterminant possessif (POSS) ma 'mon, ma', qui déclenche une mutation mixte (codée 2 en superscript), est glosé [ [ POSS | mon ] ] < sup >[ [ 2 ] ]< /sup > dans la plupart de ses occurrences. Cependant, comme le site documente la variation dialectale, les occurrences du cornouaillais de Locronan documentées dans la grammaire, où ce possessif déclenche une lénition (codée 1 en superscript), sont glosées [ [ POSS | mon ] ] < sup >[ [ 1 ] ]< /sup >.

La morphologie flexionnelle n'impacte qu'exceptionnellement les adjectifs bretons par suffixation (mezvez 'saoule', glosé [ [ mezv | saoul ] ].[ [ -ez (F.)| e ] ]). cependant, la qualité, présence ou absence de mutation sur l'adjectif renseigne sur les traits du nom qu'il modifie. En ligne de glose, la traduction de l'adjectif en français révèle les traits obligatoirement interprétables: an hini vrav la belle' est glosé [ [ art | un ] ] [ [ hini | celui ] ] < sup >[ [ 1 ] ] < /sup > [ [ brav | belle ] ]. Cet exemple permet aussi de noter que les rares éléments qui n'ont pas d'équivalent en français comme le tête nominale sémantiquement générique hini sont traduits en glose par une approximation qui a été jugée commode par le lectorat humain.

On a vu que la ligne de gloses comprend, balisées en superscript ( < (/) sup > ) les mutations morphosyntaxiques associées à chaque élément qui les déclenche. on marque par le chiffre 1 pour la lénition, 2 pour la spirantisation, 3 pour la mutation durcissante, 4 pour la léniprovection et 5 pour la mutation réduite. Les consonnes épenthétiques du breton sont marquées +C en superscript dans la glose. Il arrive que le découpage morphologique d'un mot breton nécessite de mentionner une consonne épenthétique dans la glose en français. Elle est alors écrite, et non-cliquable puisque ne correspondant à rien en breton (kozhni 'vieillesse' est glosé [ [ kozh | vieil ] ].l.[ [ -ni, -oni | esse ] ]).

Le format UD comporte en tout 17 étiquettes de parties du discours (POS tags). Le code de la wikigrammaire ne fournit qu'exceptionnellement la catégorie grammaticale des éléments directement en glose. Les 5 formes du verbe 'être' et la variation dialectale de leur distribution ont nécessité dans la grammaire un glosage hybride, parfois morphologique (eo, a zo, emañ, ez eus, vez), parfois syntaxique (COP renvoie à l'article sur l'emploi syntaxique de la copule) ou même sémantique (le signe E en adresse renvoie à l'article sur la copule existentielle). La catégorie des éléments est cependant toujours récupérable automatiquement par les catégorisations de pages (eo => auxiliaire, car l'article de la wikigrammaire intitulé eo est catégorisé dans le site comme une page concernant un auxiliaire. Tous les éléments sont ainsi catégorisés via la page qui leur est dédiée, par exemple les adjectifs, mais aussi avec une granularité plus fine dans la mesure où ils ont un comportement grammaticalement distinguable, les adjectifs de couleur (voir la liste des catégories). Ci-dessous, j'inventorie les catégorie UD et je détaille les équivalences sur la wikigrammaire, en ajoutant une estimation des nombre de membres de chaque catégorie fin 2021. Ces chiffres vont progresser à l'avenir, surtout pour les catégories lexicales, au fur et à mesure que des exemples nouveaux alimenteront la grammaire.

  • ADJ = adjectif. Ils sont listés dans la wikigrammaire dans la liste des adjectifs (238 membres), auxquels on ajoute les numéraux ordinaux, les participes (une partie sont mentionnés en glose par la dérivation du suffixe -et).
  • ADP = adposition (préposition et postposition). Ils sont listés dans la wikigrammaire dans la liste des prépositions (158 membres) et dans la (11 membres)
  • ADV = adverbe. Ils sont listés dans la wikigrammaire dans la liste des adverbes (219 membres)
  • AUX = auxiliaire. Ils sont listés dans la wikigrammaire dans la liste des auxiliaires (18 membres)
  • CCONJ = conjonctions de coordination. Ils sont listés dans la wikigrammaire dans la liste des conjonctions (12 membres)
  • DET = déterminants. Les déterminants sont encore à catégoriser dans le corps de la wikigrammaire, qui comprend cependant la liste des quantifieurs (56 membres). Il faut rajouter les deux articles, défini an, al, ar et indéfini un, ul ur, les déterminants possessifs et les complémenteurs peseurt, petore 'lequel'. Attention, les pages thématiques de la grammaire ont été catégorisées sous le titre "articles", en opposition aux "fiches" de linguistique formelle.
  • NOUN = nom. Ils sont listés dans la wikigrammaire dans la liste des noms (799 membres)
  • VERB = verbe. Ils sont listés dans la wikigrammaire dans la liste des verbes (354 membres), auxquels on peut ajouter la liste des modaux (sauf peut-être dav, ret et arabat qui ont plutôt une distribution adjectivale), et retrancher les verbes légers -a, -at et -aat qui ont une distribution suffixale.
  • SCONJ = conjonction de subordination. Dans la wikigrammaire, ils sont compris dans les complémenteurs.
  • PART = particule. La particule préverbale (rannig) est signalée en glose par la lettre R, suivie lorsque le dialecte le permet de la mutation associée à cette particule. Attention, UD classe les particules Q des questions polaires, de 'est-ce que', dans les particules, qui sont dans la wikigrammaire des complémenteurs.
  • PROPN = nom propre. Quelques noms propres sont mentionnés comme tels en glose, mais cette pratique est récente sur le site. Il est plus sur de passer par les recensements déjà établis par d'autres programmes (Tyers 2008 les avait extraits de Wikipedia), ou de s'appuyer sur la majuscule en graphie pour les récupérer.
  • PUNCT = ponctuation. Cette information est présente en graphie en ligne 1, et devrait avoir un parallèle dans la traduction française.
  • SYM = symbole. Il s'agit de symboles écrits ne sont pas codés à ce jour dans la wikigrammaire.
  • X = autre. cette notation n'a pas été nécessaire.


En dehors du système d'annotation des données, le site a nécessité pour son développement interne des outils et listes qui pourraient directement alimenter les entraineurs d'algorithme, comme:


Les données de ARBRES ont contribué à la marge à la construction du conjugateur de verbes bretons (displeger verboù brezhonek).

Ressources humaines, recherche et infrastructures

ressources universitaires

En Bretagne, trois laboratoires de l'IRISA sont productifs sur le traitement automatique du breton. Ils collaborent avec le CRBC-BLM à Rennes II et avec l'OPLB.

Pour le traitement de la parole sonore, le laboratoire Expression à Lannion développe des projets de synthèse de la voix sous la direction de Damien Lolive (cf. ms. de HDR, Lolive 2017), en collaboration avec l'OPLB à Carhaix (cf. le projet Breton TTS, Breton Text to Speech, livré à l'Ofis en 2021).

Le laboratoire LOUSTIC et SemLIS de l'IRISA développent des projets de traitement automatique de la chaine écrite sous la direction de Annie Foret, en collaboration avec Erwan Hupel enseignant de breton au CRBC-BLM à Rennes II. Ces laboratoires accueillent des stagiaires en licences useTIC (dernièrement Karen Kechis, Per Morvan), ou dans le cadre de projets comme Lang-Num des stages TAL de 6 mois (cf. Martinet 2021). Les collaborations tissent un réseau avec Christian Boitet et Vallérie Bellynck (GETALP/LIG, U. Grenoble) et Denis Béchet (UMR 6004, U. Nantes). la lisibilité n'est pas toujours évidente de l'extérieur car il s'agit surtout de recherche fondamentale, mais des projets globaux menés par cette équipe peuvent à terme concerner le breton comme l'ANR SmartFCA (Formal Concept of Analysis, 2022-2026).


A Paris, Thierry Poibeau a publié un article (Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094) et organisé CLTW 2016. En 2017, Alice Millour, doctorante en linguistique au laboratoire STIH (Sens, Texte, Informatique, Histoire) de l’Université Paris IV Sorbonne, préparait une thèse intitulée Construction de ressources langagières par myriadisation (crowdsourcing) pour le traitement automatique des langues peu dotées : le cas des langues de France.

A l'international, Francis Tyers à Bloomington en Indiana développe des outils de TAL sur le breton depuis 2007, dernièrement en collaboration avec Vinit Ravishankar (U. Prague) et Nick Howell (Higher School of Economics à Moscou, Russie).

La présence de ces lieux de formation est un facteur crucial de développement pour le TAL. Aubry (2004:12-13) retrace très clairement la genèse du dictionnaire parlant dans les années 90, qui peut se lire comme une longue succession de stagiaires et étudiants bénévoles passant dans les laboratoires, parfois ponctuellement suppléés par des bénévoles extérieurs ou aidés par des laboratoires de recherche étrangers. L’IRISA (ENSSAT) représente même un pôle universitaire qui fait figure de pionnier à la fin du XX° sur le TAL du breton avec leur collaboration avec TES dont le directeur de 1993 à 1999 fut Ronan Coadic, actuellement professeur à l’université Rennes II, et toujours en collaboration avec les projets de TAL (Foret & al. 2015).


Celtic Language Technology Workshop

Il y a eu trois éditions de l'atelier pour les technologies du langage appliquées aux langues celtiques. La quatrième est prévue en 2022.


  • Judge, John, Teresa Lynn, Monica Ward & Brian Ó Raghallaigh (éds.). 2014. Proceedings of the First Celtic Language Technology Workshop, Association for Computational Linguistics and Dublin City University, Dublin, Ireland. texte.
  • Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.) 2016. Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016). texte.
  • Lynn, Teresa, Delyth Prys, Colin Batchelor & Francis Tyers (éds.). 2019. Proceedings of the Celtic Language Technology Workshop, European Association for Machine Translation, Dublin, Ireland, texte.


GDR LIFT

Le GDR LIFT (Linguistique Informatique, Formelle et de Terrain) essaie de mettre en contact linguistes et spécialistes du TAL. Ils ont un séminaire en ligne mensuel, que l'on peut suivre sur demande.

European Language Grid

La plateforme ELG (European Language Grid) regroupe au niveau européen les ressources concernant les technologies du langage et les langues d'Europe (Labropoulou & al. 2020, Rehm & al. 2021). La plateforme, en 2021, liste déjà quelques ressources sur le breton concernant les technologie du langage.

Ressources financières, réutilisabilité

pôles de financement

Le ministère de l'éducation et de la recherche finance la recherche académique pour les salaires des titulaires chercheurs et enseignants-chercheurs, et puise dans les crédits récurrents des laboratoires (universités et CNRS) pour l'accueil de stagiaires, l'organisation de conférences.

La recherche académique dans l’État français peut aussi, sur projet, s'adresser à l'ANR et la recherche académique européenne aux infrastructures européennes. Le CNRS finance en 2021 la création d'une équipe sur 5 ans sur le traitement automatique des langues par intelligence artificielle (3 postes pour des crédits allant jusqu'à 1 M€, Appel Choose France - CNRS AI Rising Talents).


La Délégation Générale à la Langue Française et aux Langues de France (DGLFLF) a financé le projet Lang-Num (Foret 2018) à hauteur de 5000 euros (prospective, construction de réseau, stages étudiants à l'IRISA - LOUSTIC & SemLIS, cf. Martinet 2021). La DGLFLF avait retenu en tout pour son appel à projets Langues et numérique 2017, 25 projets dont les thématiques portent sur des technologies du TAL comme la traduction automatique, la reconnaissance et la synthèse de la parole, la correction orthographique, l’analyse sémantique, l’analyse grammaticale, la génération automatique de textes, ou encore le Web sémantique et l’industrialisation des technologies du langage issues de la recherche. Le but, large, est de développer des ressources (corpus, bases de données lexicales, atlas sonore) et des outils numériques (applications mobiles, jeux sérieux, dispositifs de traduction, sous-titrage automatique, moteurs de recherche spécialisés, claviers prédictifs).

La Région Bretagne a financé la synthèse de la parole par Damien Lolive et Gwenolé Lecorvé à hauteur d'un peu moins de 200 000 euros, et débloque par ailleurs des crédits conséquents sur l'intelligence artificielle. Le service « Langues de Bretagne » de la Région Bretagne a fait le choix volontariste, quant à lui, de "laisser le soutien à la recherche universitaire à l'université", à l’exception notable des domaines pédagogiques (Ronan Le Louarn, c.p. à Mélanie Jouitteau 2011, 2014). Ces décisions sont cependant susceptibles d'évoluer au rythme des élections régionales, tous les six ans.


science ouverte

pratiques FAIR

Plus les acteurs pratiquent la science ouverte et suivent les principes FAIR (Findable, Accessible, Interoperable, Reusable) et plus les ressources qui leurs sont allouées sont fructueuses car une réalisation sert à plusieurs acteurs. Ces principes concernent la recherche appliquée comme la recherche fondamentale. Ils s'appliquent aux données (ou tout objet digital), aux métadonnées qui sont les informations sur ces objets digitaux, et aux infrastructures.

  • Trouvabilité:

Les (méta)données doivent être faciles à localiser par des humains comme par des machines. La lecture des métadonnées par les machines est essentielle à la découverte automatisée de jeux de données et de services. Pour cela, les (méta)données doivent avoir un identifiant unique, reconnu et stable, les métadonnées doivent décrire richement les données et inclure clairement leur identifiant. L'ensemble doit être enregistré et indexé dans une ressource cherchable.

  • Accessibilité

Les (méta)données sont récupérables en utilisant un protocole standard. Ce protocole doit être ouvert, libre et implémentable universellement, et il permet l'authentification et les autorisations éventuelles. Les métadonnées doivent rester accessibles même si les données ne le sont plus.

  • Interopérabilité

Les données doivent pouvoir être intégrées à un jeu de données différent et être interopérables avec des applications ou des gestion électronique de processus (workflow) pour l'analyse, le stockage et le processing. Pour cela, les (méta)données doivent utiliser un langage formel accessible, partagé et largement applicable pour les représentations du savoir (le vocabulaire de recherche est soumis lui-même aux principes FAIR). Les (méta)données doivent inclure des références correctes aux (méta)données qu'elle contient.

  • Réutilisabilité

Les données doivent pouvoir être utilisées part des acteurs différents du développement. Les données et les métadonnées doivent être décrites clairement et précisément de façon à pouvoir être répliquées et/ou combinées dans des environnements différents. Pour cela, les (méta)données doivent répondre aux standards communautaires pertinents pour le domaine de la linguistique (TAL, mais aussi linguistique descriptive, linguistique formelle et minimalement sociolinguistique pour les profils de locuteurs). Ces (méta)données doivent être rendues disponibles avec une licence d'utilisation claire et être associées avec une notice de provenance détaillée (auteurs, équipes) permettant la citation de leur source.


prospective structurelle

La diffusion des principes FAIR de la science ouverte sont améliorables dans le champ particulier du traitement automatique du breton. Cela permettrait d'accélérer la recherche et les applications disponibles au grand public, de faciliter la formation et la valorisation des acteurs.

En l'état, des ressources précieuses manquent de valorisations et de visibilité dans le champ d'étude. Le champ associatif, plus influencé par la culture du logiciel libre, est en avance sur le champ universitaire (Licence Publique Générale - GNU-GPL ou Creative Commons à différents degrés d'ouverture comme CC-SA, cf. comparaison des deux).

Certains choix dépendent des grandes infrastructures de recherche, comme la valorisation des réalisations de science ouverte pour les universitaires, et la création de webliothécaires de la recherche.

outils redistribuables

La fondation basque Alhuyar a reçu un soutien européen pour le développement sur 2020-2021 d'un assistant virtuel en basque (Smart euSpeaker project). Le logiciel comme l'assistant Mycroft voice (https://mycroft.ai/) sur lequel il est basé sont open source, et les développeurs promettent une réutilisabilité pour d'autres langues minorisées. Ces développements sont évidemment conditionnés pour le breton à la synthèse de la voix, mais aussi à la reconnaissance vocale.

Prospective et repérage des besoins

repérer les acteurs, bonnes pratiques

L'OPLB, suite aux réunions de Bed Niverel [monde Numérique] en 2017 qui a essayé de dynamiser le secteur, affiche une volonté de se placer en coordinateur des efforts de développement et souhaite "proposer à l’ensemble des acteurs, qu’ils soient institutionnels, professionnels ou tout simplement geek, une stratégie adaptée et progressive" et "que les technologies de la langue, aujourd’hui trop peu développées à l’égard du breton, prennent davantage en compte les particularités de cette langue et que soient lancés des projets de recherche dans cette direction en développant des partenariats avec les universités et les différents instituts de recherche" (Kerbrat 2021a,b). Ar Mogn (2015), co-directeur de l’OPLB, déplorait pour le développement numérique "l’absence des universités sur ce terrain en Bretagne". Le rapport Kerbrat six ans plus tard ne repère pas plus d'acteurs universitaires - il est d'ailleurs sans bibliographie. Le rapport a une partie "acteurs", dont sont absents la plupart des développeurs de projets numériques, même ceux qui travaillent pour l'Office au sein de son conseil scientifique (Francis Favereau, Herve ar Bihan, Mélanie Jouitteau), ou encore Damien Lolive de l'IRISA que les représentants de l'Office ont pourtant rencontré tous les deux mois durant les trois ans de développement de la synthèse de la voix. Annie Foret n'est pas même mentionnée (Foret & al. 2015, Foret 2016, 2017, 2018a, 2018b). Francis Tyers, acteur central qui collabore avec l'Office depuis au moins 2009 et les remercie dans chacune de ses publications (Tyers & Howell 2021, Tyers & Ravishankar 2018, Tyers 2007-2009, 2009, 2010a, 2010b, 2015) n'y est mentionné que pour des essais non-fructueux sur la reconnaissance vocale. Les recommandations du rapport pourraient inclure de citer les partenaires existants pour favoriser une synergie dans le secteur et "construire des liens avec le monde universitaire et de la recherche". Répondre aux courriers de chercheurs leur fournissant des références manquantes serait aussi probablement facilitateur.

Les pratiques de science ouverte, qui incluent des pratiques saines de citation des recherches, peuvent créer les conditions de réalisabilité de création de ressources partageables, et partagées (voir les principes FAIR).

contenu responsif

Les terminaux de consultation d'internet sont de taille de plus en plus réduite, ce qui a obligé les services web à s’adapter rapidement. Le smartphone est maintenant le premier terminal web utilisé, avec une démocratisation rapide. Il touche presque toutes les couches sociales et tous les âges en sont largement équipés. Les applications dédiées pour ces terminaux sont normalisées pour offrir une lecture facile et ciblée. Pour le breton, une limitation importante de ces applications découle de l'impossibilité actuelle d’utiliser la synthèse et la reconnaissance vocale. L'adaptation ‘responsive web design’ est indispensable à la lecture des sites web sur écran réduit. Une traduction automatique des applications déjà adaptées serait envisageable si un balisage adapté est mis en place.

reconnaissance vocale

La communication à distance entre jeunes brittophones privilégie les sms, or la dictée des sms en français est possible, efficace et rapide alors qu'envoyer un sms en breton demande de taper le message, voire de stopper l'autocorrection à chaque mot, interprété comme du français. Développer cet outil demanderait de progresser sur la reconnaissance vocale, sachant que c'est un défi conséquent: si la synthèse de la voix a pu se concentrer sur le breton standard, la reconnaissance vocale nécessite de pouvoir traiter une source multidialectale.

En ce qui concerne les conditions de réalisabilité de ce gros chantier de la reconnaissance vocale, et étant donné les techniques actuelles, Damien Lolive (c.p. 10.2021) estime que la reconnaissance de la voix nécessiterait un corpus d'un millier de locuteurs différents ne parlant pas plus de trois minutes, si l'audio est transcrit et que le son est propre (pas de chevauchements, environnement calme). Cela représenterait 50h en tout. Kerbrat (2021a,b) estime, lui, que le corpus devra atteindre les 200 heures. Kerbrat (2021a,b) mentionne par ailleurs des essais effectués par Francis Tyers avec les données de Common Voice.

diffusion de la synthèse de la voix

La synthèse de la voix de l'IRISA a été livrée à l'OPLB en septembre 2021. Sa diffusion reste un chantier ouvert. Entre autres, un besoin identifié de longue date est celle d'un système GPS capable de prononcer les noms de lieux en Bretagne (en son absence, les brittophones apprennent à interpréter des formes produites par des synthèses de la voix opérant sur d'autres langues, avec des résultats au mieux comiques).


prosodie

La prosodie de phrase est mal prise en charge dans la synthèse de la voix bretonne actuelle, mais l'un des coordinateurs de la création de la synthèse de la voix travaille de longue date sur la synthèse de la prosodie (cf. Lolive 2008).

Il reste par ailleurs à faire l'étude formelle de la prosodie des phrases en breton, pour systématiser le lien avec la structure syntaxique et avec la structure informationnelle des phrases (signal de focalisation de l'information nouvelle, de signal de l'information donnée, du topique de phrase, etc.).


lecture augmentée

Annie Foret (laboratoire LOUSTIC, Rennes I) a mené un repérage des besoins de développement des outils du TAL pour le breton en 2017-2018 (Foret 2018). L'enquête a consisté initialement en huit entretiens libre/semi-orienté d'1h30 d'enseignant.e.s et d'apprenant.e.s, complété par 61 réponses à un questionnaire en ligne comprenant une suggestion ouverte, deux questions sur le profil des répondants (niveau et usage professionnel du breton) et deux autres questions listant des outils développables en demandant lesquels étaient les plus urgents:

  • système de lecture augmentée sur écran/tablette avec des livres enrichis de bulles d'information intégrées
  • correcteur orthographique / grammatical
  • système d'aide à la recherche/exploration d'information
  • plateforme de discussion (exemple : échange de recettes ou autre sujet)
  • analyseur (aux niveaux morphologique, syntaxique)
  • système de détection d'ambiguïtés pour le breton
  • dictionnaire des synonymes et expressions/proverbes
  • lien entre un dictionnaire et un réseau sémantique

Ce repérage a été financé par le laboratoire LOUSTIC, et sur la période novembre 2017-décembre 2018 par la DGLFLF qui n'a pas prolongé son soutien pour la création des outils. Mekacher (2018) analyse les résultats. Il y a unanimité sur le manque de ressources sonores pour l'apprentissage d'une accentuation correcte et une souplesse crossdialectale. Les locuteurs souhaitent un correcteur orthographique et grammatical intégré aux outils bureautique, et sont enthousiastes à l'idée d'un système de lecture augmentée. Les résultats doivent être pondérés car la liste proposée dans le questionnaire peine à prendre en compte le manque de familiarité des brittophones, enseignant.e.s ou non, avec des outils que justement, ils utilisent peu, d'autant que certains de ces outils sont des outils de développement d'outils numériques.


Erwan Hupel a déposé en 2020 un dossier de demande de financement pour une thèse sur un dictionnaire des synonymes en ligne et la création d’un système de détection et de proposition de synonymes.


plate-forme pérenne de corpus

Les projets qui comportent la création d'une plate-forme pérenne de corpus sont récurrents.

Le projet Tal-Breizh (chaînes de traitement et ressources linguistiques pour le breton) porté en 2015-2017 par Annie Foret (Rennes 1, IRISA) et Ronan Le Coadic (Rennes 2, CRBC) n'a pas été retenu par la Maison de Science de l'Homme de Bretagne (MSHB). Foret & al. (2015) ont présenté le projet d'une plate-forme ouverte abritant les ressources disponibles pour le breton.

Mélanie Jouitteau et Reun Bideault ont présenté en 2018 à la DGLFLF (Délégation Générale à la Langue Française et aux Langues de France) un projet de plate-forme numérique pouvant articuler ces données enrichies avec des données de dépôt libre, dont chaque collecteur pourrait rester indépendamment propriétaire, afin de pouvoir proposer un hébergement pérenne, dans une banque cross-interrogeable et sous forme réutilisable. Il s'agit des données rendues disponibles sur ARBRES mais aussi sur les différents sites de collecte individuels et collectifs, et les futurs projets émergents. Le projet n'a pas été considéré pour financement.

Tyers & Howell (2021) mentionnent en projet la mise à disposition de la banque d'arbres UD dans une interface destinée aux linguistes.

Bibliographie

Cette bibliographie regroupe les références sur le traitement automatique de la langue bretonne, mais aussi plus globalement les projets numériques qui peuvent l'alimenter.

sur le breton

  • Aubry, Yves. 2000. Synthèse vocale en breton, mémoire de maîtrise, IUP MIME Le Mans, TES/ENSSAT.
  • Aubry, Yves. 2004. Logiciel du traitement de la parole et d’aide à l’enseignement et à l’apprentissage de la prosodie: application au breton, travaux de D.R.T. d'ingénierie, Université du Maine.
  • Ar Barzh, H. 1996. Corpus de parole pour la synthèse de la langue bretonne, TES/IRISA.
  • Baxter, R.N. 2009. 'New technologies and terminological pressure in lesser-used languages. The Breton Wikipedia, from terminology consumer to potential terminology provider', Language Problems and Language Planning 33:1, John Benjamins: Amsterdam/Philadelphia, 60-80.
  • Blanchard, Jean-François. 2014. 'Pratiques langagières et processus dialogique d’identification pour une langue minorée. Le web en langue bretonne', Gaël Hily (dir.), Expression de l’identité dans le monde celtique, Rennes : TIR. 9-34.
  • Blanchard, Jean-François. 2015. Pratiques langagières et processus dialogiques d'identication sur les réseaux socionumériques. Le cas de la langue bretonne, ms. thèse. Université Rennes 2. texte.
  • Davies-Deacon, Merryn. 2020. New speaker language and identity: Practices and perceptions around Breton as a regional language of France, ms. de thèse.
  • Donnelly, Kevin. 2010. 'Jan Deloof Breton-Dutch Dictionary', blog Me, Myself, Why? Free software and languages, not necessarily in that order, texte, consulté le [13.12.2021].
  • Dupin, J. 2001. Dictionnaire vocal multimédia français – breton, rapport de stage, TES/IRISA, IUP MIME Le Mans.
  • Foret, Annie. 2016. 'Enrichissement de données en breton avec Wordnet', Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.), Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016), 55-61. texte.
  • Foret, Annie. 2017. 'Traitement automatique des langues, données légales, systèmes d’information et logique', CDN Convergences du droit et du numérique, Bordeaux, février 2017.
  • Foret, Annie. 2018. 'Breton-français et numérique, projet LangNum-br-fr (phase conception)'. Conférence Langues et numérique 2018, Juillet 2018, Paris, France. texte ou texte.
  • Foret, Annie. 2018b. 'Logiciels et ressources pour le breton', document du projet LangNum-br-fr, ms. 12p.
  • Gourmelon, Herve. 1996. Speech synthesis software using the TDPSOLA method, rapport de stage IRESTE, université de Limerick, Computer sciences & Information System Department.
  • Gourmelon, Herve, G. Mercier, J. P. Messager, J. Siroux. 1999. 'Synthèse vocale en breton', actes du colloque : le bilinguisme précoce en Bretagne, en pays celtiques et en Europe atlantique, Klask 5, PUR, Rennes, 125-138.
  • Guillou, A. 2000. Correcteur de prosodie pour la langue bretonne, rapport de projet.
  • Millour, Alice. à venir?. Construction de ressources langagières par myriadisation (crowdsourcing) pour le traitement automatique des langues peu dotées : le cas des langues de France, thèse de linguistique au laboratoire STIH (Sens, Texte, Informatique, Histoire) de l’Université Paris IV Sorbonne.
  • IRISA. 2001. Rapport d’activité 2001. Projet CORDIAL. Communication multimodale personne-machine à composantes orales : méthodes et modèles, texte.
  • L’Hostis, E. 2002. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.
  • An Intanv, P. 1994. War hent fonetikadur ar Brezhoneg / Sur les chemins de la phonétisation du breton, mémoire de maîtrise, Université de Rennes II.
  • Jouitteau, M. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte en ligne.
  • Jouitteau, M. (éd.). 2009-2021. 'Traitement automatique du langage - Breton', ARBRES, wikigrammaire des dialectes du breton et centre de ressources pour son étude linguistique formelle, IKER, CNRS, URL. présent article.
  • Kerbrat, Dewi. 2021a. Ar brezhoneg en oadvezh an niverel, diagnostik ha strategiezh diorren, ms. OPLB.
  • Kerbrat, Dewi. 2021b. La langue bretonne à l'ère du numérique, diagnostic et stratégie de développement, ms. OPLB.
  • Madigou, X. 1997. Interface graphique d’un dictionnaire vocal en breton, rapport de projet TES/IRISA ENSAT.
  • Martinet, Pierre. 2021. Contributions à l’enrichissement automatisé de langues peu dotées. Cas du breton et des grammaires formelles, rapport de stage (6 mois), laboratoire SemLIS (IRISA), Rennes I. texte.
  • Mercier, G., M. Guyomard & J. Siroux. 1999. Synthèse de la parole en breton – Didacticiels pour une langue minoritaire, Speech Technology Applications in CALL, Eurocall 99, 57-61.
  • Messager, Jean-Pierre, Herve Gourmelon, Guy Mercier & Jacques Siroux. 1998. 'Research in speech processing for breton language training', ESCA-STiLL-1998, 29-32. texte.
  • Moal, Stefan. 2017. Médiation, transmission, création. La revernacularisation du breton au 21e siècle, ms. de HDR.
  • Mocquard, Guillaume. 1999. Correcteur de prosodie, rapport de stage IFSIC, TES/IRISA, ENSSAT.
  • Mocquard, Guillaume. 2001. Korpus prosodiezh, mémoire de maîtrise, Université de Rennes II.
  • Ar Mogn, Olier. 2015. 'Langue bretonne et nouvelles technologies : une vitalité à soutenir', présentation à Technologies pour les Langues Régionales de France, Meudon. vidéo.
  • Morvan, Pierre. 2019. Ha difaziañ a ra LanguageTool ar c’hemmadurioù? Peseurt hentenn sevel evit gellet gouzout peseurt barregezh a zo gant an difazier LanguageTool war ar c'hemmadurioù?, mémoire de maîtrise, Université de Rennes II.
  • OPLB. Termofis, dictionnaire terminologique, en ligne.
  • OPLB. Kerofis, base de données toponymique, en ligne.
  • OPLB. Corpus de phrases en breton, ou en français, accessible.
  • Petit, M. 2003. Correcteur orthographique de langue bretonne, rapport de projet, ENSSAT, 1-37.
  • Poibeau, Thierry. 2014. 'Processing Mutations in Breton with Finite-State Transducers', Proceedings of the First Celtic Language Technology Workshop, Dublin, Ireland. texte.
  • Tanguy, E. 2000. Dictionnaire vocal Gervogal breton / français, français / breton, mémoire de licence, IUP MIME, Le Mans TES/IRISA, Lannion.
  • Le Télégramme. 26 mars 1999. 'Synthèse vocale : les ordinateurs vont parler breton aux élèves'. texte. [accédé le 23 oct. 2021].
  • Tyers, Francis Morton. 2008. 'Extracting bilingual word pairs from wikipedia', Proceedings of the SALTMIL Workshop at the Language Resources and Evaluation Conference, LREC2008, 19–22.
  • Tyers, Francis M. 2009. 'Rule-based augmentation of training data for breton–french statistical machine translation', Proceedings of the 13th Conference of the European Association for Machine Translation, 213–218. texte.
  • Tyers, Francis M. 2010a. 'Rule-based Breton to French machine translation', Proceedings of the 14th Annual Conference of the European Association of Machine Translation, 174-181. texte et poster.
  • Tyers, Francis, M. 2010b. 'An treiñ emgefreek diazezet war reolennoù evit treiñ ar brezhoneg e galleg', Hor Yezh 262, 27–39. [traduction par Thierry Fohanno]
  • Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.

sur le TAL en général, par des chercheurs ayant étudié ou travaillé le breton par ailleurs

  • Amblard, Maxime, Johannes Heinecke, Estelle Maillebuau. 2008. 'Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel', TALN 2008, 350-359.
  • Akrivas, Giorgo, Georgios Th. Papadopoulos, Matthijs Douze, Johannes Heinecke, Noel O'Connor, Carsten Saathoff, Simon Waddington. 2007. 'Knowledge-based Semantic Annotation and Retrieval of Multimedia Content', SAMT 2007 - 2nd International Conference on Semantic and Digital Media Technologies, 5-7 December 2007, Genoa, Italy.
  • Dasiopoulou, Stamatia, Johannes Heinecke, Carsten Saathoff, Michael Strintzis. 2007. 'Multimedia reasoning with natural language support', IEEE-International Conference on Semantic Computing, Irvine CA.
  • Béchet, Denis & Annie Foret. 2016. 'Categorial dependency grammars with iterated sequences', Logical Aspects of Computational Linguistics celebrating 20 Years of LACL (1996-2016), 34–51.
  • Béchet, Denis & Annie Foret. 2016. 'Simple k-star categorial dependency grammars and their inference', Proceedings of the 13th International Conference on Grammatical Inference, ICGI 2016, Delft, The Netherlands, 3–14.
  • Heinecke, J. 2006. 'Génération automatique des représentation ontologiques', Mertens, Piet; Fairon, Cédrick; Dister, Anne; Watrin, Patrick (éds.), Verbum ex Machina, Actes de la 13e conférence sur le traitement automatique des langues naturelles, vol. 2 Louvain: Presses universitaires de Louvain, 502-511.
  • Heinecke, J. 2009. 'Matching natural language data on ontologies', Proceedings of the 4th International Workshop on Ontology Matching (OM-2009) Collocated with the 8th International Semantic Web Conference (ISWC-2009) Chantilly, USA, October 25, 2009. ISSN: 1613-0073.
  • Heinecke, J. 2013. 'Typologie et ressources pour le TALN des langues caucasiennes: le cas du tchétchène', Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d'Europe, Sables d'Olonne, 181-194
  • Heinecke, Johannes, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem. 2008. 'TiLT : plateforme pour le Traitement Automatique des Langues Naturelles', TAL 49:2.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paula Hobson, François Goasdoué. 2006. 'The Semantic Web from an Industrial Perspective', Barahona, Pedro; Bry, François; Franconi, Enrico; Henze, Nicola; Sattler, Ulrike (éds.), Reasoning Web. Second International Summer School 2006 [ =Lecture Notes in Computer Science 4126], Heidelberg: Springer, 232-268.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paola Hobson, François Goasdoué. 2008. 'The Semantic Web from an Industrial Perspective', García, Roberto (éd.), Semantic Web for Business: Cases and Applications. New York: IGI GLobal. ISBN: 978-1-60566-066-0, 232-268.
  • Lolive, Damien. 2017. Vers plus de contrôle pour la synthèse de parole expressive. Intelligence artificielle [cs.AI], ms. HDR, Université de Rennes 1.
  • Lolive, Damien. 2008. Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix. Intelligence artificielle [cs.AI], thèse de l'Université Rennes 1. texte.
  • Park, Jungyeul; Maillebuau, Estelle; Guimier De Neef, Emilie; Vinesse, Jérôme; Heinecke, Johannes. 2007. 'Evaluating an Interlingual Semantic Representation', Gerdes, Kim; Reuther, Tilmann; Wanner, Leo (éds.), Meaning - Text Theory. München - Wien.
  • Plu, Michel, Heinecke, J. 2011. 'Interprétation linguistique de requêtes pour un moteur de questions-réponses', CORIA 2011, Avignon, France, 593-598.
  • Plu, Michel, Heinecke, J. 2011. 'Moteur de questions-réponses d'une base de connaissances', EGC 2011, Brest, France, 593-598.
  • Tyers, Francis M. & Kevin Donnelly. 2009. 'Apertium-cy: A collaboratively-developed free RBMT system for Welsh to English', Prague Bulletin of Mathematical Linguistics 91, 57–66.

autres langues à corpus restreint

  • ABAIR. voix de synthèse du gaélique irlandais, Phonetics and Speech Laboratory at the School of Linguistic, Speech and Communication Sciences, Trinity College Dublin., en ligne.
  • Cooper, Sarah, D. B. Jones & D. Prys, D. 2019. 'Crowdsourcing the Paldaruo Speech Corpus of Welsh for Speech Technology', Information 10:8, 247-259.
  • Cooper, Sarah, D. B. Jones & D. Prys, D. 2014. 'Developing further speech recognition resources for Welsh', Proceedings of the First Celtic Language Technology Workshop, Dublin, Ireland, 55-59. texte.
  • Deuchar, M., Davies, P. & Donnelly, K. 2018. Building and Using the Siarad Corpus: Bilingual Conversations in Welsh and English, Amsterdam: John Benjamins.
  • Lamb, Will. 2021. 'Emerging NLP for Scottish Gaelic', présentation à FACL2, U. Arizona. [March 26, 2021].
  • Millour, Alice & Karën Fort. 2018. 'À l’écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées', Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), texte.
  • Silfverberg, M., & Tyers, F . 2019. 'Data-driven morphological analysis for Uralic languages', Proceedings of the Fifth International Workshop on Computational Linguistics for Uralic Languages, 1–14.

prospectives régionales, françaises et européennes, DGLFLF

  • DGLFLF. 2015. Les technologies pour les langues régionales de France, Ministère de la Culture et de la Communication.
  • Labropoulou, Penny & al. 2020. Making Metadata Fit for Next Generation Language Technology Platforms: The Metadata Schema of the European Language Grid. ms.
  • Rehm, Georg & al. 2021. 'European Language Grid: A Joint Platform for the European Language Technology Community', 16th EACL: Online - System Demonstrations, 221-230.
  • Sayers, D., R. Sousa-Silva, S. Höhn et al. (2021). The Dawn of the Human-Machine Era: A forecast of new and emerging language technologies. Report for EU COST Action CA19102 'Language In The Human-Machine Era'. www.lithme.eu.

sur le format UD

  • Osborne, T. & Gerdes, K., 2019. 'The status of function words in dependency grammar: A critique of Universal Dependencies (UD)', Glossa: a journal of general linguistics 4:1, p.17. doi: https://doi.org/10.5334/gjgl.537