Différences entre les versions de « Traitement automatique des langues - Breton »

De Arbres
Ligne 208 : Ligne 208 :
?
?


== Tageur indépendant ? ==
== repérage des besoins ==
 
Annie Foret (laboratoire LOUSTIC, Rennes I) a mené un repérage des besoins de développement des outils du TAL pour le breton. Une première partie a compris des entretiens d'1h30, libre et semi-orienté. Un [https://docs.google.com/forms/d/e/1FAIpQLSfA12_ja4KVmuNe3sRQ7yfxfipnHS1nFnl6t4LNRJrlUb-rrQ/viewform questionnaire en ligne] a complété, avec une suggestion ouverte et deux questions sur le profil des répondants (niveau et usage professionnel du breton) et deux autres questions listant des outils développables en demandant lesquels étaient les plus urgents. Cependant, la liste proposée peine à prendre en compte le manque de familiarité des brittophones avec des outils que justement, ils utilisent peu:


La DGLFLF a financé en 2018 un projet de développement des outils du TAL pour le breton par Annie Foret (IRISA, Rennes I), avec entre autres la réalisation ou amélioration d'analyseurs (aux niveaux morphologique, syntaxique), et lien réseau sémantique.
* système de lecture augmentée sur écran/tablette avec des livres enrichis de bulles d'information intégrées
* correcteur orthographique / grammatical
* système d'aide à la recherche/exploration d'information
* plateforme de discussion (exemple : échange de recettes ou autre sujet)
 
* analyseur (aux niveaux morphologique, syntaxique)
* système de détection d'ambiguïtés pour le breton
* dictionnaire des synonymes et expressions/proverbes
* lien entre un dictionnaire et un réseau sémantique  
 
64 réponses ont été analysées. Ce repérage a été financé par le laboratoire LOUSTIC, et sur la période novembre 2017-décembre 2018 par la DGLFLF qui n'a pas prolongé son soutien pour la création des outils.


== Intelligence artificielle ==
== Intelligence artificielle ==

Version du 8 décembre 2021 à 09:52

Le traitement automatique des langues (TAL) concerne tout le champ de traitement des langues par le biais d'instruments automatiques.

Le traitement automatique de la parole concerne précisément le traitement automatique des réalisations (formes orales ou signées pour les langues signées). Ce champ comprend les systèmes de synthèse vocale.

Dans ses développements les plus avancés, le traitement automatique des langues utilise l'intelligence artificielle et les techniques de réalité augmentée, tant pour les outils de traduction automatique que pour les assistants virtuels ou la construction d'outils de pédagogie linguistique (pour une prospective et un état des lieux, voir Sayers & al. 2021). Ces outils émergents pour les langues économiquement favorisées se nourrissent de masses importantes de données qui ne sont pas disponibles pour les langues comme le breton. Les outils sont en évolution constante vers des possibilités de développement à partir de corpus plus restreints, mais tout retard se paye lourdement car dans ce domaine, le développement nourrit le développement.

Cet article dresse un inventaire de l'existant et mentionne quelques pistes et potentiels, en se concentrant sur les outils du traitement automatique des langues et sur les ressources à son développement. Il ne s'y trouve que quelques notes à la fin sur la sociolinguistique des usages numériques, et la présence d'interfaces traduites ou de réseaux sociaux.


Matériel numérique existant et en développement

traducteur br->fr

L'Office Public de la Langue Bretonne en fournit une version en ligne, troer emgefre traducteur automatique breton > français. La dernière version est téléchargeable ici sur Sourceforge.
Tyers (2010) décrit un système de traduction automatique breton > français basé sur des règles, et Tyers & Howell (2021) comparent les résultats de l'analyseur morphologique et ceux d'un désambiguïsateur basé sur une grammaire de contraintes.
Poibeau (2014) propose de rendre compte des mutations consonantiques avec des transducteurs à états finis (une règle de réécriture). Il n'évoque pas les barrières aux mutations.


  • En utilisant la technologie des réseaux de neurones, l'équipe OPUS-MT de l'université d'Helsinki développe un traducteur automatique multilingue qui comprend un traducteur anglais-breton et breton-anglais.

traducteur fr->br

Le sens inverse de traduction n'est pas envisageable avant une perfection des traducteurs à partir du breton, car le risque d'utilisation sans correction par des non-locuteurs est grand, et serait très dommageable.


conjugateur


outils correcteurs

Le compte rendu d'activités de l'IRISA (2001) mentionnait qu'il était "désormais possible d’appeler le dictionnaire [vocal] comme outil de correction orthographique, dans une application de type traitement de texte". Il existe un rapport de projet de l'ENSSAT de 2003 sur le correcteur orthographique breton (Petit 2003). Poibeau (2014) fournit une formalisation des mutations consonantiques en utilisant des transducteurs à états finis, et suggère leur utilisation pour un correcteur orthographique.


MacOffice 2001, Microsoft Office 2013
Adobe Indesign, Firefox, LibreOffice & OpenOffice.org, MacOSX
  • Correcteur grammatical pour la suite bureautique LibreOffice, développé par Dominique Pellé avec l'aide le l'Office Public de la Langue Bretonne. Il utilise LanguageTool, testable en ligne ici. L'office rapporte une première version de 400 règles, avec repérage des fautes de mutation.

dictionnaires en ligne

  • L'aggrégateur Geriafurch développé par Anthony Lannuzel croise les résultats de plusieurs dictionnaires en ligne et en livre un résultat allégé. Il existe en application téléphone téléchargeable ici.
Brezhoneg21 KAG (2016)
Devri Menard & Bihan (2016-)
Favereau (1993)
Glosbe
Preder
Termofis


dictionnaire historique


corpus existants

Oscar

Thierry Poibeau signale 23 Mo de données brutes de texte en breton, sans annotations, dans le corpus Oscar, qui sert actuellement pour mettre au point des modèles pour le TAL par modèles neuronaux (type Bert).


banque d'arbres de Tyers & Ravishankar (2018)

Tyers & Ravishankar (2018) ont constitué un corpus tree-bank annoté manuellement de 10 000 tokens. L'annotation suit les recommandations de Universal Dependencies ("format UD"). L'analyseur morphologique de Tyers (2009) pour Apertium a été utilisé pour la tokenisation et l'annotation morphologique. Le texte du corpus consiste en 888 phrases provenant d'exemples de grammaires, de phrases tirées de wikipedia en breton, de textes administratifs de l'Office et de textes du journal Bremaik, avec deux chansons traditionnelles. Tyers & Howell (2021) mentionnent un nouveau corpus désambiguïsé morphologiquement. Il s'agit de celui-ci.


Le codage obtenu ressemble sur bien des points au code de ARBRES, ce qui pourrait ouvrir la possibilité d'une alimentation de tree-bank par l'annotation déjà réalisée pour ARBRES. D'autant que ARBRES est traduit en français par une locutrice native, et non par l’algorithme.


Exemple de codage de la banque d'arbres de Tyers & Ravishankar (2018):

# sent_id = apertium.vislcg.txt:1:0
# text = N'int ket aet war-raok.
# text[fra] = Ils n'ont pas progressé.
# labels = to_check
1	N'	ne	ADV	adv	Polarity=Neg	4	advmod	_	SpaceAfter=No
2	int	bezañ	AUX	vblex	Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin	4	aux	_	_
3	ket	ket	ADV	adv	_	4	advmod	_	_
4	aet	mont	VERB	vblex	Tense=Past|VerbForm=Part	0	root	_	_
5	war-raok	war-raok	ADV	adv	_	4	advmod	_	SpaceAfter=No
6	.	.	PUNCT	sent	_	4	punct	_	_

corpus annoté traduit de la grammaire formelle ARBRES

Le présent site ARBRES Jouitteau (2009-) comporte une masse importante de données du breton localisées par leur dialecte, traduites mais aussi glosées mot à mot. Pour comparaison avec le treebank de Tyers & Ravishankar (2018), je code ci-dessous le même exemple, dans sa forme visible aux utilisateurs et le code que cela nécessite.


Exemple de codage sur ARBRES, tel que vu par les utilisateurs:


(1) N'int ket aet war-raok.
ne1 sont pas allé sur-avant
'Ils n'ont pas progressé.'
Dialecte, source référencée de la donnée


Le même exemple sur ARBRES, tel que réalisé dans le code:


0 {| class="prettytable"
1 |(1)|| N'int || ket || aet || war-raok. 
2 |-
3 ||| [ [ ne ] ][ [1] ] [ [COP|sont] ] || [ [ ket | pas ] ] || [ [ mont | allé ] ] || [ [ war-raok | sur-avant ] ]
4 |-
5 |||colspan="10" |'Ils n'ont pas progressé.' 
6 |- 
7 |||||||||colspan="10" |Dialecte, source référencée de la donnée
8 |}


Chaque exemple est donné en breton, glosé et traduit. La glose fournit la traduction littérale, mot-à-mots en français. Les gloses sont cliquables pour les utilisateurs, ce qui a nécessité dans le script que chaque mot breton glosé soit associé à sa page de description dans la grammaire, son lemma. Le résultat dans le code est que les colonnes de la première ligne fournissent un découpage grossier non-atomique de la donnée bretonne, et donne aussi la ponctuation. Le découpage y est souvent prosodique car les éléments marqués d'une apostrophe ou d'un tiret n'y sont pas séparés. Ce découpage découpe aussi parfois des blocs de constituants syntaxiques. La seconde ligne visible fournit la lemmatisation, et une tokenisation plus fine. Avec l'exemple de la négation et de sa copule, on voit que le découpage dessine alors les sous-parties du découpage de la première ligne. Les tokens atomiques sont séparés de doubles crochets, les clitiques y sont ainsi séparés de leur hôte. Dans la syntaxe wiki, le script donne [ [ adresse du lien | glose ] ]. Le lemma est en adresse du lien, associé à la traduction française du token aligné avec lui, qui est visible pour l'utilisateur. Le lemma breton est donné sous sa forme non-dérivée, c'est-à-dire au singulier pour un nom comptable et au pluriel pour un nom collectif. Le lemma breton et la traduction française associée diffèrent dans le cas des verbes fléchis. Le lemma breton est fourni sous forme infinitive. La glose en français associée est fléchie, c'est-à-dire que le verbe est conjugué. Les traits "Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin" peuvent donc être récupérés par la glose en français. La seule autre flexion marquée dans la glose en français est la forme féminine ou plurielle des adjectifs, telle que révélée par une lénition. La troisième ligne visible du tableau fournit la traduction globale de la phrase en français standard.


0 {| class="prettytable"
1 |(1)|| token 1 || token 2 || token 3 || token 4. 
2 |-
3 ||| [ [ lemma breton 1 | français pour lemma 1 ] ] [ [ mutation déclenchée ] ] [ [ lemma 2 | français pour lemma 2 ] ] || [ [ lemma 3 | français pour lemma 3 ] ] || [ [ lemma 4 | français pour lemma 4 ] ] || [ [ lemma 5 | français pour lemma 5 ] ]
4 |-
5 |||colspan="10" |'Traduction de la phrase en français.' 
6 |- 
7 |||||||||colspan="10" |Dialecte, source référencée de la donnée
8 |}


Le découpage en tokens descend en seconde ligne au niveau morphologique pour les pluriels des noms (le nom pluriel bugale 'enfants' est glosé [ [ bugel | enfant ] ].[ [pluriel interne | s ] ]) et les dérivations morphologiques (le nom distresadur 'transformation' est glosé [ [ di-, dis- | trans ] ].[ [ tres | form ] ].[ [ -adur | ation ] ]). Cette ligne comprend aussi, balisées en superscript ( < (/) sup > ) les mutations morphosyntaxiques associées à chaque élément qui les déclenche, marquées par les chiffres 1 pour la lénition, 2 pour la spirantisation, 3 pour la mutation durcissante, 4 pour la léniprovection et 5 pour la mutation réduite. Les consonnes épenthétiques du breton sont marquées +C en superscript dans la glose. Il arrive que le découpage morphologique d'un mot nécessite de mentionner une consonne épenthétique dans la glose en français. Elle est alors écrite, non-cliquable puisque ne correspondant à rien en breton (kozhni 'vieillesse' est glosé [ [ kozh | vieil ] ].l.[ [ -ni, -oni | esse ] ]).

Par rapport à la banque d'arbres, le code ci-dessus ne fournit pas directement la catégorie grammaticale des éléments en glose, mais ces catégories sont récupérables automatiquement sur le site par le système de catégorisation de pages. En seconde ligne visible, la catégorie grammaticale du lemma est soit directement donnée en adresse, gérée par une redirection (COP => article sur les copules), soit récupérable automatiquement par les catégorisations de pages (mont => verbe, car la page intitulée "mont" est catégorisée dans le site comme une page concernant un verbe. Tous les éléments sont catégorisés, par exemple les adjectifs, mais aussi dans la mesure où ils ont un comportement grammaticalement distinguable, les adjectifs de couleur (voir la liste des catégories).

La donnée en breton fournit une traçabilité des données, puisqu'elle associe la donnée avec un point dialectal et sa source vérifiable. Les données bretonnes sont tirées de plus de mille ouvrages de recherche scientifique sur le breton ainsi que de 399 sources de corpus différents, du vieux breton aux dialectes bretons modernes, breton standard y compris. Ils sont mentionnés comme tels, typifiés l.7 avec un décalage graphique de plusieurs colonnes, donc il est possible pour un traitement automatique de mettre de côté les états anciens de la langue. Les données ont servi à l'établissement d'une grammaire donc ils sont été sélectionnés pour représenter la plus grande variété possible de structures. Certaines données comportent en plus une ligne de code donnant la tokenisation de la donnée en API, ou dans des orthographes originales renseignant la prononciation. Ces scripts peuvent être mis de côté car ils sont signalés par une balise de mise en couleur verte ( < (/) font color=green >) Les traductions en français soit viennent de corpus bilingues, soit sont effectuées par Mélanie Jouitteau (native français, breton L2).

Le site a aussi nécessité pour son développement des outils et listes qui pourraient directement alimenter les entraineurs d'algorithme, comme:


Mélanie Jouitteau et Reun Bideault ont présenté en 2018 à la DGLFLF (Délégation Générale à la Langue Française et aux Langues de France) un projet de plate-forme numérique pouvant articuler ces données enrichies avec des données de dépôt libre, dont chaque collecteur pourrait rester indépendamment propriétaire, afin de pouvoir proposer un hébergement pérenne, dans une banque cross-interrogeable et sous forme réutilisable. Il s'agit des données rendues disponibles sur ARBRES mais aussi sur les différents sites de collecte individuels et collectifs, et les futurs projets émergents. Le projet n'a pas été considéré pour financement. Les données de ARBRES ont contribué à la marge à la construction du conjugateur de verbes bretons (displeger verboù brezhonek).

corpus avec fichiers sonores

Il existe différents sites de collecte de données brutes, par des collectifs à la durée de vie variable. Ce sont des travaux considérables, avec traductions des données dialectales ou explicitation en standard. A ma connaissance, il n'existe aucune aide organisée à ces travaux pionniers, même pour l'hébergement.


Les enregistrements audio de corpus libres existent dans les différents dialectes du breton, stockés dans les archives des différentes radios bretonnes, sous des formats différents allant de l'analogique au numérique. Les fichiers audio des enquêtes du Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001) devraient pouvoir être au moins partiellement utilisées, mais cela demanderait un tri méticuleux. L'utilisabilité de ces derniers corpus serait à vérifier au cas par cas, car il s'agit de séances d'élicitation de mots isolés de vocabulaire à partir de gestes produits par le chercheur, et qui sont donc par définitions absents de l'enregistrement. Sur l'enregistrement de Bourg-Blanc ici, la locutrice répond la plupart du temps par un mot isolé, et son intonation est souvent celle, interrogative, de la locutrice qui demande si sa réponse est satisfaisante.

Common voice de Mozilla a lancé en 2018 un module de collecte de la parole en crowdsourcing, qui permet aux utilisateurs d'enregistrer leur propre parole, ou d'évaluer les enregistrements laissés par d'autres (9h d'enregistrements validés en 2021).

corpus existants, accès à vérifier

  • Les archives de traduction de l'Office constituent un corpus bilingue. Il a été utilisé pour le traducteur automatique (Tyers 2009). Ar Mogn (2015:15m40s), co-directeur de l'Office, mentionne un corpus de 43000 phrases bretonnes traduites.
  • L'association An Drouizig revendique pour la construction de son correcteur orthographique Difazier [ver 4.4] l'analyse d'un corpus linguistique de 20 millions de mots bretons.
  • Leixa & al. (2014) ont essayé de recenser les corpus utilisables en TAL pour plusieurs langues minoritaires de l'État français. L'approche est un brin parachutée. Ils comptent pour le breton 420 corpus utilisables, dont 403 corpus oraux et 17 corpus textes. "On trouve parmi ces ressources de petits enregistrements audio de quelques minutes, mais également d’importants corpus alignés pouvant servir de base à des technologies de la langue. Parmi les ressources audio, nous avons par exemple les enregistrements effectués par M. Jean Le Dû lors d’une enquête dialectologique réalisée en Bretagne, en vue de constituer le Nouvel Atlas Linguistique de la Basse-Bretagne" (Le Dû 2001). L'identification précise de l'ensemble des corpus listés dans Leixa & al. (2014) "est disponible sur le CD qui est joint au rapport" à la DGLFLF.

Parole orale

 Aubry (2004:13):
 "En 1994, le responsable des collections à T.E.S. (Ti Embann ar Skolioù Brezhonek, maison d’édition pour les écoles bretonnes), R. Le Coadic, des personnes de Skol Vreizh, des enseignants linguistes (université de Rennes II et de Lampeter au pays de Galles), des chercheurs de l’I.R.I.S.A. (Institut de recherches en Informatique et Systèmes Aléatoires), enseignants à l’ENSSAT et des ingénieurs d’Alcatel et du C.N.E.T. (France Télécom), ayant travaillé dans le domaine du traitement du signal, de la parole ou dans l’informatique s’unissent pour former un groupe de travail informel. Ce groupe de travail se réunissant tous les mois essaie de faire le point sur l’état des différentes technologies de l’époque et sur les besoins pédagogiques des enseignants et des élèves des différentes filières de l’éducation (Diwan, écoles bilingues du public et du privé) enseignant le breton et en breton.
 En 1995, T.E.S., l’I.R.I.S.A., l’université de Rennes II, Skol Vreizh et les membres du groupe de travail décident de coopérer pour développer de nouveaux outils pédagogiques intégrant les technologies de l’information et les technologies vocales afin de tirer le meilleur parti de la rapidité, de la fiabilité et de la robustesse des techniques de traitement de la parole (analyse, synthèse, reconnaissance, visualisation) et pour lancer le projet K.G.B. (Kenaoz ar Gomz e Brezhoneg, synthèse de la parole en breton) dans le cadre du projet CORDIAL de l’IRISA."


synthèse vocale

A la fin des années 90, TES et l'équipe CORDIAL du laboratoire IRISA (U. Rennes I) sortent le dictionnaire parlant Favereau, IRISA & TES (1999), Ar geriadur a gomz brezhoneg a-vremañ à Morlaix aux éditions Skol Vreizh. Il s'agit d'un dictionnaire vocal de 36.000 mots sur CD-ROM, tirés des entrées du Dictionnaire du breton contemporain de F. Favereau, 1997. Le journal Le Télégramme annonce la sortie du CD-rom le 26 mars 1999. C'est selon l'article "l'aboutissement de trois années de recherche sur la synthèse vocale en langue bretonne qui, avec l'appui de l'Union européenne, a réuni une exceptionnelle moisson de compétences [avec] l'ENSSAT (École nationale supérieure des sciences appliquées et de technologie) à Lannion, [l'équipe CORDIAL du laboratoire] IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) à Rennes, les universités de Rennes 2, Mons (Belgique), Limerick (Irlande) et Lampeter (Pays de Galles)." L'article ajoute que la chanteuse Annie Ebrel a du pour ce faire prononcer "3.000 demi-syllabes sur tous les tons". Plusieurs publications universitaires retracent la genèse de ce travail (voir le résumé de Aubry 2004:12-13). Ar Barzh (1996) évoque la constitution d'un corpus de parole pour la synthèse de la langue bretonne, puis trois publications consécutives présentent l'aboutissement de ce projet de synthèse de la parole appelé Kenaoz ar Gomz e Brezhoneg (KGB): Messager, Gourmelon, Mercier & Siroux (1998), Gourmelon, Mercier, Messager & Siroux (1999) et Mercier, Guyomard & Siroux (1999).

La diffusion de ce travail important est disproportionnellement réduite. Mille exemplaires en ont été distribués aux écoles. William Marois, alors recteur d'académie, avait déclaré au Télégramme que "ce produit innovant marque la volonté de l’Éducation nationale de développer l'apprentissage de la langue". Au début des années 2000, le dictionnaire Favereau (1993) apparaît en ligne, mais sans parole associée. Le CD-ROM n'est plus au catalogue des éditions Skol Vreizh.

Dans Messager & al. (1998), le dictionnaire parlant est considéré comme réalisé, et l'équipe se tourne vers la création d'un entraineur prosodique pédagogique, et d'une amélioration globale de la prosodie obtenue. Irisa (2001) rend compte des progrès: "les principales améliorations concerne la modélisation prosodique. L’utilisation de nouveaux corpus de parole mis à notre disposition par l’université de Rennes I et le CRDP et la mise au point d’outils de segmentation automatique nous ont permis d’améliorer nos connaissances sur la prosodie du breton et d’améliorer les règles de calcul des paramètres prosodiques au niveau des syllabes accentuées et réduites."

En 2015, l'Office Public de la Langue Bretonne (OPLB) mentionne des travaux menés par l'ENSSAT (Rennes I) à Lannion (Ar Mogn 2015:18m24s). Pour la période 2020-2021, l'OPLB et la Région Bretagne ont financé un partenariat ENSSAT/Skol Vreizh pour un projet de synthèse de la voix en breton. Damien Lolive, enseignant-chercheur en Informatique au laboratoire Irisa (ENSSAT), coordonne le projet Breton TTS (Breton Text to Speech). Hervé Gourmelon, ingénieur de logiciel pour l'entreprise privée Ekinops (Lannion), indépendamment à Skol Vreizh, apporte un soutien sur la langue. Le laboratoire IRISA a annoncé sur son site la clôture de la première campagne d'enregistrement en octobre 2020.

Télégramme (1999) annonce pour 2001 "un logiciel de dictée avec un contrôle automatique adapté aux exercices individuels".

correcteur prosodique

Télégramme (1999) annonce "pour l'an 2.000 un cédérom de prosodie qui permettra ainsi, par un système de courbes, de corriger automatiquement en temps réel les défauts de prononciation de l'élève. Un apport fondamental dans une langue où l'accent tonique a tant d'importance." Irisa (2001) rend compte des progrès: "Les améliorations introduites dans ce logiciel ont porté principalement sur le module de comparaison dynamique entre la parole à segmenter et la parole « modèle ». Grâce à ce module, le tuteur peut maintenant créer ses propres exercices pédagogiques de manière plus conviviale car il peut segmenter ses enregistrements de manière quasi automatique en comparant la représentation spectrale de sa prononciation à la représentation acoustique de la même phrase produite par synthèse à partir du texte. Grâce à cette segmentation automatique, on peut synchroniser et superposer les différentes courbes prosodiques (énergie, fréquence fondamentale), syllabe par syllabe et ainsi bien visualiser les différences de production entre le maître et l’élève."

Aubry (2000, 2004) publie deux articles de compte-rendu détaillé de création de cet entraineur prosodique.


reconnaissance de la parole

?

repérage des besoins

Annie Foret (laboratoire LOUSTIC, Rennes I) a mené un repérage des besoins de développement des outils du TAL pour le breton. Une première partie a compris des entretiens d'1h30, libre et semi-orienté. Un questionnaire en ligne a complété, avec une suggestion ouverte et deux questions sur le profil des répondants (niveau et usage professionnel du breton) et deux autres questions listant des outils développables en demandant lesquels étaient les plus urgents. Cependant, la liste proposée peine à prendre en compte le manque de familiarité des brittophones avec des outils que justement, ils utilisent peu:

  • système de lecture augmentée sur écran/tablette avec des livres enrichis de bulles d'information intégrées
  • correcteur orthographique / grammatical
  • système d'aide à la recherche/exploration d'information
  • plateforme de discussion (exemple : échange de recettes ou autre sujet)
  • analyseur (aux niveaux morphologique, syntaxique)
  • système de détection d'ambiguïtés pour le breton
  • dictionnaire des synonymes et expressions/proverbes
  • lien entre un dictionnaire et un réseau sémantique

64 réponses ont été analysées. Ce repérage a été financé par le laboratoire LOUSTIC, et sur la période novembre 2017-décembre 2018 par la DGLFLF qui n'a pas prolongé son soutien pour la création des outils.

Intelligence artificielle

L'intelligence artificielle est sans équivoque la base des développements présents et futurs sur les technologies du langage (Sayers & al. 2021). La langue bretonne est encore loin de pouvoir aborder les réalisations dans ce domaine, mais il existe des pistes.

La fondation basque Alhuyar a reçu un soutien européen pour le développement sur 2020-2021 d'un assistant virtuel en basque (Smart euSpeaker project). Le logiciel comme l'assistant Mycroft voice (https://mycroft.ai/) sur lequel il est basé sont open source, et les développeurs promettent une réutilisabilité pour d'autres langues minorisées. Ces développements sont évidemment conditionnés à la synthèse de la voix, mais aussi à la reconnaissance vocale.


Ressources

La plateforme ELG (European Language Grid) regroupe au niveau européen les ressources concernant les technologies du langage et les langues d'Europe (Labropoulou & al. 2020, Rehm & al. 2021). La plate forme, en 2021, liste déjà quelques ressources sur le breton concernant les technologie du langage.


Il y a eu trois éditions de l'atelier pour les technologies du langage appliquées aux langues celtiques.


  • Judge, John, Teresa Lynn, Monica Ward & Brian Ó Raghallaigh (éds.). 2014. Proceedings of the First Celtic Language Technology Workshop, Association for Computational Linguistics and Dublin City University, Dublin, Ireland. texte.
  • Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.) 2016. Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016). texte.
  • Lynn, Teresa, Delyth Prys, Colin Batchelor & Francis Tyers (éds.). 2019. Proceedings of the Celtic Language Technology Workshop, European Association for Machine Translation, Dublin, Ireland, texte.


Le GDR LIFT (Linguistique Informatique, Formelle et de Terrain) essaie de mettre en contact linguistes et spécialistes du TAL. Ils ont un séminaire en ligne mensuel.

Réseaux sociaux, jeux, etc.

L'Office Public de la Langue Bretonne fournit la traduction en breton des données du CLDR (Common Locale Data Repository). Facebook est utilisable en breton depuis 2014 (Ar Mogn 2015). Pour une étude sociolinguistique des usages des réseaux sociaux et interfaces existant en breton, ainsi que de la demande sociale et des usages réels, se reporter à Hicks (2017), Dauneau (2019).


Bibliographie

Cette bibliographie regroupe les références sur le traitement automatique de la langue bretonne, mais aussi plus globalement les projets numériques qui peuvent l'alimenter.


sur le breton

  • Aubry, Yves. 2000. Synthèse vocale en breton, mémoire de maîtrise, IUP MIME Le Mans, TES/ENSSAT.
  • Aubry, Y. 2004. Logiciel du traitement de la parole et d’aide à l’enseignement et à l’apprentissage de la prosodie: application au breton, travaux de D.R.T. d'ingénierie, Université du Maine.
  • Ar Barzh, H. 1996. Corpus de parole pour la synthèse de la langue bretonne, TES/IRISA.
  • Baxter, R.N. 2009. 'New technologies and terminological pressure in lesser-used languages. The Breton Wikipedia, from terminology consumer to potential terminology provider', Language Problems and Language Planning 33:1, 60-80, John Benjamins: Amsterdam/Philadelphia.
  • Blanchard, Jean-François. 2014. 'Pratiques langagières et processus dialogique d’identification pour une langue minorée. Le web en langue bretonne', Gaël Hily (dir.), Expression de l’identité dans le monde celtique, Rennes : TIR. 9-34.
  • Blanchard, Jean-François. 2015. Pratiques langagières et processus dialogiques d'identication sur les réseaux socionumériques. Le cas de la langue bretonne, ms. thèse. Université Rennes 2. texte.
  • Dupin, J. 2001. Dictionnaire vocal multimédia français – breton, rapport de stage, TES/IRISA, IUP MIME Le Mans.
  • Foret, Annie. 2016. 'Enrichissement de données en breton avec Wordnet', Poibeau, Thierry, Teresa Lynn, Delyth Prys & John Judge (éds.), Proceedings of the Second Celtic Language Technology Workshop (CLTW 2016), 55-61. texte.
  • Foret, Annie. 2017. 'Traitement automatique des langues, données légales, systèmes d’information et logique', CDN Convergences du droit et du numérique, Bordeaux, février 2017.
  • Foret, Annie. 2018. 'Breton-français et numérique, projet LangNum-br-fr (phase conception)'. Conférence Langues et numérique 2018, Juillet 2018, Paris, France. texte ou texte.
  • Gourmelon, Herve. 1996. Speech synthesis software using the TDPSOLA method, rapport de stage IRESTE, université de Limerick, Computer sciences & Information System Department.
  • Gourmelon, Herve, G. Mercier, J. P. Messager, J. Siroux. 1999. 'Synthèse vocale en breton', actes du colloque : le bilinguisme précoce en Bretagne, en pays celtiques et en Europe atlantique, Klask 5, PUR, Rennes, 125-138.
  • Guillou, A. 2000. Correcteur de prosodie pour la langue bretonne, rapport de projet.
  • IRISA. 2001. Rapport d’activité 2001. Projet CORDIAL. Communication multimodale personne-machine à composantes orales : méthodes et modèles, texte.
  • Jouitteau, M. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte en ligne.
  • L’Hostis, E. 2002. Dictionnaire multimédia français/breton, rapport de projet ENSSAT, Université de Rennes I.
  • An Intanv, P. 1994. War hent fonetikadur ar Brezhoneg / Sur les chemins de la phonétisation du breton, mémoire de maîtrise, Université de Rennes II.
  • Madigou, X. 1997. Interface graphique d’un dictionnaire vocal en breton, rapport de projet TES/IRISA ENSAT.
  • Mercier, G., M. Guyomard & J. Siroux. 1999. Synthèse de la parole en breton – Didacticiels pour une langue minoritaire, Speech Technology Applications in CALL, Eurocall 99, 57-61.
  • Messager, Jean-Pierre, Herve Gourmelon, Guy Mercier & Jacques Siroux. 1998. 'Research in speech processing for breton language training', ESCA-STiLL-1998, 29-32. texte.
  • Mocquard, G. 1999. Correcteur de prosodie, rapport de stage IFSIC, TES/IRISA, ENSSAT.
  • Mocquard, C. 2001. Korpus prosodiezh, mémoire de maîtrise, Université de Rennes II.
  • Ar Mogn, Olier. 2015. 'Langue bretonne et nouvelles technologies : une vitalité à soutenir', présentation à Technologies pour les Langues Régionales de France, Meudon. vidéo.
  • Morvan, Pierre. 2019. Ha difaziañ a ra LanguageTool ar c’hemmadurioù? Peseurt hentenn sevel evit gellet gouzout peseurt barregezh a zo gant an difazier LanguageTool war ar c'hemmadurioù?, mémoire de maîtrise, Université de Rennes II.
  • Ofis. 2021a. Ar brezhoneg en oadvezh an niverel, diagnostik ha strategiezh diorren
  • Ofis. 2021b. La langue bretonne à l'ère du numérique, diagnostic et stratégie de développement
  • Petit, M. 2003. Correcteur orthographique de langue bretonne, rapport de projet, ENSSAT, 1-37.
  • Poibeau, Thierry. 2014. 'Processing Mutations in Breton with Finite-State Transducers', Proceedings of the First Celtic Language Technology Workshop, Dublin, Ireland. texte.
  • Tanguy, E. 2000. Dictionnaire vocal Gervogal breton / français, français / breton, mémoire de licence, IUP MIME, Le Mans TES/IRISA, Lannion.
  • Le Télégramme. 26 mars 1999. 'Synthèse vocale : les ordinateurs vont parler breton aux élèves'. texte. [accédé le 23 oct. 2021].
  • Tyers, Francis M. 2009. 'Rule-based augmentation of training data for breton–french statistical machine translation', Proceedings of the 13th Conference of the European Association for Machine Translation, 213–218. texte.
  • Tyers, Francis M. 2010. 'Rule-based Breton to French machine translation', Proceedings of the 14th Annual Conference of the European Association of Machine Translation, 174-181. texte et poster.
  • Trebossen, Y. 1998. Dictionnaire vocal français – breton, mémoire de maîtrise, TES/IRISA, IUP MIME Le Mans.

sur le TAL en général, par des chercheurs ayant étudié le breton par ailleurs

  • Amblard, Maxime, Johannes Heinecke, Estelle Maillebuau. 2008. 'Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel', TALN 2008, 350-359.
  • Akrivas, Giorgo, Georgios Th. Papadopoulos, Matthijs Douze, Johannes Heinecke, Noel O'Connor, Carsten Saathoff, Simon Waddington. 2007. 'Knowledge-based Semantic Annotation and Retrieval of Multimedia Content', SAMT 2007 - 2nd International Conference on Semantic and Digital Media Technologies, 5-7 December 2007, Genoa, Italy.
  • Dasiopoulou, Stamatia, Johannes Heinecke, Carsten Saathoff, Michael Strintzis. 2007. 'Multimedia reasoning with natural language support', IEEE-International Conference on Semantic Computing, Irvine CA.
  • Heinecke, J. 2006. 'Génération automatique des représentation ontologiques', Mertens, Piet; Fairon, Cédrick; Dister, Anne; Watrin, Patrick (éds.), Verbum ex Machina, Actes de la 13e conférence sur le traitement automatique des langues naturelles, vol. 2 Louvain: Presses universitaires de Louvain, 502-511.
  • Heinecke, J. 2009. 'Matching natural language data on ontologies', Proceedings of the 4th International Workshop on Ontology Matching (OM-2009) Collocated with the 8th International Semantic Web Conference (ISWC-2009) Chantilly, USA, October 25, 2009. ISSN: 1613-0073.
  • Heinecke, J. 2013. 'Typologie et ressources pour le TALN des langues caucasiennes: le cas du tchétchène', Actes de TALARE 2013: Traitement Automatique des Langues Régionales de France et d'Europe, Sables d'Olonne, 181-194
  • Heinecke, Johannes, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem. 2008. 'TiLT : plateforme pour le Traitement Automatique des Langues Naturelles', TAL 49:2.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paula Hobson, François Goasdoué. 2006. 'The Semantic Web from an Industrial Perspective', Barahona, Pedro; Bry, François; Franconi, Enrico; Henze, Nicola; Sattler, Ulrike (éds.), Reasoning Web. Second International Summer School 2006 [ =Lecture Notes in Computer Science 4126], Heidelberg: Springer, 232-268.
  • Léger, Alain, Johannes Heinecke, Lyndon L.B. Nixon, Pavel Shvaiko, Jean Charlet, Paola Hobson, François Goasdoué. 2008. 'The Semantic Web from an Industrial Perspective', García, Roberto (éd.), Semantic Web for Business: Cases and Applications. New York: IGI GLobal. ISBN: 978-1-60566-066-0, 232-268.
  • Lolive, Damien. 2008. Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix. Intelligence artificielle [cs.AI], thèse de l'Université Rennes 1. texte.
  • Park, Jungyeul; Maillebuau, Estelle; Guimier De Neef, Emilie; Vinesse, Jérôme; Heinecke, Johannes. 2007. 'Evaluating an Interlingual Semantic Representation', Gerdes, Kim; Reuther, Tilmann; Wanner, Leo (éds.), Meaning - Text Theory. München - Wien.
  • Plu, Michel, Heinecke, J. 2011. 'Interprétation linguistique de requêtes pour un moteur de questions-réponses', CORIA 2011, Avignon, France, 593-598.
  • Plu, Michel, Heinecke, J. 2011. 'Moteur de questions-réponses d'une base de connaissances', EGC 2011, Brest, France, 593-598.
  • Tyers, Francis M. & Kevin Donnelly. 2009. 'apertium-cy: A collaboratively-developed free RBMT system for Welsh to English', Prague Bulletin of Mathematical Linguistics 91, 57–66.

autres langues minorisées

  • Millour, Alice & Karën Fort. 2018. 'À l’écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées', Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), texte.
  • Lamb, Will. 2021. 'Emerging NLP for Scottish Gaelic', présentation à FACL2, U. Arizona. [March 26, 2021].

prospectives régionales, françaises et européennes, DGLFLF

  • DGLFLF. 2015. Les technologies pour les langues régionales de France, Ministère de la Culture et de la Communication. [file:///C:/Users/melan/AppData/Local/Temp/TLRF.pdf texte].
  • Labropoulou, Penny & al. 2020. Making Metadata Fit for Next Generation Language Technology Platforms: The Metadata Schema of the European Language Grid. ms.
  • Rehm, Georg & al. 2021. 'European Language Grid: A Joint Platform for the European Language Technology Community', 16th EACL: Online - System Demonstrations, 221-230.
  • Leixa, Jérémy, Valérie Mapelli & Khalid Choukri. 2014. Inventaire des ressources linguistiques de langues de France, Organisme ELDA pour la DGLFLF.
  • Sayers, D., R. Sousa-Silva, S. Höhn et al. (2021). The Dawn of the Human-Machine Era: A forecast of new and emerging language technologies. Report for EU COST Action CA19102 'Language In The Human-Machine Era'. www.lithme.eu.