Inventaire des corpus en breton pour le TAL

De Arbres

Un corpus est une collection de phrases, orales ou écrites. Cette page dresse l'inventaire des corpus pour le TAL (traitement automatique des langues) dans les différentes variétés de la langue bretonne. On y trouvera les ressources utilisables par les développeurs du numérique.

On distingue les corpus écrits, sans fichier son associé. Dès qu'un corpus comporte un fichier son, il est recensé dans les corpus oraux. Dans la même logique, on distingue enfin les corpus vidéo.


Corpus écrit

corpus annoté

  • Tyers, Francis M. & Vinit Ravishankar. 2018. Breton KEB, Corpus Universal Dependancies.


augmenter les ressources disponibles

Afin d'augmenter les corpus écrits disponibles aux développeurs, Mélanie Jouitteau et Reun Bideault étudient la possibilité de construire une mélangeuse de corpus.

Corpus oraux

transcriptions d'enregistrement audio

De plus en plus de corpus audios sont disponibles sous forme d'une bande son numérique avec sa transcription. Cette tendance devrait s'accélérer avec la possibilité de déposer des fichiers son sur des archives ouvertes (type CRDO).

Il existe aussi aujourd'hui de nombreux outils informatiques: des logiciels d'aide à la transcription, essentiellement orthographique (Transcriber) tantôt couplée à de l'analyse multi-modale (Transana), tantôt couplée à une analyse de la voix (Praat, Elan), des logiciels d'assistance à l'analyse quantitative et/ou qualitative (Unitex). D'autres logiciels, non spécialisés dans le traitement des données orales, sont aussi utilisables (Lexico 3, Unitext ou encore les logiciels d'étiquetage comme Tree Tagger).

productions universitaires

collection 'enregistrements' Emgleo Breiz

sketches et lectures de textes

  • Enregistrement 1, Pevar skrivagner a Vro-Gerne
lus par les auteurs eux-mêmes, Charlez ar Gall (L'Hôpital-Camfrout), Youenn Brusq (Tréboul), Rémi Derrien (Nord de Quimperlé)
  • Enregistrement 2, Eun toullad kontadennou
Lus par Maria Prat (Lannion)
  • Enregistrement 3, Diwar c'hoarzin
textes du père Médard (centre Léon: Lanarvily)
  • Enregistrement 4, Biskoaz kemend-all
deux sketches radio joués de P.J. Helias (Plozévet), joués avec P. Trépos (Pouldreuzic)
  • Enregistrement 5, Rimodellou kostez Uhelgoad
J. M. Skragn
  • Enregistrement 6, En-dro da vantan Sant-Jeg
Sylvain Loguillard (Yvias)

autres transcriptions

  • Gurvan Lozac'h met en ligne des enregistrements fait par 'Kazetenn ar Menez' en 1981, mais également ses propres enregistrements, qu'il transcrit par la suite. Anciennement sur le blog Brezhoneg digor, les enregistrements sont sur Brezhoneg Bew.
  • Axel Landeau met en ligne des discussions en dialecte du pays Fañch (Est Cornouaille: Ploneve, Rostrenn, Laruen, Laniskat, Zin Trevin, Tremargat, Pluzian). Il les retranscrit en orthographe dialectale et contruit un lexique en ligne.
  • recueil d'interviews retranscrites et traduites de paysans du Léon
Mellouet, P. & A. Pennec. 2004. Blaz an douar, le goût de la terre, Blaz an douar (éd.), Dastum Bro Leon - avec CD audio.
  • En annexe de Humphreys (1995), on trouve la transcription phonétique traduite d'un enregistrement de Kazetenn ar Vro Plinn, 11 (1979). François le Provost y est interviewé par René Richard.
Les disques de kazetenn ar Vro Plinn sont listés sur le site de Dastum.
Ensemble de dictionnaires de parlers locaux disponibles en ligne.
Les fichiers audio ou même vidéo sont retranscrits en API, en orthographe locale et standard et traduits en français.
la plupart des exemples illustratifs sont écoutables en ligne.
les descriptions sont rassemblées à partir d'un corpus audio réalisé en enregistrant des locuteurs et locutrices natives du pays de Bégard, la plupart nés dans les années 1910/1920.

Dastum

  • Dastum Bro Leon (éd.) O! Kement-se ! Istorioù farsus
3CD d'histoires en breton du Léon
transcriptions disponibles auprès de Dastum Bro-Leon (Lesneven).
  • Dastum Bro Leon (éd.) 2003. Amañ 'z eus plijadur
contes et joutes orales (Léon), avec transcriptions.
utilisé comme corpus dans Rezac (2009).
  • Dastum Bro Leon (éd.) Peñse Bro-Leon
30 anecdotes par 18 léonards de la côte, surtout du Bas-Léon (de Plougonvelin à Goulven) et 4 du Haut-Léon (de Plouescat à Carantec), avec transcriptions.

en ligne sur Dastumedia

Spered ar Yezh

Les enquêtes ethno-linguistiques de Spered ar Yezh sont écoutables en ligne sur Dastumédia. Les noms des enquêteurs sont :

Christiane Fer
Marie-Laure Groix
Eflamm Le Cornec
Anna Jouin
Natacha Le Floc'h
Benjamin Texier-Pauton

chaines Utube

  • Brezhoneg Bew, enregistrements de breton central, collectage de Gurvan Lozac'h


radios

Toutes les radios en breton ont maintenant des fichiers numérisés des interviews conduites. Il n'existe pas à ce jour de classement permettant de trouver un enregistrement de locuteur natif.

  • RCF met en ligne des podcasts pedenn an deiz 'prière du jour' en breton.


cours en ligne

Il existe des exercices de prononciation sur Loecsen.

Corpus vidéo

films de l'INA

  • L'ouest en mémoire
Des films courts et reportages en breton sont disponibles en ligne sur le site de l'INA (avec des transcriptions).


Bibliographie

  • Ropers, Christophe. 2007. 'KYG: A Corpus of Spoken Breton for Both Researchers and Advanced Learners', Journal of Celtic Language Learning, 5-24. texte.