Inventaire des corpus en breton pour le TAL

De Arbres

Un corpus est une collection de phrases, orales ou écrites. Cette page dresse l'inventaire des corpus pour le TAL (traitement automatique des langues) dans les différentes variétés de la langue bretonne. On y trouvera les ressources utilisables par les développeurs du numérique.

On distingue les corpus écrits, sans fichier son associé. Dès qu'un corpus comporte un fichier son, il est recensé dans les corpus oraux. Dans la même logique, on distingue enfin les corpus vidéo.


Corpus écrit

corpus annoté

  • Tyers, Francis M. & Vinit Ravishankar. 2018. Breton KEB, Corpus Universal Dependancies.


augmenter les ressources disponibles

Afin d'augmenter les corpus écrits disponibles aux développeurs, Mélanie Jouitteau et Reun Bideault étudient la possibilité de construire une mélangeuse de corpus.

Corpus oraux

transcriptions d'enregistrement audio

De plus en plus de corpus audios sont disponibles sous forme d'une bande son numérique avec sa transcription. Cette tendance devrait s'accélérer avec la possibilité de déposer des fichiers son sur des archives ouvertes (type CRDO).

Il existe aussi aujourd'hui de nombreux outils informatiques: des logiciels d'aide à la transcription, essentiellement orthographique (Transcriber) tantôt couplée à de l'analyse multi-modale (Transana), tantôt couplée à une analyse de la voix (Praat, Elan), des logiciels d'assistance à l'analyse quantitative et/ou qualitative (Unitex). D'autres logiciels, non spécialisés dans le traitement des données orales, sont aussi utilisables (Lexico 3, Unitext ou encore les logiciels d'étiquetage comme Tree Tagger).

productions universitaires

collection 'enregistrements' Emgleo Breiz

sketches et lectures de textes

  • Enregistrement 1, Pevar skrivagner a Vro-Gerne
lus par les auteurs eux-mêmes, Charlez ar Gall (L'Hôpital-Camfrout), Youenn Brusq (Tréboul), Rémi Derrien (Nord de Quimperlé)
  • Enregistrement 2, Eun toullad kontadennou
Lus par Maria Prat (Lannion)
  • Enregistrement 3, Diwar c'hoarzin
textes du père Médard (centre Léon: Lanarvily)
  • Enregistrement 4, Biskoaz kemend-all
deux sketches radio joués de P.J. Helias (Plozévet), joués avec P. Trépos (Pouldreuzic)
  • Enregistrement 5, Rimodellou kostez Uhelgoad
J. M. Skragn
  • Enregistrement 6, En-dro da vantan Sant-Jeg
Sylvain Loguillard (Yvias)

autres transcriptions

  • Gurvan Lozac'h met en ligne des enregistrements fait par 'Kazetenn ar Menez' en 1981, mais également ses propres enregistrements, qu'il transcrit par la suite. Anciennement sur le blog Brezhoneg digor, les enregistrements sont sur Brezhoneg Bew.
  • Axel Landeau met en ligne des discussions en dialecte du pays Fañch (Est Cornouaille: Ploneve, Rostrenn, Laruen, Laniskat, Zin Trevin, Tremargat, Pluzian). Il les retranscrit en orthographe dialectale et contruit un lexique en ligne.
  • recueil d'interviews retranscrites et traduites de paysans du Léon
Mellouet, P. & A. Pennec. 2004. Blaz an douar, le goût de la terre, Blaz an douar (éd.), Dastum Bro Leon - avec CD audio.
  • En annexe de Humphreys (1995), on trouve la transcription phonétique traduite d'un enregistrement de Kazetenn ar Vro Plinn, 11 (1979). François le Provost y est interviewé par René Richard.
Les disques de kazetenn ar Vro Plinn sont listés sur le site de Dastum.
Ensemble de dictionnaires de parlers locaux disponibles en ligne.
Les fichiers audio ou même vidéo sont retranscrits en API, en orthographe locale et standard et traduits en français.
la plupart des exemples illustratifs sont écoutables en ligne.
les descriptions sont rassemblées à partir d'un corpus audio réalisé en enregistrant des locuteurs et locutrices natives du pays de Bégard, la plupart nés dans les années 1910/1920.

Dastum

  • Dastum Bro Leon (éd.) O! Kement-se ! Istorioù farsus
3CD d'histoires en breton du Léon
transcriptions disponibles auprès de Dastum Bro-Leon (Lesneven).
  • Dastum Bro Leon (éd.) 2003. Amañ 'z eus plijadur
contes et joutes orales (Léon), avec transcriptions.
utilisé comme corpus dans Rezac (2009).
  • Dastum Bro Leon (éd.) Peñse Bro-Leon
30 anecdotes par 18 léonards de la côte, surtout du Bas-Léon (de Plougonvelin à Goulven) et 4 du Haut-Léon (de Plouescat à Carantec), avec transcriptions.

en ligne sur Dastumedia

collection 'Marvaillou', Emgleo Breiz
 Madeg (2010:136):
 "J'ai lancé ces collections et j'ai soit réalisé soit regroupé les enregistrements. Elle consiste en 15 cassettes avec livrets de transcription intégrale. La numérisation étant en cours au moment où j'écris [...]. Chaque cassette dure environ 55 minutes."

Cette série réalisée par Mickaël Madec est éditée initialement en de cassettes-livrets par Brud Nevez, en collaboration pour certaines d’entre elles avec aussi Emgleo Breizh et Ar skol vrezhoneg. Les 4 premières cassettes sont constituées d’enregistrements de contes du pays du Léon, avec transcription intégrale des textes, tandis que les Marvaillou 10 à 13 sont consacrées aux contes d’autres terroirs de Bretagne. Suivent, de 1990 à 1998, des éditions de conversations thématiques (les oiseaux en Léon par Auguste Seité de Cléder, le travail des talus et des haies en Léon, le travail du goémon, les sermons de prêtres en breton du Léon) avec là aussi la transcription des entretiens, des glossaires et notes. La diversité dialectale bretonne est la thématique principale des Marvaillou 7 (35 entretiens de 35 communes différentes du Léon), des Marvaillou 15 (entretiens auprès de personnes venant de 30 communes différentes de Basse-Bretagne). Marvaillou 14 nous offre un panel des langues celtiques.


  • Marvaillou 1: Kontadennou euz Gorre-Leon, Contes du Haut-Léon – Brud Nevez, 1990.
13 histoires: Commana, Guimiliau, Plounéour-Menez, Landivisiau, Bodilis, Plouvorn, Lampaul-Guimiliau, Guimiliau, Plouenan, St-Pol-de-Léon, Carantec, Henvic.
  • Marvaillou 2: Kontadennou euz Bro-Bagan hag an harzou, Contes du pays Pagan et alentours - Brud Nevez, 1990.
huit histoires: Brignogan, Plouider, Kernilis, Guissény, Plougerneau.
  • Marvaillou 3: Kontadennou euz Goueled Leon, Contes du Bas-Léon, Brud Nevez, 1998.
neuf histoires: Ploudalmézeau, Plourin, Plouvien, Plounéour-Trêz, St-Divy, Landunvez, Le Drennec.
  • Marvaillou 4: Kontadennou euz Plougastell (ha Lanurvan), Contes de Plougastel et Lanurvan, Brud Nevez, 1991.
sept histoires: six de Plougastel, une de St-Urbain.
  • Marvaillou 5: Laboused e Bro-Leon. Pennadou-kaos gant Oguste Seite euz Klederb, Les oiseaux en Léon – conversations avec Auguste Seite de Cléder, Ar Skol Vrezoneg / Emgleo Breiz, 1998.
ornithologie orale en breton de Cléder.
  • Marvaillou 6: Kleuziad ha kaea. Labour ar hleuziou e Bro-Leon, Le travail des talus et des haies en pays du Léon, Brud Nevez, 1990.
28 léonards (de tout le pays) parlant de la technique de construction des talus.
  • Marvaillou 7: Eun tanva euz Brezoneg Bro-leon – 35 pennadig euz 35 parrez euz Bro-Leon a-bez, Emgleo Breiz / Brud Nevez, 1993.
textes courts émanant de 34 communes réparties dans le Léon.
  • Marvaillou 8: Bezin e Bro-Leon, Emgleo Breiz / Brud Nevez, 1993.
huit léonards de la côte parlant du travail de récolte du goémon: Plouarzel, Porspoder, St-Pabu, Landéda, Kerlouan, Plouider, Plouescat, St-Pol-de-Léon.
  • Marvaillou 9: Sarmoniou e brezoneg Leon, Emgleo Breiz / Brud Nevez, 1993.
  • Marvaillou 10: Kontadennou euz Bro-Gwened, Brud Nevez / Ar skol Vrezoneg, 1993.
Lignol, Plouay, Pluméliau, Languidic, Brec'h, Plouhinec.
  • Marvaillou 11: Kontadennou ez Traon Kerne, Brud Nevez / Ar skol Vrezoneg, 1993.
huit histoires en breton de Plomeur, Pont-L'Abbé, Briec, Coray, Tourc'h, Bannalec, Trégunc et Riec.
  • Marvaillou 12: Kontadennou euz Bro-Dreger ha Gouelo, Brud Nevez / Ar skol vrezhoneg, 1993.
dix histoires dont huit du Trégor: Ploulec'h, Cavan, Pleumeur-Bodou, Pleumeur Gauthier, Quimper-Guézennec, Trégonneau, et deux du Goëlo: Goudelin et Kerfot.
  • Marvaillou 13: Kontadennou euz Meneziou Kerne, 1999.
huit histoires de Haute-Cornouaille: Rosnoen, Pleyben, Plonevez du Faou, St-Hernin, Huelgoat, Poullaouen et Caniuhel.
  • Marvaillou 14: Blaz Keltieg, Ar skol vrezoneg / Brud Nevez, 1994.
Enregistrements sonores en breton, gallois, cornique, gaélique d’Écosse, d’Irlande et de l’île de Man. Les textes sont intégralement transcrits et traduits en français et en anglais et pour les textes de Grande-Bretagne, en breton.
  • Marvaillou 15: Blaz ar brezhoneg – Pennadou e brezoneg euz tregont parrez dre Vreiz-Izel a-bez, Ar skol vrezoneg / Emgleo Breiz, 1997.
trente enregistrements répartis sur toute la Bretagne; 5 en Léon, 4 en Trégor, 8 en Cornouaille, 8 en région de transition (2 en Goëlo, trois en Cornouaille et 4 en Bas-vannetais), et 4 en Haut-Vannetais (surtout maritime).
Eostiñ / Spered ar Yezh

Cette enquête ethno-linguistique représente 343 heures et 43 minutes d’enregistrements en tout. Elle a été menée en Basse-Bretagne par l'association Spered ar yezh à partir de 1998 dans le cadre de Eostiñ son programme de collecte. Après la dissolution de l'association, le Département du Finistère a souhaité soutenir la finalisation du chantier. L'appel d'offre a été remporté par Dastum et les fichiers sont consultables sur Dastumédia. Les originaux des enregistrements et les « transcriptions manuscrites » sont conservés aux Archives Départementales du Finistère.

Les noms des enquêteur.es sont Christiane Fer, Marie-Laure Groix, Eflamm Le Cornec, Anna Jouin, Natacha Le Floc'h, Benjamin Texier-Pauton. Certains fichiers sont en bilingues mais la plupart en breton sans trop de code-switching. Il y a souvent plusieurs locuteurs interrogés en même temps, avec des chevauchements.

chaines Utube

  • Brezhoneg Bew, enregistrements de breton central, collectage de Gurvan Lozac'h


radios

Toutes les radios en breton ont maintenant des fichiers numérisés des interviews conduites. Il n'existe pas à ce jour de classement permettant de trouver un enregistrement de locuteur natif, ou de référencement par dialecte.

  • RCF met en ligne des podcasts pedenn an deiz 'prière du jour' en breton, avec des lectures des évangiles.

Corpus vidéo

films de l'INA

  • L'ouest en mémoire
Des films courts et reportages en breton sont disponibles en ligne sur le site de l'INA (avec des transcriptions).


Bibliographie

  • Ropers, Christophe. 2007. 'KYG: A Corpus of Spoken Breton for Both Researchers and Advanced Learners', Journal of Celtic Language Learning, 5-24. texte.