Inventaire des corpus en breton pour le TAL
Un corpus est une collection de phrases, orales ou écrites. Cette page dresse l'inventaire des corpus pour le TAL (traitement automatique des langues) dans les différentes variétés de la langue bretonne. On y trouvera les ressources utilisables par les développeurs du numérique.
On distingue les corpus écrits, sans fichier son associé. Dès qu'un corpus comporte un fichier son, il est recensé dans les corpus oraux. Dans la même logique, on distingue enfin les corpus vidéo.
Corpus écrit
corpus annoté
- Tyers, Francis M. & Vinit Ravishankar. 2018. Breton KEB, Corpus Universal Dependancies.
- en construction. Breton treebank II
augmenter les ressources disponibles
Afin d'augmenter les corpus écrits disponibles aux développeurs, Mélanie Jouitteau et Reun Bideault étudient la possibilité de construire une mélangeuse de corpus.
Corpus oraux
transcriptions d'enregistrement audio
De plus en plus de corpus audios sont disponibles sous forme d'une bande son numérique avec sa transcription. Cette tendance devrait s'accélérer avec la possibilité de déposer des fichiers son sur des archives ouvertes (type CRDO).
Il existe aussi aujourd'hui de nombreux outils informatiques: des logiciels d'aide à la transcription, essentiellement orthographique (Transcriber) tantôt couplée à de l'analyse multi-modale (Transana), tantôt couplée à une analyse de la voix (Praat, Elan), des logiciels d'assistance à l'analyse quantitative et/ou qualitative (Unitex). D'autres logiciels, non spécialisés dans le traitement des données orales, sont aussi utilisables (Lexico 3, Unitext ou encore les logiciels d'étiquetage comme Tree Tagger).
productions universitaires
- Jouitteau, Mélanie, Emily Elfner & Francesc Torres-Tamarit. 2023. 'The prosody of Breton dialects and the syntax-phonology interface', IKER, Centre de recherches sur la langue et les textes basques. en ligne sur Cocoon.
- Ezanno, Rosalie, Yves Guillo & Mélanie Jouitteau. 2023. Atersadenn Rosalie Ezanno e brezhoneg Santez-Barb, interviewer à identifier.
collection 'enregistrements' Emgleo Breiz
sketches et lectures de textes
- Enregistrement 1, Pevar skrivagner a Vro-Gerne
- lus par les auteurs eux-mêmes, Charlez ar Gall (L'Hôpital-Camfrout), Youenn Brusq (Tréboul), Rémi Derrien (Nord de Quimperlé)
- Enregistrement 2, Eun toullad kontadennou
- Lus par Maria Prat (Lannion)
- Enregistrement 3, Diwar c'hoarzin
- textes du père Médard (centre Léon: Lanarvily)
- Enregistrement 4, Biskoaz kemend-all
- deux sketches radio joués de P.J. Helias (Plozévet), joués avec P. Trépos (Pouldreuzic)
- Enregistrement 5, Rimodellou kostez Uhelgoad
- J. M. Skragn
- Enregistrement 6, En-dro da vantan Sant-Jeg
- Sylvain Loguillard (Yvias)
autres transcriptions
- Gurvan Lozac'h met en ligne des enregistrements fait par 'Kazetenn ar Menez' en 1981, mais également ses propres enregistrements, qu'il transcrit par la suite. Anciennement sur le blog Brezhoneg digor, les enregistrements sont sur Brezhoneg Bew.
- Axel Landeau met en ligne des discussions en dialecte du pays Fañch (Est Cornouaille: Ploneve, Rostrenn, Laruen, Laniskat, Zin Trevin, Tremargat, Pluzian). Il les retranscrit en orthographe dialectale et contruit un lexique en ligne.
- recueil d'interviews retranscrites et traduites de paysans du Léon
- Mellouet, P. & A. Pennec. 2004. Blaz an douar, le goût de la terre, Blaz an douar (éd.), Dastum Bro Leon - avec CD audio.
- En annexe de Humphreys (1995), on trouve la transcription phonétique traduite d'un enregistrement de Kazetenn ar Vro Plinn, 11 (1979). François le Provost y est interviewé par René Richard.
- Les disques de kazetenn ar Vro Plinn sont listés sur le site de Dastum.
- Cheveau, Loïc & Pierre-Yves Kersulec. 2012-évolutif. Dictionnaires bretons parlants.
- Ensemble de dictionnaires de parlers locaux disponibles en ligne.
- Les fichiers audio ou même vidéo sont retranscrits en API, en orthographe locale et standard et traduits en français.
- Yekel, Georgelin & Ar C'hozh (2015-2018). Brezhoneg Bro-Vear, Blog kevredigezh Hent don.
- la plupart des exemples illustratifs sont écoutables en ligne.
- les descriptions sont rassemblées à partir d'un corpus audio réalisé en enregistrant des locuteurs et locutrices natives du pays de Bégard, la plupart nés dans les années 1910/1920.
Dastum
- Dastum Bro Leon (éd.) O! Kement-se ! Istorioù farsus
- 3CD d'histoires en breton du Léon
- transcriptions disponibles auprès de Dastum Bro-Leon (Lesneven).
- Dastum Bro Leon (éd.) 2003. Amañ 'z eus plijadur
- contes et joutes orales (Léon), avec transcriptions.
- utilisé comme corpus dans Rezac (2009).
- Dastum Bro Leon (éd.) Peñse Bro-Leon
- 30 anecdotes par 18 léonards de la côte, surtout du Bas-Léon (de Plougonvelin à Goulven) et 4 du Haut-Léon (de Plouescat à Carantec), avec transcriptions.
en ligne sur Dastumedia
collection 'Marvaillou', Emgleo Breiz
- Madeg, Mikael, (éd.) Marvaillou, 13 volumes, Emgleo Breiz.
Madeg (2010:136): "J'ai lancé ces collections et j'ai soit réalisé soit regroupé les enregistrements. Elle consiste en 15 cassettes avec livrets de transcription intégrale. La numérisation étant en cours au moment où j'écris, on pourra à terme disposer de CD. Chaque cassette dure environ 55 minutes."
- Marvaillou 1: Gorre-Leon
- 13 histoires: Commana, Guimiliau, Plounéour-Menez, Landivisiau, Bodilis, Plouvorn, Lampaul-Guimiliau, Guimiliau, Plouenan, St-Pol-de-Léon, Carantec, Henvic.
- Marvaillou 2: Bro-Bagan hag an arzou
- huit histoires: Brignogan, Plouider, Kernilis, Guissény, Plougerneau.
- Marvaillou 3: Goueled-Leon
- neuf histoires: Ploudalmézeau, Plourin, Plouvien, Plounéour-Trêz, St-Divy, Landunvez, Le Drennec.
- Marvaillou 4: Plougastell
- sept histoires: six de Plougastel, une de St-Urbain.
- Marvaillou 5: Laboused e Bro-Leon
- ornithologie orale en breton de Cléder.
- Marvaillou 6: Kleuziad ha kaea
- 28 léonards (de tout le pays) parlant de la technique de construction des talus.
- Marvaillou 7: Eun tañva euz brezoneg Leon
- textes coruts émanant de 34 communes réparties dans le Léon.
- Marvaillou 8: Bezin e Bro-Leon
- huit léonards de la côte parlant du travail de récolte du goëmon: Plouarzel, Porspoder, St-Pabu, Landéda, Kerlouan, Plouider, Plouescat, St-Pol-de-Léon.
- Marvaillou 9: ?
- Marvaillou 10: Kontadennou euz Bro-Gwened
- Lignol, Plouay, Pluméliau, Languidic, Brec'h, Plouhinec.
- Marvaillou 11: Kontadennou euz Traoñ Kerne
- huit histoires en breton de Plomeur, Pont-L'Abbé, Briec, Coray, Tourc'h, Bannalec, Trégunc et Riec.
- Marvaillou 12: Kontadennou euz Bro-Dreger ha Gouelo
- dix histoires dont huit du Trégor: Ploulec'h, Cavan, Pleumeur-Bodou, Pleumeur Gauthier, Quimper-Guézennec, Trégonneau, et deux du Goëlo: Goudelin et Kerfot.
- Marvaillou 13: Kontadennou euz Meneziou Kerne
- huit histoires de Haute-Cornouaille: Rosnoen, Pleyben, Plonevez du Faou, St-Hernin, Huelgoat, Poullaouen et Caniuhel.
- Marvaillou 14: ?
- Marvaillou 15: Blaz ar brezhoneg
- trente enregistrements répartis sur toute la Bretagne.
- 5 en Léon, 4 en Trégor, 8 en Cornouaille, 8 en région de transition (2 en Goëlo, trois en Cornouaille et 4 en Bas-vannetais), et 4 en Haut-Vannetais (surtout maritime).
Eostiñ / Spered ar Yezh
Cette enquête ethno-linguistique représente 343 heures et 43 minutes d’enregistrements en tout. Elle a été menée en Basse-Bretagne par l'association Spered ar yezh à partir de 1998 dans le cadre de Eostiñ son programme de collecte. Après la dissolution de l'association, le Département du Finistère a souhaité soutenir la finalisation du chantier. L'appel d'offre a été remporté par Dastum et les fichiers sont consultables sur Dastumédia. Les originaux des enregistrements et les « transcriptions » sont conservés aux Archives Départementales du Finistère.
Les noms des enquêteurs sont :
- Christiane Fer
- Marie-Laure Groix
- Eflamm Le Cornec
- Anna Jouin
- Natacha Le Floc'h
- Benjamin Texier-Pauton
chaines Utube
- Brezhoneg Bew, enregistrements de breton central, collectage de Gurvan Lozac'h
radios
Toutes les radios en breton ont maintenant des fichiers numérisés des interviews conduites. Il n'existe pas à ce jour de classement permettant de trouver un enregistrement de locuteur natif, ou de référencement par dialecte.
- RCF met en ligne des podcasts pedenn an deiz 'prière du jour' en breton, avec des lectures des évangiles.
Corpus vidéo
films de l'INA
- L'ouest en mémoire
- Des films courts et reportages en breton sont disponibles en ligne sur le site de l'INA (avec des transcriptions).
Bibliographie
- Ropers, Christophe. 2007. 'KYG: A Corpus of Spoken Breton for Both Researchers and Advanced Learners', Journal of Celtic Language Learning, 5-24. texte.