Différences entre les versions de « Corpus »
Ligne 1 : | Ligne 1 : | ||
Un '''corpus''' est une collection de phrases, orales ou écrites. Les corpus peuvent servir à l'étude descriptive de la langue. Cette page sert à référencer les différents types de corpus disponibles pour l'étude linguistique de la langue bretonne ou son enseignement, sous format papier ou numérique. | Un '''corpus''' est une collection de phrases, orales ou écrites. Les corpus peuvent servir à l'étude descriptive de la langue. Cette page sert à référencer les différents types de corpus disponibles pour l'étude linguistique de la langue bretonne ou son enseignement, sous format papier ou numérique. | ||
Sont traités dans un autre article à part les corpus préparés pour un traitement informatique. L'[[inventaire des corpus pour le TAL]] ([[traitement automatique des langues]]) recence des corpus plus spécialisés, mis en forme pour être utilisables par des algorithmes. | |||
Version du 28 mars 2023 à 07:40
Un corpus est une collection de phrases, orales ou écrites. Les corpus peuvent servir à l'étude descriptive de la langue. Cette page sert à référencer les différents types de corpus disponibles pour l'étude linguistique de la langue bretonne ou son enseignement, sous format papier ou numérique.
Sont traités dans un autre article à part les corpus préparés pour un traitement informatique. L'inventaire des corpus pour le TAL (traitement automatique des langues) recence des corpus plus spécialisés, mis en forme pour être utilisables par des algorithmes.
Corpus écrit
Il existe en breton de très nombreux corpus écrits réalisés par des locuteurs natifs de différents dialectes. Ce site fournit différents outils permettant de choisir un corpus d'étude approrié :
- La liste des auteurs natifs, pour l'instant très loin d'être exhaustive, permet de chercher des corpus selon le dialecte utilisé et selon si l'auteur en est natif du breton.
- Une carte de type googlemap situe différents corpus dans l'espace, ce qui permet d'appréhender la provenance des œuvres avec un visuel géographisé. Cette carte est évolutive.
- La page d'inventaire des références de corpus utilisées sur ce site recense en permanence tous les corpus dont des exemples ont été utilisés pour construire la wikigrammaire (on en compte 468 début 2023). À chaque référence de corpus est associée une notice bibliographique et des renseignements sur ce corpus. Il est possible d'accéder à la liste de tous les exemples tirés d'une œuvre en allant sur la page de cette référence bibliographique, puis en cliquant sur "pages liées", dans le cartouche en bas à gauche.
- Ce site comprend enfin trois pages qui référencent les corpus suivant leur ordre chronologique: le vieux breton, le moyen breton, et enfin le breton pré-moderne.
Parole orale
texte en API
Liste des corpus de texte transcris en alphabet phonétique international (API)
- Humphreys, H.L. 1995. Phonologie et morphosyntaxe du parler breton de Bothoa, Brest, Emglev Breizh, 430-459.
- Press, I. 1986. A Grammar of Modern Breton, Mouton, Berlin. preview
- - with English glosses -
- Wmffre, I. 1998. Central Breton, [= Languages of the World Materials 152] Unterschleißheim: Lincom Europa, 58-62.
- - with English glosses -
- Bureau, L. 1878. 'Le dialecte breton du bourg de Batz (Loire-Inférieure)', Revue Celtique III, 230-231. texte.
- sans gloses
- ...
transcriptions d'enregistrement audio
De plus en plus de corpus audios sont disponibles sous forme d'une bande son numérique avec sa transcription. Cette tendance devrait s'accélérer avec la possibilité de déposer des fichiers son sur des archives ouvertes (type CRDO).
Il existe aussi aujourd'hui de nombreux outils informatiques: des logiciels d'aide à la transcription, essentiellement orthographique (Transcriber) tantôt couplée à de l'analyse multi-modale (Transana), tantôt couplée à une analyse de la voix (Praat), des logiciels d'assistance à l'analyse quantitative et/ou qualitative (Unitex). D'autres logiciels, non spécialisés dans le traitement des données orales, sont aussi utilisables (Lexico 3, Unitext ou encore les logiciels d'étiquetage comme Tree Tagger).
productions universitaires
- Jouitteau, Mélanie, Elfner, Emily, & Torres-Tamarit, Francesc. 2023. 'The prosody of Breton dialects and the syntax-phonology interface', IKER, Centre de recherches sur la langue et les textes basques. en ligne sur Cocoon.
- Ezanno, Rosalie, Yves Guillo & Mélanie Jouitteau. 2023. Atersadenn Rosalie Ezanno e brezhoneg Santez-Barb, interviewer à identifier.
- La revue Hor Yezh a publié plusieurs transcriptions de corpus oraux. Cependant, le fichier son correspondant est, à ma connaissance, inaccessible.
- région de Douarnenez, Hor Yezh (1983)
- Kemener, Y. F. 1979. 'Testeni Itron Pensel', Hor Yezh 126, 47-73.
- Testeni an Itron Ar Bihan (Hor Yezh 130)
- Testeni an Itron Kamilh Douarinou (Hor Yezh 133)
- Testeni an Aotrou Per Olier (Hor Yezh 138 et 147)
collection 'Marvaillou', Emgleo Breiz
- Madeg, Mikael, (éd.) Marvaillou, 13 volumes, Emgleo Breiz.
Madeg (2010:136): "J'ai lancé ces collections et j'ai soit réalisé soit regroupé les enregistrements. Elle consiste en 15 cassettes avec livrets de transcription intégrale. La numérisation étant en cours au moment où j'écris, on pourra à terme disposer de CD. Chaque cassette dure environ 55 minutes."
- Marvaillou 1: Gorre-Leon
- 13 histoires: Commana, Guimiliau, Plounéour-Menez, Landivisiau, Bodilis, Plouvorn, Lampaul-Guimiliau, Guimiliau, Plouenan, St-Pol-de-Léon, Carantec, Henvic.
- Marvaillou 2: Bro-Bagan hag an arzou
- huit histoires: Brignogan, Plouider, Kernilis, Guissény, Plougerneau.
- Marvaillou 3: Goueled-Leon
- neuf histoires: Ploudalmézeau, Plourin, Plouvien, Plounéour-Trêz, St-Divy, Landunvez, Le Drennec.
- Marvaillou 4: Plougastell
- sept histoires: six de Plougastel, une de St-Urbain.
- Marvaillou 5: Laboused e Bro-Leon
- ornithologie orale en breton de Cléder.
- Marvaillou 6: Kleuziad ha kaea
- 28 léonards (de tout le pays) parlant de la technique de construction des talus.
- Marvaillou 7: Eun tañva euz brezoneg Leon
- textes coruts émanant de 34 communes réparties dans le Léon.
- Marvaillou 8: Bezin e Bro-Leon
- huit léonards de la côte parlant du travail de récolte du goëmon: Plouarzel, Porspoder, St-Pabu, Landéda, Kerlouan, Plouider, Plouescat, St-Pol-de-Léon.
- Marvaillou 9: ?
- Marvaillou 10: Kontadennou euz Bro-Gwened
- Lignol, Plouay, Pluméliau, Languidic, Brec'h, Plouhinec.
- Marvaillou 11: Kontadennou euz Traoñ Kerne
- huit histoires en breton de Plomeur, Pont-L'Abbé, Briec, Coray, Tourc'h, Bannalec, Trégunc et Riec.
- Marvaillou 12: Kontadennou euz Bro-Dreger ha Gouelo
- dix histoires dont huit du Trégor: Ploulec'h, Cavan, Pleumeur-Bodou, Pleumeur Gauthier, Quimper-Guézennec, Trégonneau, et deux du Goëlo: Goudelin et Kerfot.
- Marvaillou 13: Kontadennou euz Meneziou Kerne
- huit histoires de Haute-Cornouaille: Rosnoen, Pleyben, Plonevez du Faou, St-Hernin, Huelgoat, Poullaouen et Caniuhel.
- Marvaillou 14: ?
- Marvaillou 15: Blaz ar brezhoneg
- trente enregistrements répartis sur toute la Bretagne.
- 5 en Léon, 4 en Trégor, 8 en Cornouaille, 8 en région de transition (2 en Goëlo, trois en Cornouaille et 4 en Bas-vannetais), et 4 en Haut-Vannetais (surtout maritime).
collection 'enregistrements' Emgleo Breiz
sketches et lectures de textes
- Enregistrement 1, Pevar skrivagner a Vro-Gerne
- lus par les auteurs eux-mêmes, Charlez ar Gall (L'Hôpital-Camfrout), Youenn Brusq (Tréboul), Rémi Derrien (Nord de Quimperlé)
- Enregistrement 2, Eun toullad kontadennou
- Lus par Maria Prat (Lannion)
- Enregistrement 3, Diwar c'hoarzin
- textes du père Médard (centre Léon: Lanarvily)
- Enregistrement 4, Biskoaz kemend-all
- deux sketches radio joués de P.J. Helias (Plozévet), joués avec P. Trépos (Pouldreuzic)
- Enregistrement 5, Rimodellou kostez Uhelgoad
- J. M. Skragn
- Enregistrement 6, En-dro da vantan Sant-Jeg
- Sylvain Loguillard (Yvias)
Dastum
collection 'Komz'
- K1, Doareoù an Ankou
- 30 anecdotes en breton du Léon et Cornouaille finistérienne de l'Ouest.
- K2, Margodig an Dour Yen
- conté par J.-L. Rolland (Trébrivan)
- K3, C'hwec'h kontadenn eus Arvor Bro-Vigoudenn
- contés par M. Divanac'h (Lesconil)
- K4, Erwan Pier ar C'horr
- 8 contes du pays Pourlet, contés par Loeiz Bevan (Lignol)
- K5, Ret vije deoc'h bezañ gwelet
- 13 histoires en breton du Trégor (Trémel, Rospez, Plestin, Ploubezre, Pleumeur-Gauthier, Lannion)
- K6, Kontadennoù Groñvel
- (Glomel, Bonel)
Journal an tri c'hanton
Cassettes audio (au moins trois numéros) enregistrées dans les années 70/80, dans les cantons de Gourin, Le Faouet et Guemene.
cassette 1: RUMMAD TCHOU 1 – miz EOST
Langonned gwechall - Laerien kezeg - Konskriou Gourin Dime kentañ Marie - Bleidi ba Kermadou - Zon ga Joseph ha Jaffray Tenno pato ba Beloriant- Ton da zañsal- Teir zon - Kontenn Yann Petra oa digoueet ga Joseph hont da gas e vestrez d'ar ger Daou don da dañsal - Dansal doc'h zul Marie Goujard et Joseph Auffret musiciens : L.M. CARIO, C. DERRIEN, D. LE CRAS, D. POULERIGUEN, G. POUPON, J.Y. SIBERIL
cassette 2: RUMMAD TCHOU 2 - bloavezh mat
Ton da zañsal Yves ha Mari Guern, Langonned Joseph Auffret, Gourin Yves Bris ha Marcel Guillou, Roudouallec Marie Kerdaffre, Ar Zent M. Guillou, Lanruon Louis Guern, maer Lanvenegen Ton da zansal
Keloù bro Dardoup
- cassette audio enregistrée dans les années 70/80
autres
- Dastum Bro Leon (éd.) O! Kement-se ! Istorioù farsus
- 3CD d'histoires en breton du Léon
- transcriptions disponibles auprès de Dastum Bro-Leon (Lesneven).
- Dastum Bro Leon (éd.) 2003. Amañ 'z eus plijadur
- contes et joutes orales (Léon), avec transcriptions.
- utilisé comme corpus dans Rezac (2009).
- Dastum Bro Leon (éd.) Peñse Bro-Leon
- 30 anecdotes par 18 léonards de la côte, surtout du Bas-Léon (de Plougonvelin à Goulven) et 4 du Haut-Léon (de Plouescat à Carantec), avec transcriptions.
- Kontadennoù Marsel Guilloux (Lanrivain), Radio Kreiz-Breizh.
- sans livret de retranscription
- Dastum Bro-Dreger (éd.) Encyclopédie sonore du Trégor-Goelo, Lannion, Dastum Bro-Dreger
- sans livret de retranscription
- TES (éd.) 2008. A-hed ar c'hantved, Sant-Brieg.
- DVD 4: 'Treger-Goueloù'
autres transcriptions
- Gurvan Lozac'h met en ligne des enregistrements fait par 'Kazetenn ar Menez' en 1981, mais également ses propres enregistrements, qu'il transcrit par la suite. Anciennement sur le blog Brezhoneg digor, les enregistrements sont sur Brezhoneg Bew.
- Axel Landeau met en ligne des discussions en dialecte du pays Fañch (Est Cornouaille: Ploneve, Rostrenn, Laruen, Laniskat, Zin Trevin, Tremargat, Pluzian). Il les retranscrit en orthographe dialectale et contruit un lexique en ligne.
- recueil d'interviews retranscrites et traduites de paysans du Léon
- Mellouet, P. & A. Pennec. 2004. Blaz an douar, le goût de la terre, Blaz an douar (éd.), Dastum Bro Leon - avec CD audio.
- En annexe de Humphreys (1995), on trouve la transcription phonétique traduite d'un enregistrement de Kazetenn ar Vro Plinn, 11 (1979). François le Provost y est interviewé par René Richard.
- Les disques de kazetenn ar Vro Plinn sont listés sur le site de Dastum.
- Cheveau, Loïc & Pierre-Yves Kersulec. 2012-évolutif. Dictionnaires bretons parlants.
- Ensemble de dictionnaires de parlers locaux disponibles en ligne.
- Les fichiers audio ou même vidéo sont retranscrits en API, en orthographe locale et standard et traduits en français.
- Yekel, Georgelin & Ar C'hozh (2015-2018). Brezhoneg Bro-Vear, Blog kevredigezh Hent don.
- petits articles thématiques sur des points du breton de Bégard, illustrés d'exemples dont certains sont retranscrits et/ou écoutables en ligne.
- les descriptions sont rassemblées à partir d'un corpus audio réalisé en enregistrant des locuteurs et locutrices natives du pays de Bégard, la plupart nés dans les années 1910/1920.
audio numérisé non-transcrit
Le phonographe et le gramophone ont été inventés à la toute fin du XIX°. Le premier corpus audio de breton date de 1900, enregistré lors de l'exposition universelle par Léon Azoulay. Les enregistrements sont à la Bibliothèque Nationale à Paris (en ligne). La même année 1900, François Vallée a enregistré quelques gwerz en breton de Trégor.
Entre 1915 et 1918, cinq enregistrements de brittophones prisonniers ont été enregistrés dans les camps de prisonniers par la Commission phonographique royale prussienne. Ces enregistrements sont au musée ethnographique de Berlin.
Depuis le XXI°, les corpus audio numériques sont nombreux.
Dastum
Les enquêtes ethno-linguistiques de Spered ar Yezh sont écoutables en ligne. Les noms des enquêteurs sont : Christiane Fer
- Marie-Laure Groix
- Eflamm Le Cornec
- Anna Jouin
- Natacha Le Floc'h
- Benjamin Texier-Pauton
chaines Utube
- Brezhoneg Bew, enregistrements de breton central, collectage de Gurvan Lozac'h
radios
Toutes les radios en breton ont maintenant des fichiers numérisés des interviews conduites. Il n'existe pas de classement permettant de trouver un enregistrement de locuteur natif.
- RCF met en ligne des podcasts pedenn an deiz 'prière du jour' en breton.
Corpus gestuel
La gestuelle associée à une langue enrichit les informations orales dans la dimension expressive, mais aussi parfois strictement lexicale ou grammmaticale (cf. gestes grammaticaux). L'étude de cette dimension du langage parlé peut se faire sur corpus.
corpus dessiné
Les bandes dessinées en breton sont la plupart du temps des traductions. Les traductions fournissent des données dont il faut se méfier, car le traducteur, même lorsqu'il est natif de la langue, subit l'influence de la langue source.
L'intérêt pédagogique de ce support attractif n'est pas à négliger, mais les bandes dessinées sont aussi particulièrement intéressantes linguistiquement. Comme la parole en situation réelle, la parole en corpus dessiné fournit des informations complexes sur le cadre énonciatif (gestes, espace, temps) sans que ces informations entrent pour autant dans l'énoncé. Le style qui favorise les traits d'oralité regorgent aussi souvent d'effets de la morphologie expressive (interjections, réduplications, etc.). Le ciblage dialectal est parfois délicat lorsque ces corpus sont des traductions dont le, la ou les traducteurs ne sont pas identifiés dans la publication.
Ci-dessous, quelques corpus dessinés ont été listés, avec un petit travail de ciblage dialectal et de relevé de faits de langue.
- Biguet, Olier. 2017. Tintin en Amerika, traduction de Hergé (1973) Tintin en Amérique, Casterman (éd.).
- Kerrain, Tual. 2015b. Persepolis, éditions Goater, traduction de Satrapi (2007) Persepolis, L'association 16 (éd.).
- Ar Menn, Brieg. 2015. Ar pevar gringo Dalton, Bzh5 (éd.), traduction de Morris & Goscinny (1967) Tortillas pour les Dalton, Dupuis (éd.).
- Bzh5. 2007. Ar pevar Sant Dalton, traduction de Goscinny & Morris (1971) Les Dalton se rachètent, Dargaud (éd.).
- Skol an Emsav 1977. Pare Paotred Dalton, traduction de Morris & Goscinny (1975) La guérison des Dalton, Dargaud (éd.).
- Monfort, Alan. 2007. Gaston 10, Yoran Embanner (éd.), traduction de Gaston 10, copyright Marsu 2007 par Franquin-Dupuis.
- Kervella, Divi. 2006. Ar c'hazh e Breizh, traduction de Geluck, Philippe (2000) Le chat est content, Casterman (éd.).
- Monfort, Alan. 2006. Gaston 14, Yoran Embanner (éd.), traduction d'extraits de quatre albums de Gaston Lagaffe par Franquin - Dupuis.
- An Here. 2003. Nij 714 da Sydney, traduction de Hergé (1963) Vol 714 pour Sydney, Casterman (éd.).
- Kervella, Divi. 2002b. Troioù-kaer Tintin: An Enez du, An Here (éd.), traduction en breton standard de Hergé (1963) L'île noire, Casterman (éd.).
- Kervella, Divi. 2002. Troioù-kaer Tintin: Al Lotuz Glas, An Here (éd.), traduction en breton standard de Hergé (1946) Le Lotus Bleu, Casterman (éd.).
- Kervella, Divi 2001. Troioù-kaer Tintin: Bravigoù ar Gastafiorenn, An Here (éd)., traduction en breton standard de Hergé (1963) Les bijoux de la castafiore, Casterman (éd.).
- Bannoù-Heol. 2000. Sell 'ta !, Boulig ha Billig, traduction de Roba (1988) 22! V'là Boule et Bill !, Roba SPRL, Dargaud (éd.).
- An Here. 1996. Troioù-kaer Tintin: Kammedoù kentañ war al loar, An Here (éd.), traduction en breton standard de Hergé. 1954, 1982. On a marché sur la lune, Casterman.
- An Here. 1993. Troioù-kaer Tintin: Ar steredenn gevrinus, An Here (éd.), traduction en breton standard de Hergé. 1947, 1974. L'étoile mystérieuse, Casterman.
- Le Saëc, Erwan. 1990. Ar skarzherien, Keit Vimp Bev (éd.).
- Keit Vimp Bev. 1984. Yakari hag an estranjour, traduction de Derib & Job (1982) Yakari et l'étranger, Casterman (éd.).
- Keit Vimp Bev. 1987. Yakari hag an ejen moueek gwenn, traduction de Derib & Job (1984) Yakari et le bison blanc, Casterman (éd.).
- traducteur Comes, 1984. Ar gaerell, Casterman, Keit Vimp Beo (éd.).
- traducteur Cosey (il semble à peu près constant sur les différents albums)
- 1983. Hag ar menez a gano evidoc'h, Jonathan 2, Keit Vimp Beo
- 1983. Kate, Jonathan 7, Keit Vimp Beo
- traducteur Derib, 1983. An abadennou chaseal kentan, Buddy Longway 9, Keit Vimp Beo.
- traducteur Derib, 1982, 1982b: (il semble constant sur les différents albums), plausiblement du sud Cornouaille.
- Ar sekred, Buddy Longway 5, Keit Vimp Beo (éd.).
- An orignal, Buddy Longway 6, Keit Vimp Beo (éd.).
- traducteur Comes, 1981. Skeud ar vran, Keit Vimp Beo (éd.).
- Moulleg, Loeiz. 1978. An Ankou, troioù-kaer Spirou ha fantasio, traduction de Fournier (1976) L'Ankou, Dupuis (éd.).
- Preder & Armor. 1977. Emgann ar Pennoù, Preder (éd.), Armor diffusion, traduction de Goscinny & Uderzo (1966) Le combat des chefs, Dargaud (éd.).
corpus vidéo
films de l'INA
- Des films courts et reportages en breton sont disponibles en ligne sur le site de l'INA (avec des transcriptions).
Dizale
L'association Dizale réalise des DVDs en langue bretonne. Catalogue complet et accessibilité des corpus sur le site breizhvod.
- 2009. Marc'h al lorc'h
- Voix de Marion Guen, Nolwenn Korbell, Manu Mehu, Gilles Pennec, Yann Vijer
- 2008. Columbo
- Voix de Tangi Daniel pour Columbo
- 2006. An Afer Sezneg
- Voix de : Goulwena an Henaff, Corinne ar Mero, Keridwenn ar Mero, Erell Beloni, Klet Beyer, Aziliz Bourges, Mona Bouzeg, Sten Charbonneau, Loic de Chateaubriand, Louis Conan, Tangi Daniel, Remi Derrien, Dom Duff,...
chaines utube
- brezhoneg digor, gant Gurvan Lozac'h
Bibliographie
- Scheer, Tobias. 2013. 'The Corpus: A Tool among Others', Laurence Vincent-Durroux et Philip Carr (dir.), Statut et utilisation des corpus en linguistique, Corela.
Corpus vs. élicitations
Le corpus est une des sources possibles des bases empiriques d'une grammaire, pour son analyse descriptive. Le corpus est un outil limité (Scheer 2013). Les points forts du corpus font aussi ses défauts: les données sont limitées ou transformées par la performance du locuteur, en opposition à sa compétence, sa grammaire interne. Par définition, les corpus ne sont pas non plus à même de fournir de phrases dont les linguistes sauraient avec certitude qu'elles sont agrammaticales. Le fait de trouver ou de ne pas trouver telle ou telle phrase dans un corpus ne détermine pas son statut grammatical, car des tournures peuvent être rares à l'usage mais parfaitement formées. Dans la grammaire générative, qui se donne pour but de dessiner les limites de ce qui est possible dans une langue donnée, le travail d'analyse de corpus est donc complété par le travail d'élicitation, où des locuteurs se prononcent sur la grammaticalité des phrases, et sur leurs interprétations possibles.
Le corpus est aussi un outil précieux en ce qu'il confronte les linguistes avec des structures qu'il ne leur serait pas forcément venu à l'esprit de tester. Les structures apparaissent aussi en corpus dans un contexte complet à tous les niveaux: sociolinguistique, affectif, temporel, interactif, pragmatique et syntaxique.