Solliec (2024)

De Arbres

présentation de 14h00-14h40 - Un Aperçu du matériel audio sur Cocoon ===

Tanguy Solliec, LACITO CNRS

30 min + 10 min questions

Cocoon : Un dépôt d'enregistrements oraux ; un aperçu du matériel en langue bretonne

Cocoon, abréviation de COllections de COrpus Oraux Numériques, est un dépôt numérique qui offre un soutien aux chercheurs dans l'élaboration de corpus oraux et dans l'archivage de matériel audio collecté au cours de leurs activités de recherche. Cette ressource est développée par le CNRS dans le cadre de l'écosystème numérique HUMA-NUM. Elle contribue aux mouvements de l'open science et de l'open data et, plus largement, à la préservation de certains aspects du patrimoine immatériel. Les fichiers audio ou vidéo présents sur la plateforme web Cocoon sont organisés en différentes collections thématiques. Plusieurs d'entre elles sont consacrées au breton et ont été produites lors de différents travaux dialectologiques sur le terrain. Bien que d'autres collections audio d'enregistrements en langue bretonne soient disponibles sur d'autres plateformes, le matériel de Cocoon est associé à des métadonnées OLAC systématiques. Bien que les métadonnées associées à ce matériel soient généralement bien détaillées, peu de documentation ou de transcriptions sont disponibles ou jointes à ces enregistrements, pour diverses raisons. Le dépôt Cocoon fournit du matériel brut contenant des données bretonnes à divers degrés. Ces fichiers de recherche sont donc hétérogènes et une typologie doit être développée pour mieux décrire leur contenu, en vue d'une réutilisation à d'autres fins. Afin d'évaluer le matériel disponible et d'identifier les fichiers les mieux adaptés à d'autres tâches, différents critères peuvent être pris en compte :

   -la langue principale utilisée dans l'enregistrement (français avec des mots bretons, entretien réalisé en breton...)
   -qualité de l'enregistrement
   -le contenu des enregistrements
   -la durée, la possibilité de couper en morceaux plus courts
   -le contexte sociolinguistique et l'aisance des locuteurs
   -nombre de locuteurs impliqués
   -présence d'annotations et/ou de transcriptions

Le dépôt Cocoon se concentre principalement sur la conservation et l'accès au matériel qu'il stocke. Cependant, la plateforme ne permet pas d'enrichir ces données avec du contenu supplémentaire par la suite. Dans ce contexte, comment ces « mauvaises données » pourraient-elles contribuer au développement de ressources en technologies langagières pour une langue (relativement) pauvre en ressources comme le breton ? Des initiatives telles que le projet de recherche en cours DeepTypo (LLF, Paris) visant à fournir des transcriptions automatiques et à extraire des informations significatives à partir de petits corpus offrent des perspectives intéressantes. Dans le cas du matériel Cocoon, la toute première étape consiste à relier les documents publiés, les informations numérisées disponibles et les enregistrements. Le Nouvel Atlas Linguistique de la Basse Bretagne (Le Dû 2001) est une bonne illustration des étapes possibles. Étant donné le contenu inégal des enregistrements, un deuxième axe de travail consiste à élaborer une méthodologie permettant de détecter dans quelle mesure le breton est utilisé dans les enregistrements et de les classer en conséquence. Différentes approches proposent des solutions de synthèse vocale pour les transcriptions automatiques. Les tester sur des enregistrements de terrain donnera un aperçu de leur potentiel. Ce sera également l'occasion de voir si et comment ces données brutes peuvent contribuer à leur amélioration.

Le Dû, Jean. 2001. Nouvel atlas linguistique de la Basse-Bretagne. 2 volumes. 601 maps, Centre de Recherche Bretonne et Celtique, Université de Bretagne Occidentale, Brest.