Tyers & Ravishankar (2018)

De Arbres
  • Tyers, Francis M. & Vinit Ravishankar. 2018. 'A prototype dependency treebank for Breton', Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018, 197-204. texte.


Cet article décrit la construction d'un corpus tree-bank annoté de 10 000 tokens. Le corpus est disponible sous licence gratuite open-source.
https://github.com/UniversalDependencies/UD_Breton-KEB


 Résumé:
 "Cet article décrit le développement du premier corpus syntaxiquement annoté de breton. Le corpus fait partie du projet «Universal Dependencies». Dans cet article, nous décrivons la préparation du corpus, certaines constructions spécifiques au breton qui avaient besoin d'un traitement spécial et nous donnons des résultats de l'analyse syntaxique de breton par un nombre d'analyseurs syntaxiques.
 
 Berr-skrid: 
 "Deskrivañ a ra ar pennad-mañ savidigezh ar c'horpus kentañ bet notennet e ereadurezh e brezhoneg. Ul lodenn eus ar raktres «Universal Dependencies» eo ar c'horpus-se. En teuliad e teskrivomp penaos e oa bet prientet ar c'horpus ha penaos e oa bet pledet gant frammoù dibar zo eus ar brezhoneg. Ouzhpenn-se, reiñ a reomp disoc'hoù dezrannadur ereadurel ar brezhoneg gant dezrannerioù ereadurel zo."
 
 Abstract:
 "This paper describes the development of the first syntactically-annotated corpus of Breton. The corpus is part of the Universal Dependencies project. In the paper we describe how the corpus was prepared, some Breton-specific constructions that required special treatment, and in addition we give results for parsing Breton using a number of off-the-shelf data-driven parsers."


à propos

La saveur dialectale de KEB est le KLT standard, avec un soupçon de gwenedeg / vannetais (quelques phrases avec "àr") et un peu de breton central de l'article de Lenora Timm. Il contient certaines phrases un peu artificielles typiques des grammaires et beaucoup d'autres plus naturelles même si l'écrit est surtout représenté. Le dialecte administratif est assez bien représenté car les traductions du corpus parallèle de l'Ofis ont été réalisées à la demande de collectivités locales.

Le corpus contient des exemples de Timm (1988), Press (1986), et d'un article de Janig Stephens qui n'est pas Stephens (1993) (sans doute son chapitre d'ouvrage 'Breton' publié la même année).

Les phrases traduites en français ou en anglais dans le corpus original ont gardé leur traduction (chansons, textes administratifs ou ouvrages de grammaire). Les extraits de wikipedia ont été traduits initialement par le traducteur automatique Apertium de Tyers (2010). Depuis mars 2023, les phrases ont une traduction faite à la main en français et en anglais.

La discussion sur ce corpus UD se tient sur Github ici.