Mélangeuse de corpus

De Arbres

La mélangeuse de corpus est à l'état de projet (Jouitteau 2023e). Il s'agit de construire sur internet une interface de dépôt de corpus écrits.

L'intérêt de la mélangeuse est de permettre le dépôt d'écrits sous copyright propriétaire dans la mesure où leur déposant consent à la distribution du contenu si et seulement si ses phrases sont mélangées à une masse de corpus suffisante pour que l'œuvre ne soit pas reconstituable, lisible par des humains. La reconstitution des œuvres déposées reste interdite. L'ensemble de ses phrases individuelles, cependant, devient utilisable par les développeurs d'outils numériques pour le traitement automatique des langues.


Description de la mélangeuse

Il s'agit d'une mélangeuse de textes avec une interface web. C'est un outil universel, avec une paramétrisation par langue. Dans un premier, temps, ce projet pilote est déployé uniquement pour le breton, pour tester l'efficacité de l'outil et son adaptation à une communauté parlante.

La mélangeuse produit du texte au kilomètre en levant la difficulté de copyright dans la mesure où aucun humain ne pourrait aisément en reconstituer une œuvre. Il reste interdit de reconstituer automatiquement et de distribuer une des œuvres du composé, qui restent sous copyright propriétaire.


input

L'input de la mélangeuse est du texte déposable en ligne par les communautés parlantes. Il doit pouvoir accueillir du format html, word, et idéalement du pdf.


Le déposant remplit un formulaire minimal composé de :

  • un champ d'identification:
nom, prénom, ou nom de la structure
  • un menu déroulant permettant d'associer le corpus à des mots clefs qui le décrivent:
auteur(s)
standard, cornouaillais, léonard, trégorrois, vannetais
date d'écriture
+ champ libre
  • une case à cocher où le déposant certifie être en possession des droits, et les céder sous la condition expresse que le texte ne soit distribué que sous forme mélangée à un ensemble de phrases d'au moins un million de mots. La reconstitution et distribution du corpus initial est strictement interdite.
une case à cocher certifiant alternativement que le corpus est libre de droits.


L'interface d'entrée pour le déposant d'une langue donnée comprend une autre page où il est possible de renseigner :

la liste de mots dans la langue contenant des espaces
la liste des mots contenant des points (abréviations)
la liste des noms propres


traitement

Les textes sont découpés en phrases. À chacune d'entre elles est assigné un identifiant.

Les phrases sont comptées pour atteindre un seuil prédéterminé. Loïc Grobol (U. Paris Nanterre), considérait en 2022 qu'un output d'un million de mots permettrait de construire un parseur.

Les phrases sont mélangées de manière aléatoire entre les différentes sources (phrase de texte 1, phrase de texte 14, phrase de texte 6, etc.). Les identifiants des phrases sont gardés mais ne seront pas distribués.


output

L'output est un mélange phrase-à-phrase des différents corpus déposés. Il est téléchargeable sur l'interface en format facilement traitable en TAL. Ce corpus mélangé est légalement distribuable et publicisable auprès des développeurs.

L'interface de chargement comprend plusieurs champs:

  • format de fichier
  • tags associés au corpus à extraire


Si un tag particulier remonte un ensemble de corpus trop petit pour effectuer le mélange, un message en avertit l'utilisateur.

Une page séparée visibilise les contributeurs sous le nom sous lequel ils ont déclaré qu'ils voulaient être mentionnés pour leur don.

Un outil dont la communauté linguistique peut se saisir

Avec un tel système de dépôt mélangeur, des individus, des directions de journaux ou des maisons d'édition cèdent leurs droits à un ou plusieurs textes, et se voient automatiquement mentionnés sur l'interface de dépôt pour le chiffrage de leur apport (par ex. "les éditions Al Liamm ont contribué 34 067 mots au pot commun"). Pour un éditeur, céder les droits d'une œuvre devient un succès d'image vis-à-vis de la communauté parlante, plutôt qu'un risque d'entraver des réseaux de diffusion en librairies déjà très précaires. Le succès d'image est un facteur important car les maisons d'édition papier de langues minorisées tiennent centralement grâce à un soutien financier public, et de telles structures peuvent vouloir s'assurer qu'elles sont perçues par leurs financeurs comme jouant collectif.

Dans l'écosystème local autour du breton, les contacts pris jusqu'ici réagissent positivement à une telle solution (universitaires de départements de langue, travailleurs institutionnels de la langue, détenteurs d'archives de comptes-rendus de réunions, journalistes et même artistes producteurs de corpus écrit qui ne semblent pas y voir un sacrilège à leur art). L'idée semble reçue comme étrange mais ludique, et cela crée assez simplement une émulation : des gens de dialectes différents veulent s'assurer que leur dialecte traditionnel ou standardisé, ou leur choix d'orthographe, sera bien représenté.

Dans la mesure où l'interface web pourrait être décemment conviviale, il est possible de porter indépendamment des campagnes de promotion pour nourrir cette mélangeuse dans leur langue (Offices de la langue, associations de collectage, revues, etc.). Nous repérons des structures équivalentes dans d'autres langues. L'interface web pourrait aussi favoriser une émulation entre langues (chaque communauté de langue a l'idée d'une autre langue qui se défend mieux et qu'elle essaie de rattraper).


Étude de faisabilité

L'investissement de temps à construire cet outil pour l'ingénierie informatique doit être pesé au vu du potentiel d'augmentation des corpus TAL que cela représenterait pour toutes les langues à corpus restreint, dans le contexte actuel de l'explosion des possibilités déclenchées par l'intelligence artificielle. Avec l'aide d'écritures aux programmes comme chatGPT4, le coût en temps est drastiquement réduit.


Références

  • Jouitteau, Mélanie. 2023e. 'Community Internally-Driven Corpus Buildings, Three Examples from the Breton Ecosystem', Proceedings of SIGUL workshop 2023, Dublin. texte.