Science ouverte

De Arbres

Cette page recense les ressources et bonnes pratiques en science ouverte, dans le contexte de développement de ressources pour les langues à corpus restreint, avec un focus particulier sur les données linguistiques, le breton et les langues celtiques.


Pratiques FAIR de science ouverte

Plus les acteurs pratiquent la science ouverte et suivent les principes FAIR (Findable, Accessible, Interoperable, Reusable) et plus les ressources qui leur sont allouées sont fructueuses, car une réalisation sert à plusieurs acteurs. Ces principes concernent la recherche appliquée comme la recherche fondamentale, la recherche privée comme publique. Ces principes s'appliquent aux données (ou tout objet digital), aux métadonnées qui sont les informations sur ces objets digitaux, et aux infrastructures.


trouvabilité

Les (méta)données doivent être faciles à localiser par des humains comme par des machines. La lecture des métadonnées par les machines est essentielle à la découverte automatisée de jeux de données et de services. Pour cela, les (méta)données doivent avoir un identifiant unique, reconnu et stable, les métadonnées doivent décrire richement les données et inclure clairement leur identifiant. L'ensemble doit être enregistré et indexé dans une ressource cherchable.


accessibilité

Les données et méta données sont récupérables en utilisant un protocole standard. Ce protocole doit être ouvert, libre et implémentable universellement, et il permet l'authentification et les autorisations éventuelles. Les métadonnées doivent rester accessibles même si les données ne le sont plus.

interopérabilité

Les données doivent pouvoir être intégrées à un jeu de données différent et être interopérables avec des applications ou des gestion électronique de processus (workflow) pour l'analyse, le stockage et le processing. Pour cela, les (méta)données doivent utiliser un langage formel accessible, partagé et largement applicable pour les représentations du savoir (le vocabulaire de recherche est soumis lui-même aux principes FAIR). Les (méta)données doivent inclure des références correctes aux (méta)données qu'elle contient.


réutilisabilité

Les données doivent pouvoir être utilisées part des acteurs différents du développement. Les données et les métadonnées doivent être décrites clairement et précisément de façon à pouvoir être répliquées et/ou combinées dans des environnements différents. Pour cela, les (méta)données doivent répondre aux standards communautaires pertinents pour le domaine de la linguistique (TAL, mais aussi linguistique descriptive, linguistique formelle et minimalement sociolinguistique pour les profils de locuteurs). Ces (méta)données doivent être rendues disponibles avec une licence d'utilisation claire et être associées avec une notice de provenance détaillée (auteurs, équipes) permettant la citation de leur source.


Wikigrammaires et sciences ouvertes

Sur Gitlab, il est possible d'opérer un export versionné incrémental en xml & sql. Cet export permet de référencer le corpus constitué par la wikigrammaire.

La publication du jeu de données est visibilisé et accessibilisé par la publication d'un article descriptif de ces données, data paper (recommandations de structure).

Ressources

général

Le site COOP IST regroupe des ressources pour la publication scientifique en général et sur la science ouverte.

À l'université de Rennes, la plate-forme socle fournit une bonne introduction pédagogique aux pratiques de science ouverte.

TAL et sciences ouvertes

entrepôts

Les données linguistiques doivent être visibilisées dans les entrepôts de données. Ci-dessous, les liens vers les entrepôts (avec un lien vers les ressources pour le breton lorsqu'il y en a).


Équité dans le contexte des langues à corpus restreint

L'avènement des modèles larges de langues dessine un défaut d'équité avec les langues à corpus plus restreint (Ramesh & al. 2023 pour une vue génrale).


Bibliographie

Breton

  • Jouitteau, Mélanie. 2023d. 'Guide de survie des langues minorisées à l'heure de l'intelligence artificielle : Appel aux communautés parlantes', Lapurdum, numéro spécial 6, texte.
  • Jouitteau, Mélanie. 2013b, 'La linguistique comme science ouverte; Une expérience de recherche citoyenne à carnets ouverts sur la grammaire du breton', Lapurdum XVI, Charles Videgain (dir.), 93-115, texte.

Général, science ouverte, TAL et linguistique

  • Alegria, Iñaki, Xabier Artola, Arantza Díaz de Ilarraza, & Kepa Sarasola. 2011. 'Strategies to develop Language Technologies for Less-Resourced Languages based on the case of Basque', texte.
  • Baude, Olivier, Claire Blanche-Benveniste, Marie-France Calas, Paul Cappeau, Pascal Cordereix, et al. 2006. 'Corpus oraux, guide des bonnes pratiques 2006', CNRS Editions, Presses Universitaires Orléans, texte.
  • Baude, Olivier. 2007. 'Aspects juridiques et éthiques de la conservation et de la diffusion des corpus oraux', Revue française de linguistique appliquée XII:1, 85-97. DOI : 10.3917/rfla.121.0085. texte.
  • INSHS. 2021. Guide pour la recherche [V2], Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte, texte.
  • Janda, A. Laura. 2022. 'Managing Data and Statistical Code According to the FAIR Principles', Andrea L. Berez-Kroeker, Bradley McDonnell, Eve Koller, Lauren B. Collister (éds.), The Open Handbook of Linguistic Data Management, DOI:https://doi.org/10.7551/mitpress/12200.003.0042.
  • Kembellec, Gérald & Olivier Le Deuff (dir.). 2022. Data Paper : émergence d'une nouvelle donne scientifique, Revue française des sciences de l'information et de la communication, SFSIC 24, texte, https://doi.org/10.4000/rfsic.12219.
  • Ramesh, Krithika, Sunayana Sitaram & Monojit Choudhury. 2023. 'Fairness in Language Models Beyond English: Gaps and Challenges', ArXiv pre-print, texte.
  • Soria, Claudia. 2019. 'BLaRKing at minority language speakers The Digital Language Survival Kit as a speaker-centered approach to digital development of minority languages', (présentation du Digital Language Diversity Project (DLDP).
  • Soroli, Efstathia, Céline Poudat, Flora Badin, Antonio Balvet, Elisabeth Delais-Roussarie, et al... 2020. 'CORLI: The French Knowledge-Centre', CLARIN Annual Conference 2020, Oct 2020, Barcelone (virtual), Spain. texte.