Qu'est-ce qu'un bon corpus oral pour le TAL ?

De Arbres

Cette page rassemble les recommandations pour construire un corpus oral efficacement utilisable pour les développeurs des outils numériques en traitement automatique des langues.


Transcrire

Il est recommandé d'utiliser l'orthographe peurunvan comme référence (Ropers 2007:10).

La diversité linguistique doit être respectée dans sa réalité, mais il faut garder à l'esprit que plus un mot aura de graphies différentes et moins facilement le corpus sera cherchable.


Bibliographie

  • Ropers, Christophe. 2007. 'KYG: A Corpus of Spoken Breton for Both Researchers and Advanced Learners', Journal of Celtic Language Learning, 5-24. texte.