Romero & al. (2024)

De Arbres
  • David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji. 2024. 'CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark', texte.


Set d'évaluation multimodal et multilingue qui inclut breton et culture bretonne. https://cvqa-benchmark.org/
La partie du set qui concerne les données du breton, images et questions culturellement spécifiques à la Bretagne et au breton a été collectée par l'équipe de Bretagne numérique, Mélanie Jouitteau et les participant.e.s du datathon qu'ils ont organisé à Quimper le 17 février 2024 (dir. scientifique Jouitteau, logistique de collecte, communication et organisation de l'évènement du 17 février par Bretagne numérique).
Les images pertinentes pour la culture bretonne ont été collectées en ligne et lors d'une journée de datathon à Quimper à la cantine numérique. Chaque donnée du breton a été relue par au moins deux brittophones (parmi lesquels Mélanie Jouitteau, Gweltaz-Duval Guennoc, Karen Tréguier, Ana-Vari Chapalain, et plusieurs enseignant.e.s de Mervent et Roudour). L'ensemble des données a ensuite été relue par David le Meur et Mélanie Jouitteau, en lien avec les relectures de l'équipe de l'université de Abu Dhabi.


 Abstract:
 "Visual Question Answering (VQA) is an important task in multimodal AI, and it is often used to test the ability of vision-language models to understand and reason on knowledge present in both visual and textual data. However, most of the current VQA models use datasets that are primarily focused on English and a few major world languages, with images that are typically Western-centric. While recent efforts have tried to increase the number of languages covered on VQA datasets, they still lack diversity in low-resource languages. More importantly, although these datasets often extend their linguistic range via translation or some other approaches, they usually keep images the same, resulting in narrow cultural representation. To address these limitations, we construct CVQA2, a new Culturally-diverse multilingual Visual Question Answering benchmark, designed to cover a rich set of languages and cultures, where we engage native speakers and cultural experts in the data collection process. As a result, CVQA includes culturally-driven images and questions from across 28 countries on four continents, covering 26 languages with 11 scripts, providing a total of 9k questions. We then benchmark several Multimodal Large Language Models (MLLMs) on CVQA, and show that the dataset is challenging for the current state-of-the-art models. This benchmark can serve as a probing evaluation suite for assessing the cultural capability and bias of multimodal models and hopefully encourage more research efforts toward increasing cultural awareness and linguistic diversity in this field."


extrait

 "...we benchmark CVQA across various MLLMs and find that it presents a significant challenge for open MLLMs, which most of the time achieve no more than 50% accuracy. Additionally, we observe a notable degradation in model performance when questions are asked in native languages, particularly those in understudied languages such as Breton from France and Javanese from Indonesia, highlighting a significant gap in understanding multilingual prompts. We further conduct several ablation studies to analyze the models’ performance across different question categories, regions, languages, and image sources."
 [nous soumettons le CVQA à travers différents LLMs et constatons qu'il présente un défi important pour les LLMs ouverts, qui n'atteignent la plupart du temps pas plus de 50 % de précision. De plus, nous observons une dégradation notable des performances du modèle lorsque les questions sont posées dans différentes langues humaines, en particulier les langues peu étudiées telles que le breton de France et le javanais d'Indonésie, mettant en évidence une lacune significative dans la compréhension des requêtes multilingues. Nous menons en outre plusieurs études d'ablation pour analyser les performances des modèles dans différentes catégories de questions, régions, langues et sources d'images.]