LesVocaux: Site de consultation

Bienvenue sur le site de consultation du corpus LesVocaux, un corpus francophone de messages vocaux. Merci de votre intérêt pour le corpus. Si vous comptez exploiter ce dernier et faire usage des outils du site, veillez à citer notre travail.

L'équipe du projet a été récompensée aux Assises nationales des données de la recherche (ANDOR 2025, 1^er décembre) par le prix Science ouverte – catégorie créer un jeu de données manquantes, décerné par le Ministère français de l’Enseignement supérieur, de la Recherche et de l’Espace.

Le corpus LesVocaux est réalisé dans le cadre du projet ORALIDIA: Oralité et diachronie, une voie d’accès au changement linguistique. Malgré le développement des corpus oraux, l’accès à l’oral spontané reste difficile. Le projet ORALIDIA vise à la constitution d’un corpus inédit de français parlé spontané: les «sms vocaux» ou «vocaux». Ces données sont spontanément produites en dehors de toute enquête ou entretien linguistique, et constituent une voie d’accès à la parole spontanée non surveillée, nécessaire pour la description de la langue naturelle. Ces données sont ainsi le lieu privilégié d’étude de la diffusion des formes émergentes ou de leur disparition, et du français parlé dans différents contextes, en particulier informels. Les messages du corpus ont été recueillis en 2021 et en 2022.

Les principales fonctionnalités de ce site sont les suivantes:

Nous fournissons une interface de lecture des vocaux, à laquelle on accède via l'onglet Édition du menu. Les transcriptions ont été alignées automatiquement sur le son. Cela permet de suivre la lecture audio dans la transcription. L'accès à cet outil est libre et ne nécessite pas de compte.
Nous fournissons une interface de génération de concordance. L'outil est disponible via l'onglet Requête CQP du menu. Nous faisons usage de CQP grâce au module Perl CWB::CQP . Le corpus est toujours en cours d'édition et a été soumis à un processus automatique et imparfait de lemmatisation et d'identification des classes lexicales (UPOS, selon les conventions des universal dependencies ). L'accès au moteur de recherche nécessite un compte.

La version 0.0.4 comporte encore de nombreuses erreurs de transcription, de segmentation et d'annotation. Elle est livrée à la communauté «en l'état» dans le but de favoriser les échanges et le travail collectif. Le travail de correction de l'édition est en cours.

Le corpus compte 1195 fichiers audio provenant des deux collectes (dont la totalité de la campagne 2021, y compris les extraits). Ces fichiers totalisent une durée de près de 20h, correspondant à plus de 240 000 tokens transcrits. Chaque fichier correspond à un vocal authentique (sauf les extraits de la campagne 2021, identifiés comme tels dans le nom de fichier même et dans les métadonnées). Ces 1195 vocaux constituent la version complète du corpus (campagne 2021 et 2022). Certains vocaux reçus ont été écartés de l’étude pour diverses raisons (par ex. présence d’un autre locuteur dans l’enregistrement). Les métadonnées ont été également enrichies par rapport à la précédente version.

L'équipe du corpus LesVocaux