Bienvenue sur le site de consultation du corpus LesVocaux, un corpus francophone de messages vocaux. Merci de votre intérêt pour le corpus. Si vous comptez exploiter ce dernier et faire usage des outils du site, veillez à citer notre travail.
Le corpus LesVocaux est réalisé dans le cadre du projet ORALIDIA: Oralité et diachronie, une voie d’accès au changement linguistique. Malgré le développement des corpus oraux, l’accès à l’oral spontané reste difficile. Le projet ORALIDIA vise à la constitution d’un corpus inédit de français parlé spontané: les «sms vocaux» ou «vocaux». Ces données sont spontanément produites en dehors de toute enquête ou entretien linguistique, et constituent une voie d’accès à la parole spontanée non surveillée, nécessaire pour la description de la langue naturelle. Ces données sont ainsi le lieu privilégié d’étude de la diffusion des formes émergentes ou de leur disparition, et du français parlé dans différents contextes, en particulier informels. Les messages du corpus ont été recueillis en 2021 et en 2022.
La version 0.0.3 comporte encore de nombreuses erreurs de transcription, de segmentation et d'annotation. Elle est livrée à la communauté «en l'état» dans le but de favoriser les échanges et le travail collectif. Le travail de correction de l'édition est en cours.
Le corpus compte 1195 fichiers audio provenant des deux collectes (dont la totalité de la campagne 2021, y compris les extraits). Ces fichiers totalisent une durée de près de 20h, correspondant à plus de 240 000 tokens transcrits. Chaque fichier correspond à un vocal authentique (sauf les extraits de la campagne 2021, identifiés comme tels dans le nom de fichier même et dans les métadonnées). Ces 1195 vocaux constituent la version complète du corpus (campagne 2021 et 2022). Certains vocaux reçus ont été écartés de l’étude pour diverses raisons (par ex. présence d’un autre locuteur dans l’enregistrement). Les métadonnées ont été également enrichies par rapport à la précédente version.
L'équipe du corpus LesVocaux