Common Voice : Mutualiser nos voix – Mozilla publie le plus grand jeu de données vocales transcrites du domaine public à ce jour

Mozilla met à la disposition du public le plus grand jeu de données de voix humaines disponible, en 18 langues différentes, ce qui représente près de 1 400 heures de données vocales enregistrées par plus de 42 000 contributeurs.

Dès le départ, la volonté de Mozilla avec le projet Common Voice était de mettre en place la base de données vocales la plus diversifiée au monde, optimisée pour la conception de technologies vocales. Mozilla a également fait une promesse : mettre toutes les données recueillies à disposition des startups, des chercheurs et de toute personne intéressée par les technologies à reconnaissance vocale.

Aujourd’hui, Mozilla est ravi d’annoncer la première base de données multilingue avec 18 langues représentées, dont l’anglais, le français, l’allemand et le chinois mandarin (traditionnel), mais aussi le gallois et le kabyle. Au total, le nouveau jeu de données comprend environ 1 400 heures d’échantillons de voix de plus de 42 000 personnes.

Avec cette version, la base de données Common Voice, qui ne cesse de croître, est aujourd’hui la plus importante du genre, avec des dizaines de milliers de personnes apportant leur voix et des phrases écrites originales dans le domaine public (CC0). À l’avenir, le jeu de données complet sera disponible pour téléchargement sur le site Common Voice.

Qualité des données

La base de données Common Voice est unique non seulement par sa taille et son modèle de licence, mais aussi par sa diversité, représentant une communauté mondiale de contributeurs vocaux. Ceux-ci peuvent choisir de fournir des métadonnées telles que leur âge, leur sexe et leur accent afin que leurs échantillons de voix soient annotés avec des informations utiles pour les moteurs de formation vocale.

Il s’agit d’une approche différente de celle des autres bases de données accessibles au public, qui sont soit faites à la main pour être diversifiées (par exemple pour obtenir une parité hommes- femmes) soit dont le corpus est aussi diversifié que les données » trouvées » (par exemple, le corpus TEDLIUM des présentations TED représente environ 3 plus d’hommes que de femmes).

Plus de voix mises en commun : De 3 à 22 langues en 8 mois

Depuis l’activation du support multilingue en juin 2018, Common Voice s’est développé pour devenir plus global et plus inclusif. Cela a dépassé les attentes : au cours des huit derniers mois, les communautés se sont mobilisées avec enthousiasme autour du projet, lançant des efforts de collecte de données dans 22 langues et 70 autres en cours sur le site Common Voice.

Dans le cadre d’un projet communautaire, les individus du monde entier qui se soucient d’avoir un jeu de données vocales dans leur langue ont été les auteurs de chaque nouveau lancement, certains sont des bénévoles passionnés, certains le font dans le cadre de leur travail quotidien en tant que linguistes ou spécialistes. Chacun de ces efforts nécessite la traduction du site Web pour permettre la lecture des contributions et l’ajout de phrases.

Les derniers ajouts incluent le néerlandais, le hakha-chin, l’espéranto, le farsi, le basque et l’espagnol. Dans certains cas, le lancement d’une nouvelle langue sur Common Voice marque le début de la présence de cette langue sur Internet. Ces efforts communautaires sont la preuve que toutes les langues, et pas seulement celles qui peuvent générer des revenus élevés pour les entreprises technologiques, sont dignes d’être représentées.

Mozilla continuera de travailler avec ces communautés pour s’assurer que leurs voix sont représentées et même pour les aider à se doter d’une technologie vocale. Dans cet esprit, Mozilla s’est récemment associé à la Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) et a co-organisé un hackathon conceptuel à Kigali pour créer un corpus vocal en kinyarwanda, posant les bases pour des experts locaux au Rwanda, afin de développer les technologies de voix Open Source dans leur propre langue.

Une expérience de contribution améliorée, incluant des profils optionnels

Le site Web Common Voice est l’un des principaux véhicules de Mozilla pour construire des jeux de données vocales utiles pour la technologie d’interaction vocale. Son aspect actuel est le résultat d’un processus continu d’itération. Les équipes en charge du projet ont écouté les remarques de la communauté sur les points faibles de la contribution tout en menant des recherches sur la facilité d’utilisation afin de la rendre plus simple, engageante et amusante.

Les personnes qui contribuent voient non seulement les progrès par langue dans l’enregistrement et la validation, mais disposent également d’outils améliorés qui varient d’un échantillon à l’autre ; une nouvelle fonctionnalité pour relire, ré-enregistrer et sauter des extraits fait partie de l’expérience ; la possibilité de passer rapidement du mode Parole à celui Audio ; ainsi que la possibilité de refuser la participation à une séance.

De plus, une option a été ajoutée pour créer un profil sauvegardé, ce qui permet aux contributeurs de suivre leurs progrès et leurs données dans de multiples langues. Le fait de fournir des informations facultatives sur le profil démographique permet également d’améliorer les données audio utilisées dans l’apprentissage de la précision de la reconnaissance vocale.

Common Voice a commencé comme prototype éprouvé et a été itéré en mode collaboratif au cours de la dernière année.

Renforcer l’innovation produit décentralisée : un marathon plutôt qu’un sprint

Mozilla vise à contribuer à un écosystème de technologies vocales plus diversifié et innovant. L’objectif est à la fois de proposer des produits à commande vocale, tout en soutenant les chercheurs et les plus petits acteurs. La mise à disposition de données via Common Voice en fait partie, de même que les moteurs open source Speech-to-Text et Text-to-Speech et les modèles formés dans le cadre du projet DeepSpeech, piloté par l’équipe de recherche Machine Learning Group chez Mozilla.

Cela prendra du temps, et le fait de lancer les projets tôt et de travailler au grand jour peut attirer l’engagement et la collaboration des technologues, organisations et entreprises qui rendront ces projets plus pertinents et fiables. Ces deux projets sont actuellement encore dans leur phase de recherche et DeepSpeech fait de grands progrès en matière de productivité.

A ce jour, avec les données de Common Voice et d’autres sources, DeepSpeech est techniquement capable de convertir la parole en texte avec une précision humaine et « en direct », c’est-à-dire en temps réel pendant que l’audio est diffusé. Cela permet la transcription de conférences, de conversations téléphoniques, d’émissions de télévision et de radio et d’autres émissions en direct au fur et à mesure de leur diffusion.

Le moteur DeepSpeech est déjà utilisé dans une variété de projets autres que Mozilla : Par exemple, dans Mycroft, un assistant vocal open source ; dans Leon, un assistant personnel open source ; dans FusionPBX, un système de commutation téléphonique installé dans une organisation privée et servant à transcrire des messages téléphoniques. À l’avenir, Deep Speech ciblera les petits terminaux de plateforme, tels que les smartphones et les systèmes embarqués, afin de débloquer l’innovation des produits chez Mozilla et en externe.

Pour Common Voice, l’objectif en 2018 était de développer le concept, d’en faire un outil utilisable par toutes les communautés linguistiques, d’optimiser le site Web et de construire une dorsale robuste (par exemple, le système comptable). Au cours des prochains mois, les efforts seront tournés vers l’expérimentation de différentes approches visant à accroître la quantité et la qualité des données pouvant être recueillies, tant grâce aux efforts de la communauté qu’aux nouveaux partenariats.

L’objectif général reste le même : fournir des données plus nombreuses et de meilleure qualité à tous ceux qui, dans le monde entier, cherchent à développer et à utiliser la technologie vocale. Parce que la concurrence et l’ouverture sont saines pour l’innovation. Parce que les langues moins utilisées doivent bénéficier de l’accès et de l’équité au même titre que les autres. Parce que le respect des données personnelles et le contrôle sur celles-ci sont importants, surtout sur votre voix.