{"id":1579,"date":"2019-02-28T12:21:31","date_gmt":"2019-02-28T11:21:31","guid":{"rendered":"http:\/\/blog.mozilla.org\/press-fr\/?p=1579"},"modified":"2019-02-28T14:51:02","modified_gmt":"2019-02-28T13:51:02","slug":"common-voice-mutualiser-nos-voix-mozilla-publie-le-plus-grand-jeu-de-donnees-vocales-transcrites-du-domaine-public-a-ce-jour","status":"publish","type":"post","link":"https:\/\/blog.mozilla.org\/press-fr\/2019\/02\/28\/common-voice-mutualiser-nos-voix-mozilla-publie-le-plus-grand-jeu-de-donnees-vocales-transcrites-du-domaine-public-a-ce-jour\/","title":{"rendered":"Common Voice : Mutualiser nos voix &#8211; Mozilla publie le plus grand jeu de donn\u00e9es vocales transcrites du domaine public \u00e0 ce jour"},"content":{"rendered":"<p><em>Mozilla met \u00e0 la disposition du public le plus grand jeu de donn\u00e9es de voix humaines disponible, en 18 langues diff\u00e9rentes, ce qui repr\u00e9sente pr\u00e8s de 1 400 heures de donn\u00e9es vocales enregistr\u00e9es par plus de 42 000 contributeurs.<\/em><\/p>\n<p>D\u00e8s le d\u00e9part, la volont\u00e9 de Mozilla avec le projet <a href=\"https:\/\/voice.mozilla.org\/fr?utm_source=www.mozilla.org&amp;utm_medium=referral&amp;utm_campaign=nav&amp;utm_content=projects\">Common Voice<\/a> \u00e9tait de mettre en place la base de donn\u00e9es vocales la plus diversifi\u00e9e au monde, optimis\u00e9e pour la conception de technologies vocales. Mozilla a \u00e9galement fait une promesse : mettre toutes les donn\u00e9es recueillies \u00e0 disposition des startups, des chercheurs et de toute personne int\u00e9ress\u00e9e par les technologies \u00e0 reconnaissance vocale.<\/p>\n<p>Aujourd\u2019hui, Mozilla est ravi d&rsquo;annoncer la premi\u00e8re base de donn\u00e9es multilingue avec 18 langues repr\u00e9sent\u00e9es, dont l&rsquo;anglais, le fran\u00e7ais, l&rsquo;allemand et le chinois mandarin (traditionnel), mais aussi le gallois et le kabyle. Au total, le nouveau jeu de donn\u00e9es comprend environ 1 400 heures d&rsquo;\u00e9chantillons de voix de plus de 42 000 personnes.<\/p>\n<p>Avec cette version, la base de donn\u00e9es Common Voice, qui ne cesse de cro\u00eetre, est aujourd&rsquo;hui la plus importante du genre, avec des dizaines de milliers de personnes apportant leur voix et des phrases \u00e9crites originales dans le domaine public (<a href=\"https:\/\/creativecommons.org\/share-your-work\/public-domain\/cc0\/\">CC0<\/a>). \u00c0 l&rsquo;avenir, le jeu de donn\u00e9es complet sera disponible pour t\u00e9l\u00e9chargement sur le <a href=\"https:\/\/voice.mozilla.org\/fr\/datasets\">site Common Voice<\/a>.<\/p>\n<p><a href=\"https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/french.jpg\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-1582\" src=\"https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/french.jpg\" alt=\"\" width=\"600\" height=\"400\" srcset=\"https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/french.jpg 600w, https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/french-300x200.jpg 300w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/a><\/p>\n<p><strong>Qualit\u00e9 des donn\u00e9es<\/strong><\/p>\n<p>La base de donn\u00e9es Common Voice est unique non seulement par sa <a href=\"https:\/\/github.com\/JRMeyer\/open-speech-corpora\">taille et son mod\u00e8le de licence<\/a>, mais aussi par sa diversit\u00e9, repr\u00e9sentant une communaut\u00e9 mondiale de contributeurs vocaux. Ceux-ci peuvent choisir de fournir des m\u00e9tadonn\u00e9es telles que leur \u00e2ge, leur sexe et leur accent afin que leurs \u00e9chantillons de voix soient annot\u00e9s avec des informations utiles pour les moteurs de formation vocale.<\/p>\n<p>Il s&rsquo;agit d&rsquo;une approche diff\u00e9rente de celle des autres bases de donn\u00e9es accessibles au public, qui sont soit faites \u00e0 la main pour \u00eatre diversifi\u00e9es (par exemple pour obtenir une parit\u00e9 hommes- femmes) soit dont le corpus est aussi diversifi\u00e9 que les donn\u00e9es &nbsp;&raquo; trouv\u00e9es &nbsp;&raquo; (par exemple, le corpus TEDLIUM des pr\u00e9sentations TED repr\u00e9sente environ 3 plus d\u2019hommes que de femmes).<\/p>\n<p><strong>Plus de voix mises en commun : De 3 \u00e0 22 langues en 8 mois<\/strong><\/p>\n<p>Depuis l\u2019activation du support multilingue en juin 2018, Common Voice s&rsquo;est d\u00e9velopp\u00e9 pour devenir plus global et plus inclusif. Cela a d\u00e9pass\u00e9 les attentes : au cours des huit derniers mois, les communaut\u00e9s se sont mobilis\u00e9es avec enthousiasme autour du projet, lan\u00e7ant des efforts de collecte de donn\u00e9es dans 22 langues et 70 autres en cours sur le site Common Voice.<\/p>\n<p>Dans le cadre d&rsquo;un projet communautaire, les individus du monde entier qui se soucient d&rsquo;avoir un jeu de donn\u00e9es vocales dans leur langue ont \u00e9t\u00e9 les auteurs de chaque nouveau lancement, certains sont des b\u00e9n\u00e9voles passionn\u00e9s, certains le font dans le cadre de leur travail quotidien en tant que linguistes ou sp\u00e9cialistes. Chacun de ces efforts n\u00e9cessite la traduction du site Web pour permettre la lecture des contributions et l&rsquo;ajout de phrases.<\/p>\n<p>Les derniers ajouts incluent le n\u00e9erlandais, le hakha-chin, l&rsquo;esp\u00e9ranto, le farsi, le basque et l&rsquo;espagnol. Dans certains cas, le lancement d&rsquo;une nouvelle langue sur Common Voice marque le d\u00e9but de la pr\u00e9sence de cette langue sur Internet. Ces efforts communautaires sont la preuve que toutes les langues, et pas seulement celles qui peuvent g\u00e9n\u00e9rer des revenus \u00e9lev\u00e9s pour les entreprises technologiques, sont dignes d&rsquo;\u00eatre repr\u00e9sent\u00e9es.<\/p>\n<p>Mozilla continuera de travailler avec ces communaut\u00e9s pour s&rsquo;assurer que leurs voix sont repr\u00e9sent\u00e9es et m\u00eame pour les aider \u00e0 se doter d&rsquo;une technologie vocale. Dans cet esprit, Mozilla s&rsquo;est r\u00e9cemment associ\u00e9 \u00e0 la <a href=\"https:\/\/www.giz.de\/en\/html\/index.html\">Deutsche Gesellschaft f\u00fcr Internationale Zusammenarbeit (GIZ) <\/a>et a co-organis\u00e9 un <a href=\"https:\/\/medium.com\/mozilla-open-innovation\/sustainable-tech-development-needs-local-solutions-voice-tech-ideation-in-kigali-ec8dd33e0823\">hackathon conceptuel \u00e0 Kigali<\/a> pour cr\u00e9er un corpus vocal en kinyarwanda, posant les bases pour des experts locaux au Rwanda, afin de d\u00e9velopper les technologies de voix Open Source dans leur propre langue.<\/p>\n<p><strong>Une exp\u00e9rience de contribution am\u00e9lior\u00e9e, incluant des profils optionnels<\/strong><\/p>\n<p>Le site Web Common Voice est l&rsquo;un des principaux v\u00e9hicules de Mozilla pour construire des jeux de donn\u00e9es vocales utiles pour la technologie d&rsquo;interaction vocale. Son aspect actuel est le r\u00e9sultat d&rsquo;un <a href=\"https:\/\/medium.com\/mozilla-open-innovation\/prototyping-with-intention-33d15fb147c2\">processus continu d&rsquo;it\u00e9ration<\/a>. Les \u00e9quipes en charge du projet ont \u00e9cout\u00e9 les remarques de la communaut\u00e9 sur les points faibles de la contribution tout en menant des recherches sur la facilit\u00e9 d&rsquo;utilisation afin de la rendre plus simple, engageante et amusante.<\/p>\n<p>Les personnes qui contribuent voient non seulement les progr\u00e8s par langue dans l&rsquo;enregistrement et la validation, mais disposent \u00e9galement d\u2019outils am\u00e9lior\u00e9s qui varient d&rsquo;un \u00e9chantillon \u00e0 l&rsquo;autre ; une nouvelle fonctionnalit\u00e9 pour relire, r\u00e9-enregistrer et sauter des extraits fait partie de l&rsquo;exp\u00e9rience ; la possibilit\u00e9 de passer rapidement du mode Parole \u00e0 celui Audio ; ainsi que la possibilit\u00e9 de refuser la participation \u00e0 une s\u00e9ance.<\/p>\n<p>De plus, une option a \u00e9t\u00e9 ajout\u00e9e pour cr\u00e9er un profil sauvegard\u00e9, ce qui permet aux contributeurs de suivre leurs progr\u00e8s et leurs donn\u00e9es dans de multiples langues. Le fait de fournir des informations facultatives sur le profil d\u00e9mographique permet \u00e9galement d&rsquo;am\u00e9liorer les donn\u00e9es audio utilis\u00e9es dans l&rsquo;apprentissage de la pr\u00e9cision de la reconnaissance vocale.<\/p>\n<p><a href=\"https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/Capture-Common-Voice.png\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-1580\" src=\"https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/Capture-Common-Voice.png\" alt=\"\" width=\"1460\" height=\"928\" srcset=\"https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/Capture-Common-Voice.png 1460w, https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/Capture-Common-Voice-300x191.png 300w, https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/Capture-Common-Voice-768x488.png 768w, https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/Capture-Common-Voice-600x381.png 600w, https:\/\/blog.mozilla.org\/press-fr\/files\/2019\/02\/Capture-Common-Voice-1000x636.png 1000w\" sizes=\"(max-width: 1460px) 100vw, 1460px\" \/><\/a><\/p>\n<p style=\"text-align: center;\">Common Voice a commenc\u00e9 comme prototype \u00e9prouv\u00e9 et a \u00e9t\u00e9 it\u00e9r\u00e9 en mode collaboratif au cours de la derni\u00e8re ann\u00e9e.<\/p>\n<p><strong>Renforcer l&rsquo;innovation produit d\u00e9centralis\u00e9e : un marathon plut\u00f4t qu&rsquo;un sprint<\/strong><\/p>\n<p>Mozilla vise \u00e0 contribuer \u00e0 un \u00e9cosyst\u00e8me de technologies vocales plus diversifi\u00e9 et innovant. L&rsquo;objectif est \u00e0 la fois de proposer des produits \u00e0 commande vocale, tout en soutenant les chercheurs et les plus petits acteurs. La mise \u00e0 disposition de donn\u00e9es via Common Voice en fait partie, de m\u00eame que les moteurs open source Speech-to-Text et Text-to-Speech et les mod\u00e8les form\u00e9s dans le cadre du projet <a href=\"https:\/\/github.com\/mozilla\/deepspeech\">DeepSpeech<\/a>, pilot\u00e9 par l\u2019\u00e9quipe de recherche Machine Learning Group chez Mozilla.<\/p>\n<p>Cela prendra du temps, et le fait de lancer les projets t\u00f4t et de travailler au grand jour peut attirer l\u2019engagement et la collaboration des technologues, organisations et entreprises qui rendront ces projets plus pertinents et fiables. Ces deux projets sont actuellement encore dans leur phase de recherche et DeepSpeech fait de grands progr\u00e8s en mati\u00e8re de productivit\u00e9.<\/p>\n<p>A ce jour, avec les donn\u00e9es de Common Voice et d&rsquo;autres sources, DeepSpeech est techniquement capable de <a href=\"https:\/\/hacks.mozilla.org\/2018\/09\/speech-recognition-deepspeech\/\">convertir la parole en texte avec une pr\u00e9cision humaine et &laquo;&nbsp;en direct&nbsp;&raquo;<\/a>, c&rsquo;est-\u00e0-dire en temps r\u00e9el pendant que l&rsquo;audio est diffus\u00e9. Cela permet la transcription de conf\u00e9rences, de conversations t\u00e9l\u00e9phoniques, d&rsquo;\u00e9missions de t\u00e9l\u00e9vision et de radio et d&rsquo;autres \u00e9missions en direct au fur et \u00e0 mesure de leur diffusion.<\/p>\n<p>Le moteur DeepSpeech est d\u00e9j\u00e0 utilis\u00e9 dans une vari\u00e9t\u00e9 de projets autres que Mozilla : Par exemple, dans <a href=\"https:\/\/mycroft.ai\/blog\/deepspeech-update\/\">Mycroft<\/a>, un assistant vocal open source ; dans <a href=\"https:\/\/getleon.ai\/\">Leon<\/a>, un assistant personnel open source ; dans FusionPBX, un syst\u00e8me de commutation t\u00e9l\u00e9phonique install\u00e9 dans une organisation priv\u00e9e et servant \u00e0 transcrire des messages t\u00e9l\u00e9phoniques. \u00c0 l&rsquo;avenir, Deep Speech ciblera les petits terminaux de plateforme, tels que les smartphones et les syst\u00e8mes embarqu\u00e9s, afin de d\u00e9bloquer l&rsquo;innovation des produits chez Mozilla et en externe.<\/p>\n<p>Pour Common Voice, l&rsquo;objectif en 2018 \u00e9tait de d\u00e9velopper le concept, d&rsquo;en faire un outil utilisable par toutes les communaut\u00e9s linguistiques, d&rsquo;optimiser le site Web et de construire une dorsale robuste (par exemple, le syst\u00e8me comptable). Au cours des prochains mois, les efforts seront tourn\u00e9s vers l&rsquo;exp\u00e9rimentation de diff\u00e9rentes approches visant \u00e0 accro\u00eetre la quantit\u00e9 et la qualit\u00e9 des donn\u00e9es pouvant \u00eatre recueillies, tant gr\u00e2ce aux efforts de la communaut\u00e9 qu&rsquo;aux nouveaux partenariats.<\/p>\n<p>L&rsquo;objectif g\u00e9n\u00e9ral reste le m\u00eame : fournir des donn\u00e9es plus nombreuses et de meilleure qualit\u00e9 \u00e0 tous ceux qui, dans le monde entier, cherchent \u00e0 d\u00e9velopper et \u00e0 utiliser la technologie vocale. Parce que la concurrence et l&rsquo;ouverture sont saines pour l&rsquo;innovation. Parce que les langues moins utilis\u00e9es doivent b\u00e9n\u00e9ficier de l\u2019acc\u00e8s et de l&rsquo;\u00e9quit\u00e9 au m\u00eame titre que les autres. Parce que le respect des donn\u00e9es personnelles et le contr\u00f4le sur celles-ci sont importants, surtout sur votre voix.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mozilla met \u00e0 la disposition du public le plus grand jeu de donn\u00e9es de voix humaines disponible, en 18 langues diff\u00e9rentes, ce qui repr\u00e9sente pr\u00e8s de 1 400 heures de &hellip; <a class=\"go\" href=\"https:\/\/blog.mozilla.org\/press-fr\/2019\/02\/28\/common-voice-mutualiser-nos-voix-mozilla-publie-le-plus-grand-jeu-de-donnees-vocales-transcrites-du-domaine-public-a-ce-jour\/\">Lire la suite<\/a><\/p>\n","protected":false},"author":498,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"_links":{"self":[{"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/posts\/1579"}],"collection":[{"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/users\/498"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/comments?post=1579"}],"version-history":[{"count":0,"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/posts\/1579\/revisions"}],"wp:attachment":[{"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/media?parent=1579"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/categories?post=1579"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-fr\/wp-json\/wp\/v2\/tags?post=1579"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}