{"id":1378,"date":"2019-02-28T16:56:15","date_gmt":"2019-02-28T15:56:15","guid":{"rendered":"http:\/\/blog.mozilla.org\/press-it\/?p=1378"},"modified":"2019-03-07T17:02:47","modified_gmt":"2019-03-07T16:02:47","slug":"condividiamo-la-nostra-common-voice-mozilla-rende-disponibile-il-piu-grande-dataset-vocale-con-trascrizioni-in-pubblico-dominio","status":"publish","type":"post","link":"https:\/\/blog.mozilla.org\/press-it\/2019\/02\/28\/condividiamo-la-nostra-common-voice-mozilla-rende-disponibile-il-piu-grande-dataset-vocale-con-trascrizioni-in-pubblico-dominio\/","title":{"rendered":"Condividiamo la nostra Common Voice: Mozilla rende disponibile il pi\u00f9 grande dataset vocale con trascrizioni in pubblico dominio"},"content":{"rendered":"<p><a href=\"https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/banner_italiano.jpg\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-extra-large wp-image-1381\" src=\"https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/banner_italiano-1000x667.jpg\" alt=\"\" width=\"1000\" height=\"667\" srcset=\"https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/banner_italiano-1000x667.jpg 1000w, https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/banner_italiano-300x200.jpg 300w, https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/banner_italiano-768x512.jpg 768w, https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/banner_italiano-600x400.jpg 600w, https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/banner_italiano.jpg 1200w\" sizes=\"(max-width: 1000px) 100vw, 1000px\" \/><\/a>Mozilla mette a disposizione il pi\u00f9 grande dataset di voci generato attraverso un processo di <em>crowdsourcing<\/em>: 18 lingue, quasi 1.400 ore di registrazioni vocali effettuate da oltre 42.000 persone.<\/p>\n<p>Sin dall\u2019inizio la nostra visione di <a href=\"https:\/\/voice.mozilla.org\/\">Common Voice<\/a> \u00e8 stata quella di produrre il pi\u00f9 diversificato dataset vocale al mondo, ottimizzato per la realizzazione di tecnologie vocali. Abbiamo anche promesso &#8220;apertura&#8221;: tutti i dati vocali trascritti e di alta qualit\u00e0 raccolti sarebbero stati messi a disposizione di startup, ricercatori e chiunque fosse interessato alle tecnologie di riconoscimento vocale.<\/p>\n<p>Oggi siamo lieti di condividere il nostro primo dataset multilingua, comprendente 18 lingue, tra cui inglese, francese, tedesco e cinese mandarino (tradizionale), ma anche gallese e cabilo. Complessivamente, il nuovo dataset comprende circa 1.400 ore di registrazioni effettuate da oltre 42.000 persone.<\/p>\n<p>Con questa versione, il dataset di Common Voice (in costante crescita) \u00e8 ora il pi\u00f9 grande nel suo genere, con decine di migliaia di persone che contribuiscono con le proprie voci e frasi originali di pubblico dominio (<a href=\"https:\/\/creativecommons.org\/share-your-work\/public-domain\/cc0\/\">CC0<\/a>). In futuro, il dataset completo sar\u00e0 disponibile per il download sul <a href=\"https:\/\/voice.mozilla.org\/data\">sito di Common Voice<\/a>.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-1379\" src=\"https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/CV-Datasets-animated-graphic.gif\" alt=\"\" width=\"1440\" height=\"850\" \/><\/p>\n<h2>Qualit\u00e0 dei dati<\/h2>\n<p>Il dataset di Common Voice \u00e8 unico non solo per <a href=\"https:\/\/github.com\/JRMeyer\/open-speech-corpora\">le sue dimensioni e modello di licenza<\/a> ma anche nella sua diversit\u00e0, rappresentando una comunit\u00e0 globale di persone che hanno contribuito con la propria voce. Ogni persona pu\u00f2 scegliere se fornire metadati come et\u00e0, sesso e accento. Queste informazioni possono essere associate alle registrazioni immesse, migliorando il processo di addestramento dei motori di riconoscimento vocale.<\/p>\n<p>Questo \u00e8 un approccio diverso rispetto ad altri dataset disponibili pubblicamente, per i quali la diversit\u00e0 viene ottenuta in modo artificiale (cio\u00e8 il numero di uomini \u00e8 uguale a quello delle donne) o il corpus \u00e8 tanto diverso quanto i dati da cui \u00e8 ricavato (per esempio il corpus di TEDLIUM, dai talk di TED, include circa 3 uomini per ogni donna).<\/p>\n<h2>Sempre pi\u00f9 Common Voice: da 3 a 22 lingue in soli 8 mesi<\/h2>\n<p>Fin da quando abbiamo attivato il supporto ad altre lingue nel giugno del 2018, Common Voice \u00e8 cresciuto, diventando sempre pi\u00f9 globale e inclusivo. L\u2019evoluzione del progetto ha superato ogni nostra aspettativa: negli ultimi otto mesi, le comunit\u00e0 si sono attivate con entusiasmo sul progetto, lanciando la raccolta dati in 22 lingue, con oltre 70 lingue in lavorazione sul sito di Common Voice.<\/p>\n<p>In qualit\u00e0 di progetto guidato dalla comunit\u00e0, ogni nuovo lancio \u00e8 avvenuto grazie a persone da ogni parte del mondo che hanno interesse ad avere un dataset vocale nella propria lingua. Alcuni sono volontari appassionati, altri lavorano nel settore come linguisti o tecnologi. Ognuno di questi sforzi richiede la traduzione del sito web per permettere ai collaboratori di poter aggiungere frasi da leggere.<\/p>\n<p>Le ultime lingue aggiunte includono olandese, hakha-chin, esperanto, persiano (farsi), basco e spagnolo. In alcuni casi, il lancio in Common Voice rappresenta l&#8217;inizio assoluto della presenza di una lingua su Internet. Questi sforzi delle comunit\u00e0 dimostrano che tutte le lingue, non solamente quelle che possono generare alti guadagni per le aziende tecnologiche, meritano di essere rappresentate.<\/p>\n<p>Continueremo a collaborare con queste comunit\u00e0 per garantire che le loro voci siano rappresentate e per aiutarli a realizzare tecnologie vocali per loro stessi. Con questo stesso spirito, recentemente abbiamo unito le forze con <a href=\"https:\/\/www.giz.de\/en\/html\/index.html\">Deutsche Gesellschaft f\u00fcr Internationale Zusammenarbeit (GIZ)<\/a> e ospitato un <a href=\"https:\/\/medium.com\/mozilla-open-innovation\/sustainable-tech-development-needs-local-solutions-voice-tech-ideation-in-kigali-ec8dd33e0823\">ideation hackathon a Kigali<\/a> per creare un corpus per la lingua kinyarwanda, gettando le basi per tecnologie locali in Ruanda al fine di sviluppare tecnologie vocali open source nella loro lingua.<\/p>\n<h2>Miglioramenti nell\u2019esperienza per i collaboratori, inclusa la possibilit\u00e0 di creare un profilo<\/h2>\n<p>Il sito di Common Voice \u00e8 uno dei nostri principali strumenti per costruire dataset vocali da utilizzare in tecnologie con interazione vocale. L\u2019aspetto attuale \u00e8 il risultato di un <a href=\"https:\/\/medium.com\/mozilla-open-innovation\/prototyping-with-intention-33d15fb147c2\">continuo processo di iterazione<\/a>. Abbiamo ascoltato i consigli forniti dalle comunit\u00e0 riguardo ai punti carenti per la collaborazione, conducendo anche ricerche per facilitarla, e renderla pi\u00f9 divertente e coinvolgente.<\/p>\n<p>Le persone che collaborano non solo possono visualizzare i progressi di registrazione e convalida divisi per lingua, ma hanno anche suggerimenti che variano da registrazione a registrazione; nuove funzionalit\u00e0 per la revisione, possibilit\u00e0 di registrare nuovamente frasi e saltare le registrazioni come parte integrante dell\u2019esperienza; possibilit\u00e0 di muoversi rapidamente tra le sezioni Parla e Ascolta, cos\u00ec come di non registrare per una sessione.<\/p>\n<p>Abbiamo anche aggiunto la possibilit\u00e0 di creare un \u201cvero\u201d profilo, per permettere ai collaboratori di tenere traccia dei loro progressi attraverso lingue diverse. Fornendo alcune informazioni demografiche facoltative \u00e8 inoltre possibile migliorare l\u2019utilizzo dei dati audio nell\u2019addestramento di precisione del riconoscimento vocale.<\/p>\n<div id=\"attachment_1380\" style=\"width: 1010px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/cv.png\"><img aria-describedby=\"caption-attachment-1380\" decoding=\"async\" loading=\"lazy\" class=\"size-extra-large wp-image-1380\" src=\"https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/cv-1000x803.png\" alt=\"\" width=\"1000\" height=\"803\" srcset=\"https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/cv-1000x803.png 1000w, https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/cv-300x241.png 300w, https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/cv-768x617.png 768w, https:\/\/blog.mozilla.org\/press-it\/files\/2019\/02\/cv-600x482.png 600w\" sizes=\"(max-width: 1000px) 100vw, 1000px\" \/><\/a><p id=\"caption-attachment-1380\" class=\"wp-caption-text\">Common Voice \u00e8 nato come un prototipo per dimostrare un concetto ed \u00e8 stato migliorato con continue interazioni nel corso dell&#8217;ultimo anno<\/p><\/div>\n<h2>Innovare prodotti con un approccio decentralizzato: una maratona piuttosto che una corsa<\/h2>\n<p>Mozilla vuole contribuire alla realizzazione di un ecosistema di tecnologie vocali pi\u00f9 innovativo e diversificato. Il nostro obiettivo \u00e8 sia quello di rilasciare prodotti con riconoscimento vocale, sia supportare i ricercatori e i piccoli operatori. Fornire dati attraverso Common Voice \u00e8 una parte di questo approccio, insieme alla realizzazione di motori di riconoscimento vocale (STT) e di sintesi vocale (TTS) open source e modelli addestrati attraverso il <a href=\"https:\/\/github.com\/mozilla\/deepspeech\">progetto DeepSpeech<\/a>, guidato dal nostro Machine Learning Group.<\/p>\n<p>Sappiamo che questo richieder\u00e0 del tempo e crediamo che distribuire velocemente e lavorare alla luce del sole possa attrarre il coinvolgimento e i suggerimenti di tecnologi, organizzazioni e aziende che renderanno questi progetti pi\u00f9 rilevanti e solidi. La realt\u00e0 attuale per entrambi i progetti \u00e8 che sono ancora in fase di ricerca, anche se DeepSpeech sta facendo grandi progressi verso la fase di produzione.<\/p>\n<p>Ad oggi, con i dati provenienti da Common Voice e da altre fonti, DeepSpeech \u00e8 tecnicamente in grado di convertire la voce in testo con l\u2019accuratezza di una persona e in \u201ctempo reale\u201d, ovvero mentre si trasmette il flusso audio. Questo permette la trascrizione di conferenze, conversazioni telefoniche, programmi televisivi, programmi radiofonici e altri flussi durante la loro riproduzione.<\/p>\n<p>Il motore di DeepSpeech \u00e8 gi\u00e0 utilizzato da vari progetti non-Mozilla: per esempio in <a href=\"https:\/\/mycroft.ai\/blog\/deepspeech-update\/\">Mycroft<\/a>, un assistente vocale open source; in <a href=\"https:\/\/getleon.ai\/\">Leon<\/a>, un assistente personale open source; in FusionPBX, un sistema di gestione dei telefoni installato da una piccola organizzazione per trascrivere messaggi telefonici. In futuro vorremmo portare DeepSpeech anche su dispositivi pi\u00f9 piccoli, come smartphone e sistemi in-car, sbloccando l\u2019innovazione in Mozilla, ma non solo.<\/p>\n<p>Per Common Voice, il nostro obiettivo nel 2018 era di sviluppare l\u2019idea, renderla uno strumento da poter utilizzare in qualunque comunit\u00e0, ottimizzare il sito web e costruire un robusto backend (per esempio, aggiungendo un sistema di gestione degli account). Nei prossimi mesi ci dedicheremo alla sperimentazione di approcci diversi per migliorare la quantit\u00e0 e la qualit\u00e0 dei dati che siamo in grado di raccogliere, sia attraverso gli sforzi della comunit\u00e0 sia attraverso nuove collaborazioni.<\/p>\n<p>Il nostro obiettivo principale rimane quello di fornire sempre pi\u00f9 dati di qualit\u00e0 a chiunque cerchi, nel mondo, di costruire e utilizzare la tecnologia vocale. Perch\u00e9 la competizione e l\u2019apertura sono salutari per l\u2019innovazione. Perch\u00e9 la salvaguardia delle lingue minoritarie rappresenta un problema di accesso ed equit\u00e0. Perch\u00e9 la privacy e avere il controllo dei propri dati \u00e8 importante, specialmente quando si tratta della propria voce.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mozilla mette a disposizione il pi\u00f9 grande dataset di voci generato attraverso un processo di crowdsourcing: 18 lingue, quasi 1.400 ore di registrazioni vocali effettuate da oltre 42.000 persone. Sin &hellip; <a class=\"go\" href=\"https:\/\/blog.mozilla.org\/press-it\/2019\/02\/28\/condividiamo-la-nostra-common-voice-mozilla-rende-disponibile-il-piu-grande-dataset-vocale-con-trascrizioni-in-pubblico-dominio\/\">Read more<\/a><\/p>\n","protected":false},"author":663,"featured_media":1381,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[290452,311824,19596],"tags":[],"_links":{"self":[{"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/posts\/1378"}],"collection":[{"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/users\/663"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/comments?post=1378"}],"version-history":[{"count":0,"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/posts\/1378\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/media\/1381"}],"wp:attachment":[{"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/media?parent=1378"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/categories?post=1378"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-it\/wp-json\/wp\/v2\/tags?post=1378"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}