Compartimos nuestro Common Voice: Mozilla lanza el segundo mayor conjunto de datos de voz público

Desde el lanzamiento de Common Voice, hemos recopilado cientos de miles de muestras de voz a través de nuestra página web y la aplicación de iOS. Hoy lanzamos una primera versión de esa colección de voces de dominio público.

Desde el principio, Mozilla ha confiado en la creatividad, la compasión y el ingenio de personas de todo el mundo para ayudarnos a construir y promover la web como un recurso público global, accesible para todos. Esta ha sido la base de nuestro trabajo experimental en el campo del machine learning y el reconocimiento de voz, y de la construcción de un gran repositiorio de datos de voz de alta calidad con Common Voice.

Esta colección contiene aproximadamente 400.000 grabaciones de 20.000 personas diferentes, dando lugar a unas 500 horas de discurso. Hasta la fecha, ya es el segundo mayor conjunto de datos de voz disponible para el público que conocemos, ¡y gente de todo el mundo está agregando y validando muestras nuevas todo el tiempo!

De hecho, puedes descargar los datos ahora mismo.

Habiendo experimentado nosotros mismos lo difícil que puede ser encontrar datos públicamente disponibles para nuestro trabajo de tecnología de voz, también proporcionamos enlaces a todas las otras grandes colecciones de voz que conocemos en la web. Y estamos ansiosos por continuar haciendo crecer la página web como un centro de datos de voz.

Cuando miramos el ecosistema de voz actual, vemos muchos desarrolladores, fabricantes, nuevas empresas e investigadores que quieren experimentar y construir tecnologías habilitadas para voz. Pero la mayoría de nosotros solo tenemos acceso a una recopilación bastante limitada de datos de voz, un componente esencial para crear motores de reconocimiento de voz de alta calidad. Estos datos de voz pueden costar más de decenas de miles de euros y su escala es insuficiente para crear un reconocimiento de voz al nivel que la gente espera. Al proporcionar este nuevo conjunto de datos públicos, queremos ayudar a superar estas barreras y facilitar la creación de nuevos y mejores sistemas de reconocimiento de voz (como nuestro propio Deep Speech). Hemos empezado con el inglés, pero pronto admitiremos todos los idiomas. Con nuestro trabajo paralelo en un motor de conversión de voz a texto de código abierto, esperamos abrir la tecnología de voz para que pueda participar más gente, innovar y competir con los grandes.

¿Estás interesado en conocer nuestro proyecto de reconocimiento de voz de fuente abierta Deep Speech y cómo los datos de Common Voice se pueden utilizar para crear mejores productos de reconocimiento de voz? Reuben Morais, del equipo de Machine Learning de Mozilla, acaba de publicar un artículo sobre su “Viaje a una tasa de error de palabra de menos del 10%” [enlace al artículo de Hacks]. Este artículo es un resumen de los desafíos y aprendizajes a los que se enfrentaron mientras trabajaban en el primer modelo de motor de reconocimiento de voz de código abierto del equipo, ¡que se ha lanzado hoy en el repositorio de Github!

Continuamos recibiendo colaboradores en Common Voice. Por favor, ponte en contacto cualquier idea que tengas sobre cómo podemos trabajar juntos, contarnos cómo utilizas los datos, o para darnos tu opinión sobre cómo este proyecto podría ser más útil.

Nos gustaría dar las gracias a Mycroft, SNIPS, Universidad de Bangor, LibriSpeech, VoxForge, TED-LIUM, Tatoeba.org, Mythic, SAP y, por supuesto, a todos nuestros colaboradores en Github. ¡No podríamos haber progresado así sin vosotros!

También estamos constantemente buscando mejorar la calidad de nuestro conjunto de datos. ¡Dirígete a la página web de Common Voice ahora y ayúdanos a verificar las grabaciones, que es igual de importante que donar tu voz!