Common Voice: Mozilla veröffentlicht den zweitgrößten öffentlichen Sprachdatensatz

Seit dem Start von Common Voice haben wir über unsere Webseite und die iOS-App hunderttausende Sprachaufnahmen gesammelt. Heute machen wir eine erste Version dieser Sprachsammlung öffentlich zugänglich.

Von Anfang an hat Mozilla auf die Kreativität, die Leidenschaft und den Einfallsreichtum von Menschen auf der ganzen Welt vertraut, die uns dabei helfen, das Internet als globale, öffentlich zugängliche Ressource zu schaffen und voranzutreiben. Dies war auch die Grundlage unserer experimentellen Arbeit im Bereich Machine Learning und Spracherkennung sowie beim Aufbau unserer umfangreichen und qualitativ hochwertigen Sprachdatenbank im Rahmen des Projekts Common Voice.

Die Sammlung enthält fast 400.000 Aufnahmen von 200.000 unterschiedlichen Personen, die circa 500 Stunden an Sprachaufnahmen umfassen. Bereits jetzt ist dies der zweitgrößte öffentlich zugängliche Datensatz, der uns bekannt ist – und ständig fügen Menschen von überall auf der Welt neue Aufnahmen hinzu oder überprüfen bereits vorhandene Datensätze.

Hier können Sie die Daten direkt herunterladen!

Da wir selbst festgestellt haben, wie schwer es sein kann, öffentlich zugängliche Daten für unser Sprachtechnologie-Projekt zu finden, verlinken wir auf unserer Seite auch auf andere Sprachsammlungen, die uns bekannt sind. Und wir arbeiten mit Hochdruck daran, die Website zu einem zentralen Hub für Sprachdaten wachsen zu lassen.

Es gibt heute viele Entwickler, Macher, Start-ups und Forscher, die mit sprachbasierten Technologien experimentieren oder diese entwickeln möchten. Die meisten haben jedoch nur Zugriff auf eine sehr eingeschränkte Sammlung an Sprachdaten – die jedoch eine wesentliche Voraussetzung sind, um qualitativ hochwertige Spracherkennungssysteme entwickeln zu können. Diese Sprachdaten können zehntausende Euro kosten und reichen in ihrem Umfang dennoch nicht aus, um eine Spracherkennung zu erschaffen, die die Erwartungen der Nutzer erfüllt. Indem wir diesen neuen, öffentlichen Datensatz zur Verfügung stellen, möchten wir diese Hindernisse aus dem Weg schaffen und es einfacher machen, neue und bessere Spracherkennungssysteme (wie unser Deep-Speech-Projekt) zu entwickeln. Angefangen haben wir mit Englisch, aber schon bald wird jede Sprache unterstützt. Parallel dazu arbeiten wir an einer Open Source Speech-To-Text-Engine, mit der wir die Entwicklung von Sprachtechnologien für die Allgemeinheit erschließen möchten. So können sich noch mehr Menschen beteiligen, ihre Innovationen einbringen und mit den großen Konzernen in Wettbewerb treten.

Möchten Sie mehr über unser Open-Source-Spracherkennungsprojekt Deep Speech erfahren und darüber, wie Common-Voice-Daten genutzt werden können, um bessere Spracherkennungssysteme zu entwickeln? Reuben Morais aus Mozillas Machine-Learning-Team hat gerade einen Artikel zu diesem Thema auf dem Mozilla Hacks Blog veröffentlicht. Dieser gibt einen spannenden Überblick über die Aufgaben und Erfahrungen, die das Team bei der Entwicklung seiner ersten Open-Source-Spracherkennungs-Engine – die heute auf ihrem github Repository bereitgestellt wurde – gemacht hat.

Wir nehmen übrigens immer gerne neue Mitstreiter im Projekt Common Voice auf. Kontaktieren Sie uns mit allen Ideen, die Sie zur Mitarbeit einbringen möchten, lassen Sie uns wissen, wie Sie unsere Daten verwenden oder geben Sie uns Feedback, wie wir das Projekt noch sinnvoller gestalten können.

An dieser Stelle möchten wir noch einen großen Dank an Mycroft, SNIPS, die Bangor University, LibriSpeech, VoxForge, TED-LIUM, Tatoeba.org, Mythic, SAP und natürlich auch an alle Mitwirkenden auf github aussprechen. Wir hätten diesen Fortschritt nicht alleine geschafft!

Wir sind außerdem stets dabei, die Qualität unseres Datensatzes zu verbessern. Schauen Sie doch einmal auf der Common-Voice-Webseite vorbei und helfen Sie uns dabei, die Aufnahmen zu überprüfen – das ist genauso wichtig, wie uns Ihre Stimme zu spenden!