Common Voice: Mozilla veröffentlicht den bisher größten öffentlichen transkribierten Sprachdatensatz

Mozilla macht den größten Datensatz menschlicher Stimmen verfügbar, der komplett auf Crowdsourcing basiert. Der Datensatz umfasst 18 verschiedene Sprachen und summiert sich zu fast 1.400 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden.

Von Anfang an war es unsere Vision für Common Voice, den weltweit vielfältigsten Sprachdatensatz zu erstellen, der speziell für die Entwicklung von Sprachtechnologien optimiert wurde. Wir haben außerdem versprochen, den Datensatz frei zugänglich zu machen, damit auch Start-ups, Forscher*innen und alle anderen, die sich für sprachgestützte Technologien interessieren, die qualitativ hochwertigen, transkribierten Sprachdaten, die wir gesammelt haben, nutzen können.

Heute freuen wir uns, unseren ersten mehrsprachigen Datensatz zu präsentieren, der 18 Sprachen umfasst – darunter Englisch, Französisch, Deutsch und Mandarin (traditionell), aber auch beispielsweise Walisisch und Kabyle. Dieser neue Datensatz umfasst insgesamt rund 1.400 Stunden an Sprachaufzeichnungen von mehr als 42.000 Personen.

Mit diesem Release ist der Common Voice Datensatz nun der größte seiner Art, dank der Unterstützung von zehntausenden Menschen, die ihre Stimmen und ihre eigens verfassten schriftlichen Sätze in die Public Domain (CC0) gebracht haben. Der vollständige Datensatz steht ab sofort auf der Common Voice-Seite zum Download zur Verfügung.

Datenqualität

Der Common Voice Datensatz ist nicht nur aufgrund seiner Größe und seines Lizenzmodells einzigartig, sondern auch aufgrund der vielfältigen, globalen Gemeinschaft an Mitwirkenden, die ihre Stimme gespendet haben. So können die Teilnehmer*innen freiwillig auch Metadaten wie Alter, Geschlecht und Akzent angeben. Damit werden gemeinsam mit ihren Aufzeichnungen weitere Informationen gespeichert, mit denen Sprach-Engines noch besser trainiert werden können.

Damit wählten wir einen anderen Ansatz, als bei anderen öffentlich zugänglichen Datensätzen: Diese werden manuell erstellt, um Diversität zu gewährleisten (etwa durch die gleiche Anzahl von Männern und Frauen) oder sie nutzen einen Korpus, der so vielfältig ist, wie die “natürlich vorhandenen” Daten (der TEDLIUM Korpus, der aus TED-Gesprächen erstellt wird, umfasst beispielsweise dreimal mehr Daten von Männern als von Frauen).

Common Voice wächst: von 3 auf 22 Sprachen in 8 Monaten

Seit wir im Juni 2018 die Unterstützung mehrerer Sprachen aktiviert haben, ist Common Voice wesentlich globaler und integrativer geworden. Damit haben wir unsere Erwartungen übertroffen: In den letzten acht Monaten hat die Community das Projekt mit Begeisterung vorangetrieben und die Datensammlung für 22 Sprachen gestartet. Und 70 weitere Sprachen stehen auf der Common Voice-Seite bereits in den Startlöchern.

Common Voice ist ein Community-getriebenes Projekt. Das bedeutet, für jeden neuen Launch waren Menschen auf der ganzen Welt verantwortlich, die gerne einen Sprachdatensatz in ihrer Sprache hätten. Einige sind leidenschaftliche Freiwillige, andere tun dies im Rahmen ihrer täglichen Arbeit als Linguist*innen oder Technolog*innen. Für jedes neue Sprachprojekt muss zuerst die Webseite übersetzt werden, damit Sätze hinzugefügt und Beiträge vorgelesen werden können.

Ganz neu hinzugefügt haben wir Niederländisch, Hakha-Chin, Esperanto, Farsi, Baskisch und Spanisch. Manche Sprachen haben durch Common Voice überhaupt erst ihren Weg ins Web gefunden. Der Einsatz unserer Community zeigt, dass alle Sprachen im Web repräsentiert sein sollten – nicht nur diejenigen, die hohe Einnahmen für Tech-Unternehmen versprechen.

Wir werden auch weiterhin mit diesen Communities zusammenarbeiten, um sicherzustellen, dass ihre Stimmen gehört werden und wir werden sie auch dabei unterstützen, eigene Sprachtechnologien zu entwickeln. Deshalb haben wir kürzlich auch mit der Deutschen Gesellschaft für Internationale Zusammenarbeit (GIZ) kooperiert und in Kigali einen Ideen-Hackathon veranstaltet, um einen Sprachkorpus für Kinyarwanda zu erstellen. Auf diese Weise möchten wir es Technolog*innen in Ruanda ermöglichen, Open-Source-Sprachtechnologien in ihrer eigenen Sprache zu entwickeln.

Verbesserung der Contribution Experience, einschließlich optionaler Profile

Die Common Voice Webseite ist eines unserer wichtigsten Instrumente zum Aufbau von Sprachdatensätzen, die für die Spracherkennungstechnologie verwendet werden können. Das aktuelle Design ist das Ergebnis eines kontinuierlichen Iterationsprozesses. Basierend auf dem Feedback der Mitwirkenden aus der Community haben wir die Usability stetig verbessert, um die Teilnahme am Projekt einfacher und unterhaltsamer zu gestalten.

Menschen, die einen Beitrag leisten möchten, können nicht nur einsehen, wie sich die Aufnahme und Validierung jeder einzelnen Sprache entwickelt, sie bekommen auch verbesserte Bedienhinweise angezeigt, die von Aufzeichnung zu Aufzeichnung variieren. Darüber hinaus gibt es neue Funktionen zum Bestätigen, neu Aufnehmen und Überspringen von Clips. Die neue Webseite ermöglicht zudem einen schnelleren Wechsel zwischen Sprechen und Hören sowie das Deaktivieren der Sprachfunktion für die Dauer einer Session.

Außerdem können Teilnehmer*innen nun ein Profil erstellen, mit dem sie ihren Fortschritt und ihre Metriken in mehreren Sprachen verfolgen können. Wer zudem optional auch einige demografische Profilinformationen hinterlegt, verbessert damit auch die Audiodaten, die dazu verwendet werden, präzisere Spracherkennungstechnologien zu trainieren.

Common Voice begann als Prototyp einer Proof of Concept-Studie und wurde im vergangenen Jahr als Community-Projekt stetig weiterentwickelt.

Dezentrale Produktinnovationen stärken: ein Marathon statt ein Sprint

Mozilla möchte zu einem vielfältigen und innovativen Ökosystem an Sprachtechnologien beitragen. Unser Ziel ist es, eigene sprachgesteuerte Produkte auf den Markt zu bringen, aber auch Forscher*innen und kleinere Akteure zu unterstützen. Die Bereitstellung von Daten über Common Voice ist ein Teil davon, ebenso wie die Open-Source Speech-to-Text- und Text-to-Speech-Engines und die trainierten Modelle, die im Rahmen des Projekts DeepSpeech entstanden sind, das von unserer Machine Learning Group umgesetzt wird.

Wir wissen, dass dies einige Zeit dauern wird. Wir glauben aber, dass wir durch die frühzeitige Veröffentlichung und unsere transparente Arbeitsweise das Interesse von Technolog*innen, Organisationen und Unternehmen wecken können, deren Feedback unsere Projekte noch relevanter und besser macht. Aktuell befinden sich beide Projekte noch in der Forschungsphase – bei DeepSpeech machen wir aktuell jedoch große Fortschritte und hoffen, dass in nicht allzu ferner Zukunft konkrete Produkte daraus entstehen.

Bereits heute ist DeepSpeech dank der Daten aus dem Projekt Common Voice und aus anderen Quellen dazu in der Lage, Sprache mit menschlicher Genauigkeit und in Echtzeit in Text zu konvertieren – und zwar noch während der Ton gestreamt wird. Dies ermöglicht die Transkription von Vorträgen, Telefonaten, Fernsehsendungen, Radiosendungen und anderen Livestreams, während sie stattfinden.

Die DeepSpeech-Engine wird aktuell auch bereits von einigen anderen Organisationen eingesetzt: Etwa im Projekt Mycroft, einem sprachbasierten Open-Source-Assistenten. Oder im Rahmen des Projekts Leon, einem persönlichen Assistenten, der auf Open-Source basiert. Oder auch in FusionPBX, einem Telefonvermittlungssystem, das Telefonnachrichten für ein privates Unternehmen transkribiert. Zukünftig soll Deep Speech auch in kleineren Geräten wie Smartphones und In-Car-Systemen eingesetzt werden und so Produktinnovationen innerhalb und außerhalb von Mozilla vorantreiben.

Unser Fokus für Common Voice lag 2018 darauf, ein Konzept zu entwickeln, um das Projekt zu einem Tool für jede Sprachgemeinschaft zu machen. Außerdem wollten wir die Webseite optimieren und ein stabiles Backend (z.B. für die Erstellung von Benutzerkonten) aufbauen. In den kommenden Monaten werden wir mit verschiedenen Ansätzen experimentieren, um die Quantität und Qualität der Daten, die wir sammeln, durch Maßnahmen für die Community sowie mithilfe neuer Partnerschaften zu verbessern.

Unser wichtigstes Ziel bleibt es jedoch, mehr und vor allem bessere Daten für alle Menschen auf der Welt bereitzustellen, die Sprachtechnologien entwickeln und nutzen wollen. Weil Wettbewerb und Offenheit Innovationen fördern. Weil kleinere Sprachen eine Frage des freien Zugangs und der Gerechtigkeit sind. Und weil Datenschutz und Kontrolle wichtig sind, vor allem über Ihre Stimme.