Parlez-vous Deutsch?

Rhagor o Leisiau i Common Voice

Parlez-vous Deutsch?

Rhagor o Leisiau i Common Voice

by Katharina Borchert

We’re very proud to be announcing the next phase of the Common Voice project. It’s now available for contributors in three new languages, German, French and Welsh, with 40+ other languages on their way! But this is just the beginning. We want Common Voice to be a tool for any community to make speech technology available in their own language.

Speech interfaces are the next frontier for the Internet. Project Common Voice is our initiative to build a global corpus of open voice data to be used to train machine-learning algorithms to power the voice interfaces of the future. We believe these interfaces shouldn’t be controlled by a few companies as gatekeepers to voice-enabled services, and we want users to be understood consistently, in their own languages and accents.

As anyone who has studied the economics of the Internet knows, services chase money. And so it’s quite natural that developers and publishers seek to develop for the audience that will best reward their efforts. What we see as a consequence is an Internet that is heavily skewed towards English, in a world where English is only spoken by 20% of the global population, and only 5% natively. This is increasingly going to be an accessibility issue, as Wired noted last year, “Voice Is the Next Big Platform, Unless You Have an Accent”.

Inevitably, English is becoming a global language, spoken more and more widely, and this is a trend that was underway before the emergence of the Internet. However, the skew of Internet content to English is certainly accelerating this. And while global communications may be becoming easier, there is also a cultural wealth that we should preserve. Native languages provide a deeper shared cultural context, down to the level of influencing our thought patterns. This is a part of our humanity we surely wish to retain and support with technology. In doing so, we’re upholding a proud Mozilla tradition of enabling local ownership by a global community: Firefox is currently offered in 90 languages (and counting), powered by volunteers near you.

Common Voice contribution sprints in Berlin (credit: Michael Kohler), Mexico City (credit: Luis A. Sánchez), Jakarta (credit: Irayani Queencyputri) and Taipei (credit: Irven Chen), from the top left to the bottom right

With Common Voice it’s the same volunteer passion that drives the project further and we’re grateful for all contributors who already said, “We want to help bringing speech recognition technology to my part of the world – what can we do?”. It is the underlying stories which also make this project so rewarding for me personally:

In Indonesia 20 community members came to our community space in Jakarta for a meet-up to write up sentences for the text corpus that will become the basis for voice recordings. They went into overdrive and submitted around 4,000 sentences within two days.

In Kenya a group of volunteers interested in Mozilla projects found out about Common Voice and started both localizing the website and submitting sentences in Swahili, Jibana and Kikiyu, all highly underrepresented languages, which we’re extremely happy to support. This is in addition to working with language experts in these communities like Laurent Besacier, the initiator of ALFFA, an interdisciplinary project bundling resources and expertise in speech analysis and speech technologies for African languages.

If we look at the country where I’m from, there has been one particular contributor to the Common Voice github project since the very early days. He originally contributed to the English effort, but he is German and wanted to see Common Voice come to Germany. He set himself on a strict schedule, wrote a few sentences every day for the next 6 months (while commuting to school or work), and collected 11,000 (!) sentences, ranging from poetry to day-to-day conversations.

Speaking of which: Another German contributor joined the Global Sprint in our Berlin office, utterly frustrated about a lengthy but fruitless discussion at the post office (Sounds familiar, Germany?). He may not have gotten his package, but I’d like to believe he had his personal cathartic moment when he submitted his whole experience in written form. Now Germans everywhere will help him voice his frustrations.

These are only a few of many wonderful examples from around the world – Taiwan, Slovenia, Macedonia, Hungary, Brazil, Serbia, Thailand, Spain, Nepal, and many more. They show that anyone can help grow the Common Voice project. Any individual or organization that has an interest in its native language, or an interest in open voice interfaces, will find it worth their while. You can contribute your voice at https://voice.mozilla.org/en/languages, or if you have a larger corpus of transcribed speech data, we’d love to hear from you.

***

Common Voice complements Mozilla’s work in the field of speech recognition, which runs under the project name “Deep Speech“, an open-source speech recognition engine model that approaches human accuracy, which was released in November 2017. Together with the growing Common Voice dataset we believe this technology can and will enable a wave of innovative products and services, and that it should be available to everyone.

Parlez-vous Deutsch?

Rhagor o Leisiau i Common Voice

Parlez-vous Deutsch?

Rhagor o Leisiau i Common Voice

von Katharina Borchert

Wir sind stolz darauf, für unser Common Voice Projekt die nächste Phase einläuten zu können: Die Website erlaubt es jetzt, Sprachsamples auf Deutsch, Französisch und Walisisch aufzunehmen – und 40 weitere Sprachen sind bereits auf dem Weg! Aber das ist erst der Anfang. Für uns ist Common Voice ein Tool für jede Community, die Sprachtechnologie in ihrer eigenen Sprache verfügbar machen möchte.

Sprachgesteuerte Benutzeroberflächen sind für das Internet der nächste große Meilenstein. Und dem nehmen wir uns gerne an: Mit Projekt Common Voice wollen wir eine globale, offene Sprachdatenbank aufbauen, um damit Machine Learning-Algorithmen für die Sprachsteuerungen der Zukunft zu trainieren. Wir sind davon überzeugt, dass diese Anwendungen nicht von einer handvoll Unternehmen kontrolliert werden sollten, Gatekeepern für die Entwicklung sprachgesteuerter Services. Darüber hinaus sollten alle Nutzer gleichermaßen verstanden werden – unabhängig von Sprache oder Akzent.

Jeder, der sich schon einmal mit der Ökonomie des Internets beschäftigt hat, weiß: Auch hier folgt das Angebot der Aussicht auf Geld. Da ist es logisch, dass Entwickler und Verleger Produkte im Sinne einer Zielgruppe entwickeln, die ihnen den größtmöglichen finanziellen Erfolg garantiert. Das führt allerdings dazu, dass das Internet heutzutage von englischsprachigen Inhalten dominiert wird, wenngleich nur 20 Prozent der Weltbevölkerung diese Sprache überhaupt sprechen, und lediglich fünf Prozent als Muttersprache. Das ist kein Luxusproblem, sondern entwickelt sich zunehmend zu einer Zugangshürde, wie auch das Magazin Wired im vergangenen Jahr in seinem Artikel “Voice Is the Next Big Platform, Unless You Have an Accent” herausgestellt hat.

Englisch hat sich geradezu zwangsläufig zur Weltsprache entwickelt, die immer häufiger und weitläufiger verwendet wird – ein Trend, der sich schon vor der Ausbreitung des Internets abgezeichnet hat. Die Dominanz englischsprachiger Inhalte im Web trägt allerdings zusätzlich dazu bei. Und auch wenn die weltumspannende Kommunikation dadurch auf der einen Seite vereinfacht wird, dürfen wir andererseits den kulturellen Wert sprachlicher Alternativen auf keinen Fall außer Acht lassen. Unsere Muttersprachen tragen schließlich immer einen kulturellen Kontext in sich, der auch unsere Denkmuster prägt; das ist ein Teil unserer Kultur, den wir unbedingt erhalten und mittels Technologie unterstützen möchten. Damit halten wir zugleich eine lang gehegte Mozilla-Tradition hoch: Lokaler Einsatz durch eine globale Community spielt seit jeher eine tragende Rolle. Das zeigt sich unter anderem darin, dass Firefox derzeit in 90 Sprachen verfügbar ist – was allein durch die engagierte Mitarbeit von Freiwilligen überall auf der Welt ermöglicht wird.

Common Voice Sprints in Berlin (Bild: Michael Kohler), Mexico City (Bild: Luis A. Sánchez), Jakarta (Bild: Irayani Queencyputri) und Taipeh (Bild: Irven Chen), von oben links nach unten rechts.

Genau dieses Engagement und die Begeisterung von freiwilligen Helfern treiben auch das Projekt Common Voice voran. Wenn Leute mit uns Kontakt aufnehmen und sagen “Lässt sich Spracherkennungstechnologie auch in meine Region bringen? Was können wir tun?” bringt das nicht nur unsere Arbeit voran, sondern macht uns auch ausgesprochen dankbar.

Und es sind ganz besonders die Geschichten hinter Common Voice, die dieses Projekt auch für mich ganz persönlich so bereichernd machen:

In Indonesien kamen beispielsweise 20 Freiwillige in unserem Community Space in Jakarta zu einem Workshop. Ziel: Es sollten Sätze für den Textkorpus geschrieben werden, der späteren Basis für Sprachaufnahmen. Dabei verfielen die Teilnehmer offensichtlich in einen regelrechten Kreativrausch – mit dem Ergebnis von rund 4.000 eingereichten Sätzen innerhalb von nur zwei Tagen.

Eine Gruppe kenianischer Ehrenamtlicher mit große Interesse an Mozilla-Projekten erfuhr von Common Voice und begann, sowohl die Webseite zu übersetzen, als auch Sätze in Swahili, Jibana und Kikiyu – also stark unterrepräsentierten Sprachen – einzureichen. Solche Aktivitäten unterstützen wir mit Begeisterung, zumal sie eine wunderbare Ergänzung zur Arbeit mit Sprachexperten wie etwa Laurent Besacier darstellen. Laurent ist der Kopf hinter ALFFA, einem interdisziplinären Projekt, das Ressourcen und Expertise in den Bereichen Sprachanalyse und -technologie mit Schwerpunkt auf afrikanischen Sprachen bündelt.

Aber auch hierzulande gibt es das großartige Beispiel eines Freiwilligen, der Common Voice bereits seit geraumer Zeit über Github unterstützt. Anfangs beteiligte er sich an der englischen Sprachdatenbank; angesichts seiner eigenen Herkunft wollte er aber natürlich auch gerne eine deutschsprachige Version von Common Voice realisiert sehen. Um dieses Ziel voranzutreiben, stellte er sich selbst einen strengen Zeitplan auf, notierte über ein halbes Jahr hinweg täglich mehrere Sätze (wofür er vor allem den Weg zur Schule oder zur Arbeit nutzte) und sammelte so rund 11.000 (!) Sätze, die ein denkbar großes Spektrum abdecken – von Poesie bis hin zu Alltagsunterhaltungen.

Und da wir gerade beim Thema Alltagsunterhaltungen sind: Ein anderer freiwilliger Helfer, der am sogenannten ‘Global Sprint’ in unserem Berliner Büro teilgenommen hat, war sichtlich frustriert von einer unerfreulichen Diskussion, die er kurz davor in einer Poststelle hatte führen müssen – wer kennt das nicht? An dem Umstand, dass er sein Paket letztlich nicht bekommen hat, konnten wir nichts ändern – allerdings konnte ihn Common Voice mit einem quasi-kathartischen Moment entschädigen: Er reichte sein Erlebnis ihn Schriftform ein, sodass nun zahllose deutschsprachige Menschen überall auf der Welt seiner Erfahrung ihre Stimme verleihen können.

All das ist nur eine kleine Auswahl aus vielen tollen Beispielen aus der ganzen Welt – aus Taiwan, Slowenien, Mazedonien, Ungarn, Brasilien, Serbien, Thailand, Spanien, Nepal und einer ganzen Reihe weiterer Länder. Sie zeigen ganz klar, dass jede*r unser Projekt Common Voice unterstützen kann – jede*r Einzelne, jede Organisation, die sich für die eigene Muttersprache einsetzen möchte oder an offenen Sprach-Interfaces Interesse hat, kann ihren eigenen Ansatzpunkt finden. In diesem Sinne: Spenden Sie Ihre Stimme auf https://voice.mozilla.org/en/languages oder besuchen Sie unser Common Voice Forum, falls Sie sogar einen größeren Korpus an transkribierten Sprachdaten zur Verfügung stellen möchten. Wir freuen uns auf Ihren Beitrag!

***

Common Voice ergänzt Mozillas Arbeit auf dem Gebiet der Spracherkennung, die unter dem Projektnamen “Deep Speech” läuft – einem Open-Source-Spracherkennungsmodell, das sich menschlicher Genauigkeit annähert und im November 2017 veröffentlicht wurde. Wir glauben, dass diese Technologie gemeinsam mit dem wachsenden Common Voice Datensatz eine Welle von innovativen Produkten und Dienstleistungen nicht nur anstoßen kann, sondern auch wird und dass sie für jeden zugänglich sein sollte.