Parlez-vous Deutsch?

Rhagor o Leisiau i Common Voice

Parlez-vous Deutsch?

Rhagor o Leisiau i Common Voice

von Katharina Borchert

Wir sind stolz darauf, für unser Common Voice Projekt die nächste Phase einläuten zu können: Die Website erlaubt es jetzt, Sprachsamples auf Deutsch, Französisch und Walisisch aufzunehmen – und 40 weitere Sprachen sind bereits auf dem Weg! Aber das ist erst der Anfang. Für uns ist Common Voice ein Tool für jede Community, die Sprachtechnologie in ihrer eigenen Sprache verfügbar machen möchte.

Sprachgesteuerte Benutzeroberflächen sind für das Internet der nächste große Meilenstein. Und dem nehmen wir uns gerne an: Mit Projekt Common Voice wollen wir eine globale, offene Sprachdatenbank aufbauen, um damit Machine Learning-Algorithmen für die Sprachsteuerungen der Zukunft zu trainieren. Wir sind davon überzeugt, dass diese Anwendungen nicht von einer handvoll Unternehmen kontrolliert werden sollten, Gatekeepern für die Entwicklung sprachgesteuerter Services. Darüber hinaus sollten alle Nutzer gleichermaßen verstanden werden – unabhängig von Sprache oder Akzent.

Jeder, der sich schon einmal mit der Ökonomie des Internets beschäftigt hat, weiß: Auch hier folgt das Angebot der Aussicht auf Geld. Da ist es logisch, dass Entwickler und Verleger Produkte im Sinne einer Zielgruppe entwickeln, die ihnen den größtmöglichen finanziellen Erfolg garantiert. Das führt allerdings dazu, dass das Internet heutzutage von englischsprachigen Inhalten dominiert wird, wenngleich nur 20 Prozent der Weltbevölkerung diese Sprache überhaupt sprechen, und lediglich fünf Prozent als Muttersprache. Das ist kein Luxusproblem, sondern entwickelt sich zunehmend zu einer Zugangshürde, wie auch das Magazin Wired im vergangenen Jahr in seinem Artikel “Voice Is the Next Big Platform, Unless You Have an Accent” herausgestellt hat.

Englisch hat sich geradezu zwangsläufig zur Weltsprache entwickelt, die immer häufiger und weitläufiger verwendet wird – ein Trend, der sich schon vor der Ausbreitung des Internets abgezeichnet hat. Die Dominanz englischsprachiger Inhalte im Web trägt allerdings zusätzlich dazu bei. Und auch wenn die weltumspannende Kommunikation dadurch auf der einen Seite vereinfacht wird, dürfen wir andererseits den kulturellen Wert sprachlicher Alternativen auf keinen Fall außer Acht lassen. Unsere Muttersprachen tragen schließlich immer einen kulturellen Kontext in sich, der auch unsere Denkmuster prägt; das ist ein Teil unserer Kultur, den wir unbedingt erhalten und mittels Technologie unterstützen möchten. Damit halten wir zugleich eine lang gehegte Mozilla-Tradition hoch: Lokaler Einsatz durch eine globale Community spielt seit jeher eine tragende Rolle. Das zeigt sich unter anderem darin, dass Firefox derzeit in 90 Sprachen verfügbar ist – was allein durch die engagierte Mitarbeit von Freiwilligen überall auf der Welt ermöglicht wird.

Common Voice Sprints in Berlin (Bild: Michael Kohler), Mexico City (Bild: Luis A. Sánchez), Jakarta (Bild: Irayani Queencyputri) und Taipeh (Bild: Irven Chen), von oben links nach unten rechts.

 

Genau dieses Engagement und die Begeisterung von freiwilligen Helfern treiben auch das Projekt Common Voice voran. Wenn Leute mit uns Kontakt aufnehmen und sagen “Lässt sich Spracherkennungstechnologie auch in meine Region bringen? Was können wir tun?” bringt das nicht nur unsere Arbeit voran, sondern macht uns auch ausgesprochen dankbar.

Und es sind ganz besonders die Geschichten hinter Common Voice, die dieses Projekt auch für mich ganz persönlich so bereichernd machen:

In Indonesien kamen beispielsweise 20 Freiwillige in unserem Community Space in Jakarta zu einem Workshop. Ziel: Es sollten Sätze für den Textkorpus geschrieben werden, der späteren Basis für Sprachaufnahmen. Dabei verfielen die Teilnehmer offensichtlich in einen regelrechten Kreativrausch – mit dem Ergebnis von rund 4.000 eingereichten Sätzen innerhalb von nur zwei Tagen.

Eine Gruppe kenianischer Ehrenamtlicher mit große Interesse an Mozilla-Projekten erfuhr von Common Voice und begann, sowohl die Webseite zu übersetzen, als auch Sätze in Swahili, Jibana und Kikiyu – also stark unterrepräsentierten Sprachen – einzureichen. Solche Aktivitäten unterstützen wir mit Begeisterung, zumal sie eine wunderbare Ergänzung zur Arbeit mit Sprachexperten wie etwa Laurent Besacier darstellen. Laurent ist der Kopf hinter ALFFA, einem interdisziplinären Projekt, das Ressourcen und Expertise in den Bereichen Sprachanalyse und -technologie mit Schwerpunkt auf afrikanischen Sprachen bündelt.

Aber auch hierzulande gibt es das großartige Beispiel eines Freiwilligen, der Common Voice bereits seit geraumer Zeit über Github unterstützt. Anfangs beteiligte er sich an der englischen Sprachdatenbank; angesichts seiner eigenen Herkunft wollte er aber natürlich auch gerne eine deutschsprachige Version von Common Voice realisiert sehen. Um dieses Ziel voranzutreiben, stellte er sich selbst einen strengen Zeitplan auf, notierte über ein halbes Jahr hinweg täglich mehrere Sätze (wofür er vor allem den Weg zur Schule oder zur Arbeit nutzte) und sammelte so rund 11.000 (!) Sätze, die ein denkbar großes Spektrum abdecken – von Poesie bis hin zu Alltagsunterhaltungen.

Und da wir gerade beim Thema Alltagsunterhaltungen sind: Ein anderer freiwilliger Helfer, der am sogenannten ‘Global Sprint’ in unserem Berliner Büro teilgenommen hat, war sichtlich frustriert von einer unerfreulichen Diskussion, die er kurz davor in einer Poststelle hatte führen müssen – wer kennt das nicht? An dem Umstand, dass er sein Paket letztlich nicht bekommen hat, konnten wir nichts ändern – allerdings konnte ihn Common Voice mit einem quasi-kathartischen Moment entschädigen: Er reichte sein Erlebnis ihn Schriftform ein, sodass nun zahllose deutschsprachige Menschen überall auf der Welt seiner Erfahrung ihre Stimme verleihen können.

All das ist nur eine kleine Auswahl aus vielen tollen Beispielen aus der ganzen Welt – aus Taiwan, Slowenien, Mazedonien, Ungarn, Brasilien, Serbien, Thailand, Spanien, Nepal und einer ganzen Reihe weiterer Länder. Sie zeigen ganz klar, dass jede*r unser Projekt Common Voice unterstützen kann – jede*r Einzelne, jede Organisation, die sich für die eigene Muttersprache einsetzen möchte oder an offenen Sprach-Interfaces Interesse hat, kann ihren eigenen Ansatzpunkt finden. In diesem Sinne: Spenden Sie Ihre Stimme auf https://voice.mozilla.org/en/languages oder besuchen Sie unser Common Voice Forum, falls Sie sogar einen größeren Korpus an transkribierten Sprachdaten zur Verfügung stellen möchten. Wir freuen uns auf Ihren Beitrag!

***

Common Voice ergänzt Mozillas Arbeit auf dem Gebiet der Spracherkennung, die unter dem Projektnamen „Deep Speech“ läuft – einem Open-Source-Spracherkennungsmodell, das sich menschlicher Genauigkeit annähert und im November 2017 veröffentlicht wurde. Wir glauben, dass diese Technologie gemeinsam mit dem wachsenden Common Voice Datensatz eine Welle von innovativen Produkten und Dienstleistungen nicht nur anstoßen kann, sondern auch wird und dass sie für jeden zugänglich sein sollte.