{"id":2719,"date":"2019-02-28T12:24:35","date_gmt":"2019-02-28T11:24:35","guid":{"rendered":"http:\/\/blog.mozilla.org\/press-de\/?p=2719"},"modified":"2019-02-28T12:24:35","modified_gmt":"2019-02-28T11:24:35","slug":"common-voice-mozilla-veroeffentlicht-den-bisher-groessten-oeffentlichen-transkribierten-sprachdatensatz","status":"publish","type":"post","link":"https:\/\/blog.mozilla.org\/press-de\/2019\/02\/28\/common-voice-mozilla-veroeffentlicht-den-bisher-groessten-oeffentlichen-transkribierten-sprachdatensatz\/","title":{"rendered":"Common Voice: Mozilla ver\u00f6ffentlicht den bisher gr\u00f6\u00dften \u00f6ffentlichen transkribierten Sprachdatensatz"},"content":{"rendered":"<p><a href=\"http:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets.jpg\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-2717\" src=\"http:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets.jpg\" alt=\"\" width=\"1200\" height=\"800\" srcset=\"https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets.jpg 1200w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets-300x200.jpg 300w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets-768x512.jpg 768w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets-600x400.jpg 600w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets-1000x667.jpg 1000w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" \/><\/a><i>Mozilla macht den gr\u00f6\u00dften Datensatz menschlicher Stimmen verf\u00fcgbar, der komplett auf Crowdsourcing basiert. Der Datensatz umfasst 18 verschiedene Sprachen und summiert sich zu fast 1.400 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden.<\/i><\/p>\n<p>Von Anfang an war es unsere Vision f\u00fcr <a href=\"https:\/\/voice.mozilla.org\/de\" target=\"_blank\" rel=\"noopener\">Common Voice<\/a>, den weltweit vielf\u00e4ltigsten Sprachdatensatz zu erstellen, der speziell f\u00fcr die Entwicklung von Sprachtechnologien optimiert wurde. Wir haben au\u00dferdem versprochen, den Datensatz frei zug\u00e4nglich zu machen, damit auch Start-ups, Forscher*innen und alle anderen, die sich f\u00fcr sprachgest\u00fctzte Technologien interessieren, die qualitativ hochwertigen, transkribierten Sprachdaten, die wir gesammelt haben, nutzen k\u00f6nnen.<\/p>\n<p>Heute freuen wir uns, unseren ersten mehrsprachigen Datensatz zu pr\u00e4sentieren, der 18 Sprachen umfasst &#8211; darunter Englisch, Franz\u00f6sisch, Deutsch und Mandarin (traditionell), aber auch beispielsweise Walisisch und Kabyle. Dieser neue Datensatz umfasst insgesamt \u00a0rund 1.400 Stunden an Sprachaufzeichnungen von mehr als 42.000 Personen.<\/p>\n<p>Mit diesem Release ist der Common Voice Datensatz nun der gr\u00f6\u00dfte seiner Art, dank der Unterst\u00fctzung von zehntausenden Menschen, die ihre Stimmen und ihre eigens verfassten schriftlichen S\u00e4tze in die Public Domain (<a href=\"https:\/\/creativecommons.org\/share-your-work\/public-domain\/cc0\/\" target=\"_blank\" rel=\"noopener\">CC0<\/a>) gebracht haben. Der vollst\u00e4ndige Datensatz steht ab sofort <a href=\"https:\/\/voice.mozilla.org\/de\/datasets\" target=\"_blank\" rel=\"noopener\">auf der Common Voice-Seite zum Download<\/a> zur Verf\u00fcgung.<\/p>\n<h3><a href=\"http:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets-animated-graphic.gif\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-2718\" src=\"http:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Datasets-animated-graphic.gif\" alt=\"\" width=\"1440\" height=\"850\" \/><\/a><b>Datenqualit\u00e4t<\/b><\/h3>\n<p>Der Common Voice Datensatz ist nicht nur aufgrund seiner <a href=\"https:\/\/github.com\/JRMeyer\/open-speech-corpora\" target=\"_blank\" rel=\"noopener\">Gr\u00f6\u00dfe und seines Lizenzmodells <\/a>einzigartig, sondern auch aufgrund der vielf\u00e4ltigen, globalen Gemeinschaft an Mitwirkenden, die ihre Stimme gespendet haben. So k\u00f6nnen die Teilnehmer*innen freiwillig auch Metadaten wie Alter, Geschlecht und Akzent angeben. Damit werden gemeinsam mit ihren Aufzeichnungen weitere Informationen gespeichert, mit denen Sprach-Engines noch besser trainiert werden k\u00f6nnen.<\/p>\n<p>Damit w\u00e4hlten wir einen anderen Ansatz, als bei anderen \u00f6ffentlich zug\u00e4nglichen Datens\u00e4tzen: Diese werden manuell erstellt, um Diversit\u00e4t zu gew\u00e4hrleisten (etwa durch die gleiche Anzahl von M\u00e4nnern und Frauen) oder sie nutzen einen Korpus, der so vielf\u00e4ltig ist, wie die \u201cnat\u00fcrlich vorhandenen\u201d Daten (der TEDLIUM Korpus, der aus TED-Gespr\u00e4chen erstellt wird, umfasst beispielsweise dreimal mehr Daten von M\u00e4nnern als von Frauen).<\/p>\n<h3><b>Common Voice w\u00e4chst: von 3 auf 22 Sprachen in 8 Monaten<\/b><\/h3>\n<p>Seit wir im Juni 2018 die Unterst\u00fctzung mehrerer Sprachen aktiviert haben, ist Common Voice wesentlich globaler und integrativer geworden. Damit haben wir unsere Erwartungen \u00fcbertroffen: In den letzten acht Monaten hat die Community das Projekt mit Begeisterung vorangetrieben und die Datensammlung f\u00fcr 22 Sprachen gestartet. Und 70 weitere Sprachen stehen auf der Common Voice-Seite bereits in den Startl\u00f6chern.<\/p>\n<p>Common Voice ist ein Community-getriebenes Projekt. Das bedeutet, f\u00fcr jeden neuen Launch waren Menschen auf der ganzen Welt verantwortlich, die gerne einen Sprachdatensatz in ihrer Sprache h\u00e4tten. Einige sind leidenschaftliche Freiwillige, andere tun dies im Rahmen ihrer t\u00e4glichen Arbeit als Linguist*innen oder Technolog*innen. F\u00fcr jedes neue Sprachprojekt muss zuerst die Webseite \u00fcbersetzt werden, damit S\u00e4tze hinzugef\u00fcgt und Beitr\u00e4ge vorgelesen werden k\u00f6nnen.<\/p>\n<p>Ganz neu hinzugef\u00fcgt haben wir Niederl\u00e4ndisch, Hakha-Chin, Esperanto, Farsi, Baskisch und Spanisch. Manche Sprachen haben durch Common Voice \u00fcberhaupt erst ihren Weg ins Web gefunden. Der Einsatz unserer Community zeigt, dass alle Sprachen im Web repr\u00e4sentiert sein sollten &#8211; nicht nur diejenigen, die hohe Einnahmen f\u00fcr Tech-Unternehmen versprechen.<\/p>\n<p>Wir werden auch weiterhin mit diesen Communities zusammenarbeiten, um sicherzustellen, dass ihre Stimmen geh\u00f6rt werden und wir werden sie auch dabei unterst\u00fctzen, eigene Sprachtechnologien zu entwickeln. Deshalb haben wir k\u00fcrzlich auch mit der<a href=\"https:\/\/www.giz.de\/de\/html\/index.html\" target=\"_blank\" rel=\"noopener\"> Deutschen Gesellschaft f\u00fcr Internationale Zusammenarbeit (GIZ)<\/a> kooperiert und in Kigali einen <a href=\"https:\/\/medium.com\/mozilla-open-innovation\/sustainable-tech-development-needs-local-solutions-voice-tech-ideation-in-kigali-ec8dd33e0823\" target=\"_blank\" rel=\"noopener\">Ideen-Hackathon <\/a>veranstaltet, um einen Sprachkorpus f\u00fcr Kinyarwanda zu erstellen. Auf diese Weise m\u00f6chten wir es Technolog*innen in Ruanda erm\u00f6glichen, Open-Source-Sprachtechnologien in ihrer eigenen Sprache zu entwickeln.<\/p>\n<h3><b>Verbesserung der Contribution Experience, einschlie\u00dflich optionaler Profile<\/b><\/h3>\n<p>Die Common Voice Webseite ist eines unserer wichtigsten Instrumente zum Aufbau von Sprachdatens\u00e4tzen, die f\u00fcr die Spracherkennungstechnologie verwendet werden k\u00f6nnen. Das aktuelle Design ist das Ergebnis eines kontinuierlichen <a href=\"https:\/\/medium.com\/mozilla-open-innovation\/prototyping-with-intention-33d15fb147c2\" target=\"_blank\" rel=\"noopener\">Iterationsprozesses<\/a>. Basierend auf dem Feedback der Mitwirkenden aus der Community haben wir die Usability stetig verbessert, um die Teilnahme am Projekt einfacher und unterhaltsamer zu gestalten.<\/p>\n<p>Menschen, die einen Beitrag leisten m\u00f6chten, k\u00f6nnen nicht nur einsehen, wie sich die Aufnahme und Validierung jeder einzelnen Sprache entwickelt, sie bekommen auch verbesserte Bedienhinweise angezeigt, die von Aufzeichnung zu Aufzeichnung variieren. Dar\u00fcber hinaus gibt es neue Funktionen zum Best\u00e4tigen, neu Aufnehmen und \u00dcberspringen von Clips. Die neue Webseite erm\u00f6glicht zudem einen schnelleren Wechsel zwischen Sprechen und H\u00f6ren sowie das Deaktivieren der Sprachfunktion f\u00fcr die Dauer einer Session.<\/p>\n<p>Au\u00dferdem k\u00f6nnen Teilnehmer*innen nun ein Profil erstellen, mit dem sie ihren Fortschritt und ihre Metriken in mehreren Sprachen verfolgen k\u00f6nnen. Wer zudem optional auch einige demografische Profilinformationen hinterlegt, verbessert damit auch die Audiodaten, die dazu verwendet werden, pr\u00e4zisere Spracherkennungstechnologien zu trainieren.<\/p>\n<p style=\"text-align: center;\"><a href=\"http:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Dataset2.png\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-2720\" src=\"http:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Dataset2.png\" alt=\"\" width=\"1550\" height=\"1089\" srcset=\"https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Dataset2.png 1550w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Dataset2-300x211.png 300w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Dataset2-768x540.png 768w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Dataset2-600x422.png 600w, https:\/\/blog.mozilla.org\/press-de\/files\/2019\/02\/Moz_Common-Voice_Dataset2-1000x703.png 1000w\" sizes=\"(max-width: 1550px) 100vw, 1550px\" \/><\/a><i>Common Voice begann als Prototyp einer Proof of Concept-Studie und wurde im vergangenen Jahr als Community-Projekt stetig weiterentwickelt.<\/i><\/p>\n<h3><b>Dezentrale Produktinnovationen st\u00e4rken: ein Marathon statt ein Sprint<\/b><\/h3>\n<p>Mozilla m\u00f6chte zu einem vielf\u00e4ltigen und innovativen \u00d6kosystem an Sprachtechnologien beitragen. Unser Ziel ist es, eigene sprachgesteuerte Produkte auf den Markt zu bringen, aber auch Forscher*innen und kleinere Akteure zu unterst\u00fctzen. Die Bereitstellung von Daten \u00fcber Common Voice ist ein Teil davon, ebenso wie die Open-Source Speech-to-Text- und Text-to-Speech-Engines und die trainierten Modelle, die im Rahmen <a href=\"https:\/\/github.com\/mozilla\/deepspeech\" target=\"_blank\" rel=\"noopener\">des Projekts DeepSpeech<\/a> entstanden sind, das von unserer Machine Learning Group umgesetzt wird.<\/p>\n<p>Wir wissen, dass dies einige Zeit dauern wird. Wir glauben aber, dass wir durch die fr\u00fchzeitige Ver\u00f6ffentlichung und unsere transparente Arbeitsweise das Interesse von Technolog*innen, Organisationen und Unternehmen wecken k\u00f6nnen, deren Feedback unsere Projekte noch relevanter und besser macht. Aktuell befinden sich beide Projekte noch in der Forschungsphase &#8211; bei DeepSpeech machen wir aktuell jedoch gro\u00dfe Fortschritte und hoffen, dass in nicht allzu ferner Zukunft konkrete Produkte daraus entstehen.<\/p>\n<p>Bereits heute ist DeepSpeech dank der Daten aus dem Projekt Common Voice und aus anderen Quellen dazu in der Lage, <a href=\"https:\/\/hacks.mozilla.org\/2018\/09\/speech-recognition-deepspeech\/\" target=\"_blank\" rel=\"noopener\">Sprache mit menschlicher Genauigkeit und in Echtzeit<\/a> in Text zu konvertieren &#8211; und zwar noch w\u00e4hrend der Ton gestreamt wird. Dies erm\u00f6glicht die Transkription von Vortr\u00e4gen, Telefonaten, Fernsehsendungen, Radiosendungen und anderen Livestreams, w\u00e4hrend sie stattfinden.<\/p>\n<p>Die DeepSpeech-Engine wird aktuell auch bereits von einigen anderen Organisationen eingesetzt: Etwa im Projekt <a href=\"https:\/\/mycroft.ai\/blog\/deepspeech-update\/\" target=\"_blank\" rel=\"noopener\">Mycroft<\/a>, einem sprachbasierten Open-Source-Assistenten. Oder im Rahmen des Projekts <a href=\"https:\/\/getleon.ai\/\" target=\"_blank\" rel=\"noopener\">Leon<\/a>, einem pers\u00f6nlichen Assistenten, der auf Open-Source basiert. Oder auch in FusionPBX, einem Telefonvermittlungssystem, das Telefonnachrichten f\u00fcr ein privates Unternehmen transkribiert. Zuk\u00fcnftig soll Deep Speech auch in kleineren Ger\u00e4ten wie Smartphones und In-Car-Systemen eingesetzt werden und so Produktinnovationen innerhalb und au\u00dferhalb von Mozilla vorantreiben.<\/p>\n<p>Unser Fokus f\u00fcr Common Voice lag 2018 darauf, ein Konzept zu entwickeln, um das Projekt zu einem Tool f\u00fcr jede Sprachgemeinschaft zu machen. Au\u00dferdem wollten wir die Webseite optimieren und ein stabiles Backend (z.B. f\u00fcr die Erstellung von Benutzerkonten) aufbauen. In den kommenden Monaten werden wir mit verschiedenen Ans\u00e4tzen experimentieren, um die Quantit\u00e4t und Qualit\u00e4t der Daten, die wir sammeln, durch Ma\u00dfnahmen f\u00fcr die Community sowie mithilfe neuer Partnerschaften zu verbessern.<\/p>\n<p>Unser wichtigstes Ziel bleibt es jedoch, mehr und vor allem bessere Daten f\u00fcr alle Menschen auf der Welt bereitzustellen, die Sprachtechnologien entwickeln und nutzen wollen. Weil Wettbewerb und Offenheit Innovationen f\u00f6rdern. Weil kleinere Sprachen eine Frage des freien Zugangs und der Gerechtigkeit sind. Und weil Datenschutz und Kontrolle wichtig sind, vor allem \u00fcber Ihre Stimme.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mozilla macht den gr\u00f6\u00dften Datensatz menschlicher Stimmen verf\u00fcgbar, der komplett auf Crowdsourcing basiert. Der Datensatz umfasst 18 verschiedene Sprachen und summiert sich zu fast 1.400 Stunden aufgezeichneter Sprachdaten von mehr &hellip; <a class=\"go\" href=\"https:\/\/blog.mozilla.org\/press-de\/2019\/02\/28\/common-voice-mozilla-veroeffentlicht-den-bisher-groessten-oeffentlichen-transkribierten-sprachdatensatz\/\">Mehr lesen<\/a><\/p>\n","protected":false},"author":495,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,19596],"tags":[290452,311822,326749],"_links":{"self":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/posts\/2719"}],"collection":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/users\/495"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/comments?post=2719"}],"version-history":[{"count":0,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/posts\/2719\/revisions"}],"wp:attachment":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/media?parent=2719"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/categories?post=2719"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/tags?post=2719"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}