{"id":2372,"date":"2017-11-29T17:00:40","date_gmt":"2017-11-29T16:00:40","guid":{"rendered":"http:\/\/blog.mozilla.org\/press-de\/?p=2372"},"modified":"2018-06-05T14:21:01","modified_gmt":"2018-06-05T12:21:01","slug":"common-voice-mozilla-veroffentlicht-den-zweitgrosten-offentlichen-sprachdatensatz","status":"publish","type":"post","link":"https:\/\/blog.mozilla.org\/press-de\/2017\/11\/29\/common-voice-mozilla-veroffentlicht-den-zweitgrosten-offentlichen-sprachdatensatz\/","title":{"rendered":"Common Voice: Mozilla ver\u00f6ffentlicht den zweitgr\u00f6\u00dften \u00f6ffentlichen Sprachdatensatz"},"content":{"rendered":"<p>Seit dem Start von Common Voice haben wir \u00fcber unsere <a href=\"http:\/\/voice.mozilla.org\/\" target=\"_blank\" rel=\"noopener\">Webseite<\/a> und die <a href=\"https:\/\/itunes.apple.com\/us\/app\/project-common-voice-by-mozilla\/id1240588326?mt=8\" target=\"_blank\" rel=\"noopener\">iOS-App<\/a> hunderttausende Sprachaufnahmen gesammelt. Heute machen wir eine erste Version dieser Sprachsammlung<a href=\"https:\/\/creativecommons.org\/choose\/zero\/\" target=\"_blank\" rel=\"noopener\"> \u00f6ffentlich zug\u00e4nglich<\/a>.<\/p>\n<p>Von Anfang an hat Mozilla auf die Kreativit\u00e4t, die Leidenschaft und den Einfallsreichtum von Menschen auf der ganzen Welt vertraut, die uns dabei helfen, das Internet als globale, \u00f6ffentlich zug\u00e4ngliche Ressource zu schaffen und voranzutreiben. Dies war auch die Grundlage unserer experimentellen Arbeit im Bereich <a href=\"https:\/\/research.mozilla.org\/machine-learning\/\" target=\"_blank\" rel=\"noopener\">Machine Learning und Spracherkennung<\/a> sowie beim Aufbau unserer umfangreichen und qualitativ hochwertigen Sprachdatenbank im Rahmen des Projekts Common Voice.<\/p>\n<p>Die Sammlung enth\u00e4lt fast 400.000 Aufnahmen von 200.000 unterschiedlichen Personen, die circa 500 Stunden an Sprachaufnahmen umfassen. Bereits jetzt ist dies der zweitgr\u00f6\u00dfte \u00f6ffentlich zug\u00e4ngliche Datensatz, der uns bekannt ist \u2013 und st\u00e4ndig f\u00fcgen Menschen von \u00fcberall auf der Welt neue Aufnahmen hinzu oder \u00fcberpr\u00fcfen bereits vorhandene Datens\u00e4tze.<\/p>\n<p>Hier k\u00f6nnen Sie die Daten <a href=\"https:\/\/voice.mozilla.org\/data\" target=\"_blank\" rel=\"noopener\">direkt herunterladen<\/a>!<\/p>\n<p><a href=\"http:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceDownload.png\"><img decoding=\"async\" loading=\"lazy\" class=\"size-full wp-image-2373 aligncenter\" src=\"http:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceDownload.png\" alt=\"\" width=\"1363\" height=\"624\" srcset=\"https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceDownload.png 1363w, https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceDownload-252x115.png 252w, https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceDownload-768x352.png 768w, https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceDownload-600x275.png 600w\" sizes=\"(max-width: 1363px) 100vw, 1363px\" \/><\/a>Da wir selbst festgestellt haben, wie schwer es sein kann, \u00f6ffentlich zug\u00e4ngliche Daten f\u00fcr unser Sprachtechnologie-Projekt zu finden, verlinken wir auf unserer Seite auch auf andere Sprachsammlungen, die uns bekannt sind. Und wir arbeiten mit Hochdruck daran, die Website zu einem zentralen Hub f\u00fcr Sprachdaten wachsen zu lassen.<\/p>\n<p>Es gibt heute viele Entwickler, Macher, Start-ups und Forscher, die mit sprachbasierten Technologien experimentieren oder diese entwickeln m\u00f6chten. Die meisten haben jedoch nur Zugriff auf eine sehr eingeschr\u00e4nkte Sammlung an Sprachdaten \u2013 die jedoch eine wesentliche Voraussetzung sind, um qualitativ hochwertige Spracherkennungssysteme entwickeln zu k\u00f6nnen. Diese Sprachdaten k\u00f6nnen zehntausende Euro kosten und reichen in ihrem Umfang dennoch nicht aus, um eine Spracherkennung zu erschaffen, die die Erwartungen der Nutzer erf\u00fcllt. Indem wir diesen neuen, \u00f6ffentlichen Datensatz zur Verf\u00fcgung stellen, m\u00f6chten wir diese Hindernisse aus dem Weg schaffen und es einfacher machen, neue und bessere Spracherkennungssysteme (wie unser <a href=\"https:\/\/github.com\/mozilla\/DeepSpeech\" target=\"_blank\" rel=\"noopener\">Deep-Speech-Projekt<\/a>) zu entwickeln. Angefangen haben wir mit Englisch, aber schon bald wird jede Sprache unterst\u00fctzt. Parallel dazu arbeiten wir an einer Open Source Speech-To-Text-Engine, mit der wir die Entwicklung von Sprachtechnologien f\u00fcr die Allgemeinheit erschlie\u00dfen m\u00f6chten. So k\u00f6nnen sich noch mehr Menschen beteiligen, ihre Innovationen einbringen und mit den gro\u00dfen Konzernen in Wettbewerb treten.<\/p>\n<p>M\u00f6chten Sie mehr \u00fcber unser Open-Source-Spracherkennungsprojekt Deep Speech erfahren und dar\u00fcber, wie Common-Voice-Daten genutzt werden k\u00f6nnen, um bessere Spracherkennungssysteme zu entwickeln? Reuben Morais aus Mozillas Machine-Learning-Team hat gerade einen Artikel zu diesem Thema <a href=\"https:\/\/hacks.mozilla.org\/2017\/11\/a-journey-to-10-word-error-rate\/\" target=\"_blank\" rel=\"noopener\">auf dem Mozilla Hacks Blog ver\u00f6ffentlicht<\/a>. Dieser gibt einen spannenden \u00dcberblick \u00fcber die Aufgaben und Erfahrungen, die das Team bei der Entwicklung seiner ersten Open-Source-Spracherkennungs-Engine \u2013 die heute auf ihrem <a href=\"http:\/\/github.com\/mozilla\/DeepSpeech\" target=\"_blank\" rel=\"noopener\">github Repository<\/a> bereitgestellt wurde \u2013 gemacht hat.<\/p>\n<p>Wir nehmen \u00fcbrigens immer gerne neue Mitstreiter im Projekt Common Voice auf. Kontaktieren Sie uns mit allen Ideen, die Sie zur Mitarbeit einbringen m\u00f6chten, lassen Sie uns wissen, wie Sie unsere Daten verwenden oder geben Sie uns Feedback, wie wir das Projekt noch sinnvoller gestalten k\u00f6nnen.<\/p>\n<p><a href=\"http:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceApp2.jpg\"><img decoding=\"async\" loading=\"lazy\" class=\"size-full wp-image-2374 aligncenter\" src=\"http:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceApp2.jpg\" alt=\"\" width=\"1943\" height=\"1306\" srcset=\"https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceApp2.jpg 1943w, https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceApp2-252x169.jpg 252w, https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceApp2-768x516.jpg 768w, https:\/\/blog.mozilla.org\/press-de\/files\/2017\/11\/CommonVoiceApp2-600x403.jpg 600w\" sizes=\"(max-width: 1943px) 100vw, 1943px\" \/><\/a>An dieser Stelle m\u00f6chten wir noch einen gro\u00dfen Dank an Mycroft, SNIPS, die Bangor University, LibriSpeech, VoxForge, TED-LIUM, Tatoeba.org, Mythic, SAP und nat\u00fcrlich auch an alle <a href=\"https:\/\/github.com\/mozilla\/voice-web\/graphs\/contributors\" target=\"_blank\" rel=\"noopener\">Mitwirkenden auf github<\/a> aussprechen. Wir h\u00e4tten diesen Fortschritt nicht alleine geschafft!<\/p>\n<p><em>Wir sind au\u00dferdem stets dabei, die Qualit\u00e4t unseres Datensatzes zu verbessern. Schauen Sie doch einmal auf der <\/em><a href=\"http:\/\/voice.mozilla.org\/\" target=\"_blank\" rel=\"noopener\"><em>Common-Voice-Webseite<\/em><\/a><em> vorbei und helfen Sie uns dabei, die Aufnahmen zu \u00fcberpr\u00fcfen \u2013 das ist genauso wichtig, wie uns Ihre Stimme zu spenden!<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Seit dem Start von Common Voice haben wir \u00fcber unsere Webseite und die iOS-App hunderttausende Sprachaufnahmen gesammelt. Heute machen wir eine erste Version dieser Sprachsammlung \u00f6ffentlich zug\u00e4nglich. Von Anfang an &hellip; <a class=\"go\" href=\"https:\/\/blog.mozilla.org\/press-de\/2017\/11\/29\/common-voice-mozilla-veroffentlicht-den-zweitgrosten-offentlichen-sprachdatensatz\/\">Mehr lesen<\/a><\/p>\n","protected":false},"author":495,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,19596],"tags":[],"_links":{"self":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/posts\/2372"}],"collection":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/users\/495"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/comments?post=2372"}],"version-history":[{"count":0,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/posts\/2372\/revisions"}],"wp:attachment":[{"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/media?parent=2372"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/categories?post=2372"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.mozilla.org\/press-de\/wp-json\/wp\/v2\/tags?post=2372"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}