Common Voice – Mozilla udostępnia drugi co do wielkości zbiór danych głosowych

Od startu inicjatywy Common Voice zebraliśmy setki tysięcy próbek głosu za pośrednictwem naszej strony internetowej i aplikacji iOS. Dziś udostępniamy pierwszą wersję tej kolekcji głosów.

Od początku Mozilla opierała się na kreatywności, współczuciu i zaradności ludzi na całym świecie, którzy pomagali nam budować i promować sieć jako globalne zasoby publiczne dostępne dla wszystkich. Stanowiło to podstawę naszej eksperymentalnej pracy w dziedzinie systemów uczących się i rozpoznawania mowy oraz budowania obszernej bazy wysokiej jakości danych głosowych za pomocą Common Voice.

Zbiór ten zawiera blisko 400 000 nagrań od 20 000 różnych osób, co daje około 500 godzin wypowiedzi. Do tej pory jest to drugi co do wielkości ogólnodostępny zestaw danych głosowych, o którym wiemy, a ludzie na całym świecie cały czas dodają i sprawdzają nowe próbki!

Możesz pobrać dane już teraz!

Sami przekonaliśmy się jak trudno jest znaleźć publicznie dostępne dane do naszej pracy w zakresie technologii mowy, dlatego udostępniamy linki do wszystkich innych znanych nam źródeł. Chcemy dalej rozwijać naszą stronę tak, aby stała się centralną bazą danych głosowych.

Patrząc na dzisiejszy ekosystem głosu, widzimy wielu programistów, twórców, start-upowców i badaczy, którzy chcą eksperymentować i budować technologie głosowe. Większość z nas ma jednak dostęp jedynie do dość ograniczonego zbioru danych głosowych. Jest to niezbędny element tworzenia wysokiej jakości silników rozpoznawania mowy. Te dane głosowe mogą kosztować dziesiątki tysięcy dolarów, a ich skala jest niewystarczająca do opracowania rozwiązań w zakresie rozpoznawania mowy na poziomie oczekiwanym przez ludzi. Dostarczając ten nowy zbiór danych publicznych, chcemy pomóc przezwyciężyć te bariery i ułatwić tworzenie nowych, lepszych systemów rozpoznawania mowy (takich jak nasza własna funkcja Deep Speech). Zaczęliśmy od języka angielskiego, ale wkrótce będziemy wspierać każdy język. Mamy nadzieję, że dzięki naszej równoległej pracy nad mechanizmem speech-to-text, uda nam się udostępnić technologię mowy większej liczbie osób, które będą mogły wprowadzać innowacje i konkurować z większymi graczami.

Czy jesteś zainteresowany naszym ogólnodostępnym projektem rozpoznawania mowy „Deep Speech” oraz wykorzystaniem zasobów Common Voice do tworzenia lepszych produktów? Reuben Morais z zespołu Mozilla Machine Learning właśnie opublikował artykuł pt. „Journey to <10% Word Error Rate”. Stanowi on ciekawe podsumowanie wyzwań i wniosków zebranych podczas pracy nad stworzeniem pierwszego modelu mechanizmu rozpoznawania mowy open source, który został dziś opublikowany w repozytorium github!

W dalszym ciągu przyjmujemy chętnych do pracy nad projektem Common Voice. Prosimy o przesyłanie pomysłów jak możemy współpracować, tak abyśmy wiedzieli, w jaki sposób korzystacie z danych. Czekamy również na sugestie, w jaki sposób ten projekt może być jeszcze bardziej przydatny.

Chcielibyśmy podziękować Mycroft, SNIPS, Bangor University, LibriSpeech, VoxForge, TED-LIUM, Tatoeba.org, Mythic, SAP oraz wszystkim współtwórcom z github. Nie udałoby nam się bez Was!

Stale dążymy do poprawy jakości naszego zbioru danych. Wejdź na stronę internetową Common Voice i pomóż nam zweryfikować nagrania, co jest równie ważne jak przekazywanie głosu!