Przejdź do głównej treści

Brakujące głosy — synteza mowy omija tysiące języków

Wiemy, że synteza mowy (TTS) robi się coraz lepsza — głosy brzmią naturalnie, płynnie, niemal jak prawdziwy lektor. Ale to „coraz lepiej" dotyczy zaledwie około 140 języków. Na świecie funkcjonuje ich ponad 7100. Dla ok. 4000 z nich — języków żywych, aktywnie używanych przez swoje społeczności — nie istnieje żaden przyzwoity głos syntetyczny.

Dave Gunn z Konsorcjum DAISY opisuje problem przez pryzmat trzech regionów. W Afryce Południowej, gdzie konstytucja uznaje 12 języków oficjalnych, wsparcie TTS jest nierówne, a dostępne głosy brzmią mechanicznie. W Paragwaju guaraní — drugi oficjalny język kraju — ma tylko jeden syntetyczny głos opisywany jako „bardzo podstawowy, robotyczny i nienaturalny". W Laponii zaś w języku północnosaamskim istnieje zaledwie około 60 audioksiążek nagranych przez dwóch lektorów.

Przyczyny są strukturalne: firmy inwestują w języki z dużymi rynkami zbytu, brakuje zdigitalizowanych danych treningowych dla mniejszych języków, a modele AI trenowane na dominujących językach powielają te nierówności. DAISY, Światowa Unia Niewidomych i ICEVI uznają to za problem praw człowieka — brak głosu w twoim języku to brak samodzielnego dostępu do edukacji i informacji.

Warto przeczytać w całości: The Missing Voices (Dave Gunn)