Przejdź do głównej treści

Dostępnik o generatorze audiodeskrypcji

W najnowszym numerze Dostępnika opisuję, jak w jeden dzień zbudowałem prototyp generatora audiodeskrypcji. Narzędzie analizuje wideo, wykrywa przerwy między wypowiedziami i wstawia w nie opisy tego, co widać na ekranie — syntezowane głosem. Cały potok: Silero VAD do detekcji mowy, Gemini 2.5 Flash do analizy obrazu, Google TTS do syntezy i FFmpeg do poskładania tego w całość.

Pisałem z pomocą Claude Code i GitHub Copilot. AI pisał kod sprawnie — ale tylko wtedy, gdy wiedziałem, co mu powiedzieć. Trzy razy musiałem korygować kurs: raz przy przetwarzaniu audio (torchaudio nie działał, zastąpiłem FFmpegiem), raz przy synchronizacji czasowej (pierwsze podejście wrzucało wszystkie opisy w jedną dużą lukę), raz przy samym tekście (Gemini generował listy słów kluczowych zamiast zdań — doprecyzowanie promptu rozwiązało problem).

Kluczowy wniosek brzmi krótko: AI świetnie implementuje to, co opisujesz. Ale musisz wiedzieć, co opisujesz. Wymagania dotyczące audiodeskrypcji — timing, gramatyka, narracja — musiałem wnieść sam. To nie jest wiedza, którą model ma domyślnie.

Projekt jest na GitHubie jako kod badawczy, nie produkcyjny. Szczegóły w newsletterze.

Warto przeczytać w całości: Dostępnik o generatorze audiodeskrypcji (Jacek Zadrożny)