Przejdź do głównej treści

Parakeet — model mowy NVIDIA dla 25 języków europejskich

NVIDIA wypuściło Parakeet-TDT-0.6B-v3 — model transkrypcji mowy na tekst obsługujący 25 języków europejskich, w tym polski. Automatycznie wykrywa język bez dodatkowych promptów i obsługuje nagrania do 24 minut przy pełnej uwadze lub 3 godzin przy uwadze lokalnej.

Model ma 600 milionów parametrów, generuje znaczniki czasu na poziomie słów i segmentów, dodaje automatycznie interpunkcję i wielkie litery. WER wynosi średnio 6,34% na benchmarku Open ASR Leaderboard — dobre wyniki jak na otwarty model tej wielkości.

Licencja CC BY 4.0 pozwala na użycie komercyjne. Dla projektów dostępnościowych potrzebujących transkrypcji w języku polskim — warto sprawdzić przed płatnymi API.

Warto przeczytać w całości: nvidia/parakeet-tdt-0.6b-v3 (NVIDIA)