Gemini Flash Live: agenty głosowe i wizyjne w czasie rzeczywistym
Google udostępniło Gemini Flash Live — pierwszy model audio czasu rzeczywistego z rodziny Gemini 3. To narzędzie dla deweloperów budujących aplikacje, które słuchają, widzą i reagują bez zauważalnego opóźnienia.
Trzy główne ulepszenia względem poprzedniej wersji: model znacznie lepiej radzi sobie z wywoływaniem funkcji i narzędzi w hałaśliwych środowiskach, lepiej przestrzega złożonych instrukcji nawet gdy rozmowa schodzi z utartego toru, a odpowiedzi są szybsze i bardziej naturalne dzięki lepszemu rozpoznawaniu niuansów akustycznych.
Integracja jest możliwa przez GenAI SDK, WebSocket lub WebRTC u partnerów. Google udostępniło przykłady kodu na GitHubie i aplikację demo do przetestowania instrukcji w czasie rzeczywistym.
Warto przeczytać w całości: Build real-time voice & vision agents with our lowest latency yet (Google AI Studio team)