Google оголосила про суттєве оновлення своєї моделі Gemini 2.5 Flash Native Audio. Компанія фокусується на покращенні взаємодії з голосовими ШІ-агентами та запускає функцію синхронного перекладу, яка зберігає інтонацію мовця.
Про це повідомили в офіційному блозі Google.
Що змінилося
Google заявляє про покращення моделі в трьох ключових напрямках, щоб зробити спілкування з ШІ максимально наближеним до людського:
- Чіткіший виклик функцій (Function calling). Модель стала надійнішою при інтеграції із зовнішніми інструментами. Вона краще розуміє, коли потрібно залучити сторонні дані під час розмови, і безшовно вплітає їх у відповідь. У бенчмарку ComplexFuncBench Audio оновлена Gemini показала результат 71,5%.
- Слідування інструкціям. Показник дотримання інструкцій розробника зріс із 84% до 90%. Це означає, що боти рідше помилятимуться при виконанні складних сценаріїв.
- Плавність діалогу. Покращено якість багатоетапних розмов (multi-turn conversation). ШІ краще пам’ятає контекст попередніх фраз і не втрачає «нитку» розмови.
Представники Shopify та United Wholesale Mortgage вже протестували оновлення, зазначивши, що користувачі часто забувають, що розмовляють зі штучним інтелектом.
Live Speech Translation
Окрім покращення бізнес-інструментів, Google представила функцію Live Speech Translation для додатку Google Translate. Це технологія speech-to-speech, яка дозволяє використовувати навушники для синхронного перекладу розмов.
Технологія відтворює не лише зміст, а й інтонацію, темп та висоту голосу спікера. Система підтримує понад 70 мов, автоматично визначає мову співрозмовника та може обробляти діалоги, де використовується кілька мов одночасно.
Функцію живого перекладу запускають відсьогодні в бета-режимі у додатку Google Translate для Android. На першому етапі доступ отримають користувачі у США, Мексиці та Індії. Підтримку iOS та розширення географії обіцяють додати найближчим часом.
