Google представив нову модель штучного інтелекту Gemma 4 12B. Вона підтримує роботу з текстом, зображеннями та аудіо, а також може запускатися локально на ноутбуках із 16 ГБ оперативної пам’яті або відеопам’яті.
Про це йдеться в Google Blog.
Gemma 4 12B стала новим доповненням до сімейства відкритих моделей Google. Вона займає проміжне місце між компактною Gemma E4B та більш потужною моделлю Gemma 26B.
У Google заявляють, що новинка забезпечує продуктивність, наближену до моделі 26B, але потребує менш ніж половину її обсягу пам’яті.
Що нового в Gemma 4 12B
Gemma 4 12B стала першою моделлю середнього розміру в лінійці Gemma, яка отримала нативну підтримку аудіовходів.
У Google відмовилися від окремого аудіоенкодера. Замість цього модель безпосередньо проєктує аудіосигнал у той самий простір, де обробляються текстові токени.
Крім цього, для роботи із зображеннями Google замінила окремий візуальний енкодер на спрощений модуль вбудовування даних, тоді як основне навантаження бере на себе сама мовна модель.
У компанії зазначають, що Gemma 4 12B розрахована на складні багатокрокові завдання та агентні сценарії використання.
Модель також підтримує технологію Multi-Token Prediction (MTP), яка допомагає скоротити затримки під час генерації відповідей.
Більше про Gemma
Gemma — сімейство відкритих моделей штучного інтелекту, які розробили в Google DeepMind.
За даними Google, моделі сімейства Gemma вже перевищили позначку у 150 млн завантажень. Розробники використовують їх у різних проєктах — від робототехніки до корпоративних систем кібербезпеки.
Лінійка Gemma орієнтована насамперед на спільноту розробників.
