Google представив дві ШІ-моделі: Gemini Robotics для роботів і Gemma 3 для телефонів і ноутбуків

07:17
14.03.2025

n99Fiv84JZbmK8VTpDjuUgk4JbS4KBEjDNo5UxVS

Google оголосив про поповнення в сімействі відкритих моделей штучного інтелекту Gemma, а підрозділ компанії DeepMind представив Gemini Robotics — модель на базі Gemini 2.0, призначену для робототехніки.

Gemma 3

На сайті Google йдеться, що Gemma 3 — це колекція легких відкритих моделей, створених на основі тих самих досліджень і технологій, що й моделі Gemini 2.0. Її розробили для швидкої роботи на пристроях — наприклад, телефонах або ноутбуках, щоб допомогти розробникам створювати застосунки із ШІ. Нову модель випускають в різних розмірах: 1B, 4B, 12B та 27B.

Зображення: Google

Google стверджує, що Gemma 3 перевершує Llama-405B, DeepSeek-V3 та o3-mini за попередніми оцінками людських переваг у таблиці лідерів LMArena та може розміститися на одному хості GPU або TPU. Нова модель пропонує:

готову підтримку більш ніж 35 мов і попередньо навчену підтримку більш ніж 140 мов;
контекстне вікно на 128 000 токенів;
підтримку виклику функцій і структурований вивід;
створення програм, які аналізують зображення, текст і короткі відео.

Водночас Google також випускають ShieldGemma 2 — програму для перевірки безпеки зображень 4B, побудовану на основі Gemma 3. Цей інструмент «забезпечує готове рішення» для аналізу безпечності зображень, класифікуючи їх за трьома категоріями:

небезпечний контент;
відвертий сексуальний вміст;
насильство.

Модель можна завантажити через Kaggle і Hugging Face або Google Studio.

Gemini Robotics

DeepMind показав свій прогрес у роботі над ШІ для роботів. Дослідники представили дві нові моделі на базі Gemini 2.0 та стверджують, що вони «закладають основу для нового покоління корисних роботів».

Перша модель — Gemini Robotics для полегшення прямого керування роботами. У компанії кажуть, що системи штучного інтелекту для роботів повинні мати три риси:

універсальність — здатність адаптуватися до нових ситуацій (зокрема тих, які не були передбачені під час навчання);
інтерактивність — здатність робота реагувати на людей і навколишнє середовище;
спритність — багато завдань, які люди виконують автоматично, вимагають точної моторики, яку роботам опанувати складно.

Дослідники показали, як роботи робили оригамі, грали в «хрестики-нулики» змогли обережно скласти окуляри та розуміли завдання, які звучали природною мовою, і чітко їх виконували, попри перешкоди.

Google співпрацює з Apptronik, розробником двоногого робота Apollo, щоб створити наступне покоління людиноподібних роботів.

Друга представлена модель — Gemini Robotics-ER, що має розширене просторове розуміння. Вона дозволяє робототехнікам запускати власні програми, використовуючи можливості міркування Gemini.