
Google оголосив про поповнення в сімействі відкритих моделей штучного інтелекту Gemma, а підрозділ компанії DeepMind представив Gemini Robotics — модель на базі Gemini 2.0, призначену для робототехніки.
Gemma 3
На сайті Google йдеться, що Gemma 3 — це колекція легких відкритих моделей, створених на основі тих самих досліджень і технологій, що й моделі Gemini 2.0. Її розробили для швидкої роботи на пристроях — наприклад, телефонах або ноутбуках, щоб допомогти розробникам створювати застосунки із ШІ. Нову модель випускають в різних розмірах: 1B, 4B, 12B та 27B.
Зображення: Google
Google стверджує, що Gemma 3 перевершує Llama-405B, DeepSeek-V3 та o3-mini за попередніми оцінками людських переваг у таблиці лідерів LMArena та може розміститися на одному хості GPU або TPU. Нова модель пропонує:
- готову підтримку більш ніж 35 мов і попередньо навчену підтримку більш ніж 140 мов;
- контекстне вікно на 128 000 токенів;
- підтримку виклику функцій і структурований вивід;
- створення програм, які аналізують зображення, текст і короткі відео.
Водночас Google також випускають ShieldGemma 2 — програму для перевірки безпеки зображень 4B, побудовану на основі Gemma 3. Цей інструмент «забезпечує готове рішення» для аналізу безпечності зображень, класифікуючи їх за трьома категоріями:
- небезпечний контент;
- відвертий сексуальний вміст;
- насильство.
Модель можна завантажити через Kaggle і Hugging Face або Google Studio.
Gemini Robotics
DeepMind показав свій прогрес у роботі над ШІ для роботів. Дослідники представили дві нові моделі на базі Gemini 2.0 та стверджують, що вони «закладають основу для нового покоління корисних роботів».
Перша модель — Gemini Robotics для полегшення прямого керування роботами. У компанії кажуть, що системи штучного інтелекту для роботів повинні мати три риси:
- універсальність — здатність адаптуватися до нових ситуацій (зокрема тих, які не були передбачені під час навчання);
- інтерактивність — здатність робота реагувати на людей і навколишнє середовище;
- спритність — багато завдань, які люди виконують автоматично, вимагають точної моторики, яку роботам опанувати складно.
Дослідники показали, як роботи робили оригамі, грали в «хрестики-нулики» змогли обережно скласти окуляри та розуміли завдання, які звучали природною мовою, і чітко їх виконували, попри перешкоди.
Google співпрацює з Apptronik, розробником двоногого робота Apollo, щоб створити наступне покоління людиноподібних роботів.
Друга представлена модель — Gemini Robotics-ER, що має розширене просторове розуміння. Вона дозволяє робототехнікам запускати власні програми, використовуючи можливості міркування Gemini.