Google представила VaultGemma — найбільшу відкриту мовну модель з диференційованою приватністю

07:17
21.09.2025

kobhruxQPG4GdLtbt5SQAsCNQzkfZTmmCr9UBheQ

Google Research спільно з DeepMind представили VaultGemma — нову мовну модель із 1 мільярдом параметрів, яку повністю навчено з використанням технології диференційованої приватності (DP).

Про це йдеться у блозі Google Research.

Це найбільша на сьогодні відкрита модель такого типу. Вона вже доступна на платформах Hugging Face і Kaggle.

Чим особлива ця модель?

Диференційована приватність додає до даних спеціально згенерований «шум», що унеможливлює запам’ятовування конфіденційної інформації.

Такий підхід, кажуть у компанії, підвищує безпеку, але водночас ускладнює тренування моделей, збільшує витрати ресурсів та вимагає більших обсягів даних.

Щоб подолати ці обмеження, команда Google розробила нові «закони масштабування» — правила, які описують, як балансувати між якістю навчання, обсягами даних, ресурсами та рівнем приватності.

Що показало тестування моделі?

Використовуючи ці результати, дослідники створили оптимальні умови для тренування VaultGemma.

Модель показала продуктивність, співмірну з мовними системами п’ятирічної давності, зокрема GPT-2, але при цьому гарантує захист даних.

Тести підтвердили, що VaultGemma не відтворює навчальні приклади, а отже — не запам’ятовує приватну інформацію.

Іншими словами: навіть у разі запитів, близьких до навчальних прикладів, модель не може видати приватні дані користувачів.

У Google підкреслюють, що VaultGemma є важливим кроком у напрямку створення безпечного та відповідального штучного інтелекту. Хоча розрив у якості між приватними та звичайними моделями ще існує, у компанії впевнені, що завдяки подальшим дослідженням його можна поступово скоротити.