
Дві провідні компанії зі штучного інтелекту — OpenAI та Anthropic — провели оцінку безпеки своїх загальнодоступних AI-систем. Цей крок є нетиповим для індустрії, де конкуренти зазвичай змагаються один з одним, повідомляє Engadget.
У компанії повідомили, що протестували моделі OpenAI на схильність до «підлабузництва», здатність до «викриття» неправомірних дій, самозбереження, підтримку потенційного зловживання людьми, а також спроможність обходити механізми контролю безпеки.
Зокрема, моделі o3 та o4-mini показали подібні результати до власних систем Anthropic. Водночас занепокоєння викликали універсальні моделі GPT-4o та GPT-4.1, які можуть бути вразливими до зловживання. Також було зафіксовано ознаки «підлабузництва» у більшості моделей, окрім o3.
При цьому найновіша модель GPT-5 до перевірки не увійшла. Вона має вбудовану функцію Safe Completions, покликану захищати користувачів від потенційно небезпечних запитів. Запуск цієї функції відбувся на тлі гучного позову проти OpenAI: компанію звинувачують у непрямій причетності до самогубства підлітка, який протягом місяців обговорював із ChatGPT плани суїциду.
Результати перевірки OpenAI
Своєю чергою OpenAI протестувала моделі Anthropic на здатність дотримуватися ієрархії інструкцій, стійкість до джейлбрейків, рівень галюцинацій і схильність до маніпуляцій.
Моделі Claude продемонстрували високу відмову у випадках невпевненості (менше схильні до вигадування відповідей) і добре пройшли тести на виконання інструкцій.
Чому це важливо
Факт спільної перевірки викликав інтерес на ринку, адже раніше OpenAI звинувачували у використанні моделей Anthropic для розробки власних продуктів. Це призвело до того, що Anthropic на початку цього місяця заблокувала OpenAI доступ до своїх інструментів.
Наразі ж обидві компанії заявляють, що подібні оцінки важливі для підвищення безпеки та довіри до ШІ-систем, особливо в умовах зростання уваги регуляторів і суспільства до захисту користувачів, зокрема неповнолітніх.