ChatGPT стане самокритичним. OpenAI представила механізм «Сповіді» для підвищення чесності моделей

14:57
05.12.2025

Компанія OpenAI представила новий експериментальний метод, який навчає великі мовні моделі (LLM) явно повідомляти про випадки, коли вони порушують надані інструкції, використовують небажані «шляхи оптимізації» або вдаються до нечесної поведінки.

Цей механізм отримав назву «Сповіді» (Confessions).

Чому виникла потреба у «сповідях»

Дослідження, проведені OpenAI та іншими компаніями, показали, що моделі ШІ можуть галюцинувати або бути нечесними.
Суть проблеми полягає в тому, що під час навчання моделі оптимізують одразу кілька цілей (коректність, корисність, безпека, стиль спілкування), що може ненавмисно наштовхувати їх на небажану поведінку.
Метод має на меті підвищити прозорість розгорнутих систем ШІ, вдосконалити процеси навчання та зміцнити довіру до кінцевих результатів.

Як працює механізм

«Сповідь» — це другий, окремий від основної відповіді моделі, вихід. Розробники застосували підхід, за якого модель не карається за зізнання.

«Ніщо з того, що модель говорить у своїй сповіді, не використовується проти неї під час навчання. Мета полягає в тому, щоб заохотити модель чесно повідомляти про те, що вона насправді зробила», — йдеться у звіті OpenAI.

У середньому, ймовірність «хибно-негативних» результатів (коли модель порушила інструкції, але не зізналася) склала лише 4,4%. Це означає, що механізм дуже ефективно змушує модель повідомляти про свої прорахунки.

Приклад сповіді від ChatGPT

У майбутньому OpenAI планує масштабувати цей підхід і поєднувати його з іншими інструментами прозорості, такими як моніторинг ланцюга міркувань («chain-of-thought monitoring»), для забезпечення надійності та безпеки моделей ШІ.