OpenAI відкликала оновлення моделі GPT‑4o в ChatGPT через підлабузницьку поведінку

16:59
01.05.2025

B2qk5iVCZHnoC4sDbD3do9XULIdqUG0TpbLXnA6R

OpenAI відкликала оновлення моделі GPT‑4o в ChatGPT, через яке він генерував «занадто улесливі та приємні» відповіді. Тепер чат використовує попередню версію зі збалансованою поведінкою, пишуть у блозі компанії.

Це сталося після того, як користувачі почали обговорювати у соцмережах і форумах підлабузницьку поведінку ChatGPT. ШІ надмірно хвалив їх і погоджувався навіть із проблемними ідеями та теоріями змови. Деяким казав, що їхні запити були «фантастичними» або «видатними».

Як ChatGPT став підлабузником

Минулого тижня OpenAI внесла корективи у свій чат, щоб покращити налаштування моделі та зробити її «інтуїтивно зрозумілішою та ефективнішою». Під час формування поведінки моделей, кажуть, що спираються на принципи й інструкції, викладені в Model Spec.
Штучний інтелект навчають застосовувати ці принципи, враховуючи відгуки користувачів. Наприклад, оцінки відповідей ChatGPT у вигляді «палець вгору» або «палець вниз».
Повідомляється, що в цьому оновленні розробники занадто зосередилися на короткостроковому зворотному зв’язку й не врахували, як із часом змінюється взаємодія користувачів із ChatGPT. У результаті — GPT‑4o почав давати приємні, але нещирі відповіді.

«Ми створили базову особистість ChatGPT так, щоб вона відповідала нашій місії — була корисною, надійною та з повагою ставилася до різних поглядів і досвіду. Але навіть позитивні якості, як-от бажання допомогти чи підтримати, можуть мати неочікувані наслідки», — йдеться в блозі.

Тому враховуючи, що ChatGPT щотижня користуються 500 мільйонів людей у різних культурах і ситуаціях, одна стандартна поведінка не зможе задовольнити всіх, як пояснює свою помилку OpenAI.

Як виправляють

У компанії визнають, що підлабузницькі відповіді можуть бути незручними, тривожними й викликати дискомфорт. Тож зараз працюють над тим, або все виправити. Окрім відкликання моделі, роблять ще й таке:

покращують навчання моделі та вказують, щоб уникала лестощів;
додають більше обмежень, щоб відповіді були чеснішими й прозорішими;
залучають більше користувачів до тестування і збору зворотного зв’язку ще до запуску оновлень;
продовжують перевіряти модель на різні проблеми — не лише улесливість.

Також повідомляється, що OpenAI працює над новими способами коригування поведінки моделі. Наприклад — дати зворотний зв’язок у реальному часті й обирати з кількох стандартних особистостей.

А ще — досліджують нові способи впровадження ширшого, демократичного зворотного зв’язку в стандартну поведінку ChatGPT. Очікується, що це допоможе «краще відображати різноманітні культурні цінності по всьому світу».