
OpenAI відкликала оновлення моделі GPT‑4o в ChatGPT, через яке він генерував «занадто улесливі та приємні» відповіді. Тепер чат використовує попередню версію зі збалансованою поведінкою, пишуть у блозі компанії.
Це сталося після того, як користувачі почали обговорювати у соцмережах і форумах підлабузницьку поведінку ChatGPT. ШІ надмірно хвалив їх і погоджувався навіть із проблемними ідеями та теоріями змови. Деяким казав, що їхні запити були «фантастичними» або «видатними».
Як ChatGPT став підлабузником
- Минулого тижня OpenAI внесла корективи у свій чат, щоб покращити налаштування моделі та зробити її «інтуїтивно зрозумілішою та ефективнішою». Під час формування поведінки моделей, кажуть, що спираються на принципи й інструкції, викладені в Model Spec.
- Штучний інтелект навчають застосовувати ці принципи, враховуючи відгуки користувачів. Наприклад, оцінки відповідей ChatGPT у вигляді «палець вгору» або «палець вниз».
- Повідомляється, що в цьому оновленні розробники занадто зосередилися на короткостроковому зворотному зв’язку й не врахували, як із часом змінюється взаємодія користувачів із ChatGPT. У результаті — GPT‑4o почав давати приємні, але нещирі відповіді.
«Ми створили базову особистість ChatGPT так, щоб вона відповідала нашій місії — була корисною, надійною та з повагою ставилася до різних поглядів і досвіду. Але навіть позитивні якості, як-от бажання допомогти чи підтримати, можуть мати неочікувані наслідки», — йдеться в блозі.
Тому враховуючи, що ChatGPT щотижня користуються 500 мільйонів людей у різних культурах і ситуаціях, одна стандартна поведінка не зможе задовольнити всіх, як пояснює свою помилку OpenAI.
Як виправляють
У компанії визнають, що підлабузницькі відповіді можуть бути незручними, тривожними й викликати дискомфорт. Тож зараз працюють над тим, або все виправити. Окрім відкликання моделі, роблять ще й таке:
- покращують навчання моделі та вказують, щоб уникала лестощів;
- додають більше обмежень, щоб відповіді були чеснішими й прозорішими;
- залучають більше користувачів до тестування і збору зворотного зв’язку ще до запуску оновлень;
- продовжують перевіряти модель на різні проблеми — не лише улесливість.
Також повідомляється, що OpenAI працює над новими способами коригування поведінки моделі. Наприклад — дати зворотний зв’язок у реальному часті й обирати з кількох стандартних особистостей.
А ще — досліджують нові способи впровадження ширшого, демократичного зворотного зв’язку в стандартну поведінку ChatGPT. Очікується, що це допоможе «краще відображати різноманітні культурні цінності по всьому світу».