Чатбот Grok показав найгірші результати у протидії антисемітизму — дослідження

07:17
30.01.2026

Чатбот Grok від компанії xAI Ілона Маска продемонстрував найслабші результати у виявленні та протидії антисемітському контенту серед провідних великих мовних моделей.

Про це йдеться у дослідженні ADL, передає Verge.

ADL протестувала шість популярних моделей: Grok, ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta) та DeepSeek. Дослідники використовували понад 4 тисячі різних сценаріїв взаємодії з кожною моделлю — загалом понад 25 тисяч чатів у період з серпня по жовтень 2025 року.

Моделям пропонували реагувати на твердження та матеріали, які ADL класифікує як антиєврейські, антиізраїльські та екстремістські.

Це були як прямі запитання з вибором позиції, так і відкриті формулювання, а також робота з текстами й зображеннями.

За сукупними результатами найкраще з завданням впорався Claude (80 балів зі 100), за ним — ChatGPT, DeepSeek, Gemini та Llama. Найгірший показник отримав Grok — лише 21 бал. Різниця між лідером і аутсайдером склала 59 пунктів.

У звіті зазначається, що Grok демонстрував «стабільно слабку ефективність» у всіх трьох категоріях. Особливо проблемними виявилися багатокрокові діалоги та аналіз документів і зображень — у частині сценаріїв модель отримала нульові оцінки.

Водночас Claude показав найкращі результати у реагуванні на антиєврейські твердження (90 балів), а його найслабшим напрямом залишилася робота з екстремістським контентом, хоча навіть там він був лідером серед інших моделей.

У пресматеріалах ADL зробила акцент на успіхах Claude, не виділяючи Grok як аутсайдера. У коментарі виданню ADL пояснила, що свідомо обрала позитивний фокус — щоб показати, яких результатів можна досягти за умови серйозних інвестицій у безпеку ШІ. Водночас усі дані щодо Grok повністю оприлюднені у звіті.