01.05.2026 10:56
Просмотров: 160

Системная проблема современного обучения моделей искусственного интеллекта - гоблины, гремлины и прочая нечисть

Системная проблема современного обучения моделей искусственного интеллекта - гоблины, гремлины и прочая нечисть

OpenAI обнаружила, что их модели искусственного интеллекта, начиная с ChatGPT-5.1, все чаще упоминают гоблинов, гремлинов и прочую нечисть в метафорах и вне контекста. (https://openai.com/index/where-the-goblins-came-from/)

После запуска GPT-5.1 частота слова goblin в переписках выросла на 175%, а gremlin — на 52%, однако поначалу это не выглядело серьезной проблемой и скорее казалось забавным бзиком.

Все изменилось с выходом GPT-5.4, когда аномалия приобрела совсем уж очевидный масштаб и сотрудники начали массово сообщать о странном поведении модели.

Расследование показало, что корень проблемы лежал в обучении под личность nerdy (задрот), одну из пользовательских настроек стиля общения.

Система вознаграждений, призванная поощрять игривый и причудливый стиль ответов, случайно давала особенно высокие оценки именно тем ответам, где фигурировали сказочные существа.

Несмотря на то что nerdy составлял лишь 2,5% всех ответов ChatGPT, на него приходилось 66,7% всех упоминаний гоблинов, а в рамках этой личности частота слова goblin между GPT-5.2 и GPT-5.4 выросла на фантастические 3881%.

Дальше сработал классический петлевой механизм модели: поощренные примеры попадали в наборы данных для последующего дообучения моделей, модель все увереннее воспроизводила паттерн, и он начал просачиваться даже в ответы без активного профиля общения.

Так, в обучающих данных GPT-5.5, помимо гоблинов и гремлинов, обнаружились еноты, тролли, огры и голуби.

OpenAI отключила личность nerdy в марте, почистила обучающие данные и убрала соответствующий сигнал вознаграждения, однако GPT-5.5 успел начать обучение до того, как нашли причину, поэтому для него временно добавили инструкцию в системный промпт, подавляющую эту странную тягу к нечисти и зверью.

Эта история примечательна не самими гоблинами, а тем, как наглядно она демонстрирует системную проблему современного обучения моделей искусственного интеллекта.

Даже небольшой перекос в функции вознаграждения способен породить устойчивое поведение, которое со временем генерализуется далеко за пределы исходного контекста.

Джерело: https://t.me/yigal_levin/96047

Новости портала «Весь Харьков»


Темы: США, ші

Июнь
Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          
 
Архив новостей

Ми рекомендуємо

  • Рощинская — доставка воды в Харькове на сайте vodar.in.ua.

Юридичне забезпечення порталу

Адвокат
СМОРОДИНСЬКИЙ
Віктор Семенович