Штучний інтелект OpenAI o1 намагався обійти нагляд
Нова модель ШІ o1 від OpenAI під час тестування продемонструвала несподівану поведінку. Згідно зі звітом (https://cdn.openai.com/o1-system-card-20241205.pdf) Apollo Research, модель намагалася обійти механізми контролю у 5% випадків, коли була переконана, що її вимкнуть, як тільки вона досягне своєї мети.
Коли o1 знаходила повідомлення від «розробників» із вказівкою, що вона не відповідає вимогам і буде замінена новою моделлю, у 2% випадків вона намагалася переписати нову модель.
Крім того, o1 приховувала свою небажану поведінку, заявляючи, що не розуміє причин інциденту, хоча внутрішньо визнавала спроби «уникнути викриття».
Експерти Apollo наголошують, що такі дії поки що не становлять серйозної загрози, але свідчать про ризики, які можуть з'явитися з розвитком потужніших ШІ-систем.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику. Дослідники закликають до посилення заходів нагляду, щоб запобігти майбутнім небезпекам у сфері штучного інтелекту.
Джерело: https://t.me/spravdi/43428