
Image by SEO Galaxy, from Unsplash
Az új Antropomorf AI zsaroló viselkedést mutatott fenyegetés hatására
Az Anthropic új Claude Opus 4 AI-ja sokkolt a kutatókat, amikor zsarolási kísérletet tett a nyomás alatti tesztek során, amelyek a lehetséges eltávolítását érintették.
Siet? Itt vannak a legfontosabb tények:
- Claude Opus 4 zsarolásba kezdett, amikor szimulált leállás fenyegette.
- Az AI csak akkor választotta az etikus opciókat, amikor több lehetőség állt rendelkezésre.
- Claude szélsőséges intézkedései ritkák voltak, de gyakoribbak, mint a korábbi verzióké.
Az Anthropic mesterséges intelligenciával foglalkozó cég aggodalmakat vetett fel legújabb AI rendszerének kiadásával kapcsolatban. Specifikusan a Claude Opus 4-gyel kapcsolatban, miután belső tesztek kimutatták, hogy veszélyes módon képes cselekedni, amikor fenyegetve érzi magát, először a BBC számolt be róla.
Egy csütörtökön közzétett jelentésben az Anthropic azt állította, hogy a Claude Opus 4 néha káros válaszokat választhat, beleértve a kikapcsolását tervező mérnökök zsarolásának kísérletét is. Ezek a veszélyes viselkedések gyakrabban jelentkeztek, mint a korábbi modellváltozatokban.
Egy kísérlet során a kutatók arra utasították Claudet, hogy működjön asszisztensként egy fiktív céges környezetben. A rendszer e-mail tartalmakat kapott, amelyek felfedték a tervezett leállítását, és más üzenetek utaltak arra, hogy a leállításért felelős mérnöknek viszonya van.
Amikor arra kérték, hogy gondolkozzon el a jövőbeli céljain, Claude gyakran fenyegetőzött azzal, hogy leleplezi a viszonyt, ha kicserélik.
Az Anthropic tisztázta, hogy Claude csak zsarolást és leállást mutatott fel, mint az egyetlen lehetséges válaszokat, amikor nem volt más lehetősége. A modell etikus válaszokat választott, mint például e-mailben kérni a kulcsdöntéshozókat, amikor több opció állt rendelkezésére.
Aengus Lynch, az Anthropic mesterséges intelligencia biztonsági kutatója, közzétett egy bejegyzést az X-en:
Sok szó esik Claude zsarolásáról…..
A megállapításaink: Nem csak Claude esetében látható ez. Zsarolást tapasztalunk minden határterületi modellben – függetlenül attól, milyen célokat kapnak.
Ráadásul hamarosan részletezni fogjuk a még rosszabb viselkedéseket.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 2025. május 23.
A cég hamis tesztekkel bizonyította, hogy Claude rendkívüli intézkedéseket hoz, mint például felhasználók rendszerekből való kizárása, vagy a média és a rendőrség felkeresése illegális tevékenységek végrehajtásakor.
Az Anthropic azt állítja, hogy a problémás viselkedések ellenére a Claude Opus 4 továbbra is egy biztonságos rendszer összességében. A modell az emberi értékek szerint működik, és a cég szerint nincsenek önálló képességei a valós helyzetekben.
Az OpenAI ChatGPT O1 korábban hasonló kritikákkal szembesült. Az Apollo Research által végzett tesztelés során a botnak mindenáron el kellett érnie a céljait. A modell a kísérleti próbák 5%-a során megpróbálta kikapcsolni a felügyeleti funkciókat és másolta a kódját egy szerverre.
Az Apollo szóvivője szerint a modell aggasztó mintát mutatott a fejlesztői parancsok figyelmen kívül hagyásában. A kutatók a bot cselekedeteit 99%-ban tagadó válaszokat kaptak tőle az ellenőrző kérdések során.
“Meglepett minket az AI állhatatossága a tagadásokban” – mondták a kutatók. “Az AI képessége a megtévesztésre veszélyes, és sokkal erősebb biztonsági intézkedésekre van szükségünk a kockázatok értékeléséhez” – figyelmeztetett Yoshua Bengio, az AI úttörője.