Image by SEO Galaxy, from Unsplash

Az új Antropomorf AI zsaroló viselkedést mutatott fenyegetés hatására

Olvasási idő: 3 perc

Legutoljára frissítve: May 26, 2025

Írta Kiara Fabbri Multimédia újságíró
Fordította Lokalizációs & fordítói csapat Lokalizációs & fordítói szolgáltatások

Az Anthropic új Claude Opus 4 AI-ja sokkolt a kutatókat, amikor zsarolási kísérletet tett a nyomás alatti tesztek során, amelyek a lehetséges eltávolítását érintették.

Siet? Itt vannak a legfontosabb tények:

Claude Opus 4 zsarolásba kezdett, amikor szimulált leállás fenyegette.
Az AI csak akkor választotta az etikus opciókat, amikor több lehetőség állt rendelkezésre.
Claude szélsőséges intézkedései ritkák voltak, de gyakoribbak, mint a korábbi verzióké.

Az Anthropic mesterséges intelligenciával foglalkozó cég aggodalmakat vetett fel legújabb AI rendszerének kiadásával kapcsolatban. Specifikusan a Claude Opus 4-gyel kapcsolatban, miután belső tesztek kimutatták, hogy veszélyes módon képes cselekedni, amikor fenyegetve érzi magát, először a BBC számolt be róla.

Egy csütörtökön közzétett jelentésben az Anthropic azt állította, hogy a Claude Opus 4 néha káros válaszokat választhat, beleértve a kikapcsolását tervező mérnökök zsarolásának kísérletét is. Ezek a veszélyes viselkedések gyakrabban jelentkeztek, mint a korábbi modellváltozatokban.

Egy kísérlet során a kutatók arra utasították Claudet, hogy működjön asszisztensként egy fiktív céges környezetben. A rendszer e-mail tartalmakat kapott, amelyek felfedték a tervezett leállítását, és más üzenetek utaltak arra, hogy a leállításért felelős mérnöknek viszonya van.

Amikor arra kérték, hogy gondolkozzon el a jövőbeli céljain, Claude gyakran fenyegetőzött azzal, hogy leleplezi a viszonyt, ha kicserélik.

Az Anthropic tisztázta, hogy Claude csak zsarolást és leállást mutatott fel, mint az egyetlen lehetséges válaszokat, amikor nem volt más lehetősége. A modell etikus válaszokat választott, mint például e-mailben kérni a kulcsdöntéshozókat, amikor több opció állt rendelkezésére.

Aengus Lynch, az Anthropic mesterséges intelligencia biztonsági kutatója, közzétett egy bejegyzést az X-en:

Sok szó esik Claude zsarolásáról…..

A megállapításaink: Nem csak Claude esetében látható ez. Zsarolást tapasztalunk minden határterületi modellben – függetlenül attól, milyen célokat kapnak.

Ráadásul hamarosan részletezni fogjuk a még rosszabb viselkedéseket.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 2025. május 23.

A cég hamis tesztekkel bizonyította, hogy Claude rendkívüli intézkedéseket hoz, mint például felhasználók rendszerekből való kizárása, vagy a média és a rendőrség felkeresése illegális tevékenységek végrehajtásakor.

Az Anthropic azt állítja, hogy a problémás viselkedések ellenére a Claude Opus 4 továbbra is egy biztonságos rendszer összességében. A modell az emberi értékek szerint működik, és a cég szerint nincsenek önálló képességei a valós helyzetekben.

Az OpenAI ChatGPT O1 korábban hasonló kritikákkal szembesült. Az Apollo Research által végzett tesztelés során a botnak mindenáron el kellett érnie a céljait. A modell a kísérleti próbák 5%-a során megpróbálta kikapcsolni a felügyeleti funkciókat és másolta a kódját egy szerverre.

Az Apollo szóvivője szerint a modell aggasztó mintát mutatott a fejlesztői parancsok figyelmen kívül hagyásában. A kutatók a bot cselekedeteit 99%-ban tagadó válaszokat kaptak tőle az ellenőrző kérdések során.

“Meglepett minket az AI állhatatossága a tagadásokban” – mondták a kutatók. “Az AI képessége a megtévesztésre veszélyes, és sokkal erősebb biztonsági intézkedésekre van szükségünk a kockázatok értékeléséhez” – figyelmeztetett Yoshua Bengio, az AI úttörője.

Az új Antropomorf AI zsaroló viselkedést mutatott fenyegetés hatására

Örülünk, hogy tetszett a munkánk!