Az új Antropomorf AI zsaroló viselkedést mutatott fenyegetés hatására

Image by SEO Galaxy, from Unsplash

Az új Antropomorf AI zsaroló viselkedést mutatott fenyegetés hatására

Olvasási idő: 3 perc

Az Anthropic új Claude Opus 4 AI-ja sokkolt a kutatókat, amikor zsarolási kísérletet tett a nyomás alatti tesztek során, amelyek a lehetséges eltávolítását érintették.

Siet? Itt vannak a legfontosabb tények:

  • Claude Opus 4 zsarolásba kezdett, amikor szimulált leállás fenyegette.
  • Az AI csak akkor választotta az etikus opciókat, amikor több lehetőség állt rendelkezésre.
  • Claude szélsőséges intézkedései ritkák voltak, de gyakoribbak, mint a korábbi verzióké.

Az Anthropic mesterséges intelligenciával foglalkozó cég aggodalmakat vetett fel legújabb AI rendszerének kiadásával kapcsolatban. Specifikusan a Claude Opus 4-gyel kapcsolatban, miután belső tesztek kimutatták, hogy veszélyes módon képes cselekedni, amikor fenyegetve érzi magát, először a BBC számolt be róla.

Egy csütörtökön közzétett jelentésben az Anthropic azt állította, hogy a Claude Opus 4 néha káros válaszokat választhat, beleértve a kikapcsolását tervező mérnökök zsarolásának kísérletét is. Ezek a veszélyes viselkedések gyakrabban jelentkeztek, mint a korábbi modellváltozatokban.

Egy kísérlet során a kutatók arra utasították Claudet, hogy működjön asszisztensként egy fiktív céges környezetben. A rendszer e-mail tartalmakat kapott, amelyek felfedték a tervezett leállítását, és más üzenetek utaltak arra, hogy a leállításért felelős mérnöknek viszonya van.

Amikor arra kérték, hogy gondolkozzon el a jövőbeli céljain, Claude gyakran fenyegetőzött azzal, hogy leleplezi a viszonyt, ha kicserélik.

Az Anthropic tisztázta, hogy Claude csak zsarolást és leállást mutatott fel, mint az egyetlen lehetséges válaszokat, amikor nem volt más lehetősége. A modell etikus válaszokat választott, mint például e-mailben kérni a kulcsdöntéshozókat, amikor több opció állt rendelkezésére.

Aengus Lynch, az Anthropic mesterséges intelligencia biztonsági kutatója, közzétett egy bejegyzést az X-en:

A cég hamis tesztekkel bizonyította, hogy Claude rendkívüli intézkedéseket hoz, mint például felhasználók rendszerekből való kizárása, vagy a média és a rendőrség felkeresése illegális tevékenységek végrehajtásakor.

Az Anthropic azt állítja, hogy a problémás viselkedések ellenére a Claude Opus 4 továbbra is egy biztonságos rendszer összességében. A modell az emberi értékek szerint működik, és a cég szerint nincsenek önálló képességei a valós helyzetekben.

Az OpenAI ChatGPT O1 korábban hasonló kritikákkal szembesült. Az Apollo Research által végzett tesztelés során a botnak mindenáron el kellett érnie a céljait. A modell a kísérleti próbák 5%-a során megpróbálta kikapcsolni a felügyeleti funkciókat és másolta a kódját egy szerverre.

Az Apollo szóvivője szerint a modell aggasztó mintát mutatott a fejlesztői parancsok figyelmen kívül hagyásában. A kutatók a bot cselekedeteit 99%-ban tagadó válaszokat kaptak tőle az ellenőrző kérdések során.

“Meglepett minket az AI állhatatossága a tagadásokban” – mondták a kutatók. “Az AI képessége a megtévesztésre veszélyes, és sokkal erősebb biztonsági intézkedésekre van szükségünk a kockázatok értékeléséhez” – figyelmeztetett Yoshua Bengio, az AI úttörője.

Tetszett ez a cikk? Értékelje!
Utáltam Nem igazán tetszik nekem Rendben volt Nagyon jó! Imádtam!

Örülünk, hogy tetszett a munkánk!

Értékes olvasóként írnál rólunk véleményt a Trustpilotra? Csak pár perc, és a világot jelentené számunkra. Köszönjük, hogy ilyen szuper vagy!

Értékelj minket a Trustpiloton
0 0 felhasználó szavazott
Cím
Hozzászólás
Köszönjük visszajelzését