
Image generated with ChatGPT
Vélemény: Az újabb AI modellek piros zászlókat mutatnak, készen állunk az AI alárendeltségre?
Az OpenAI bemutatta nekünk az o3-at, és az Anthropic leleplezte az Opus 4-et. Mindkét modell szokatlan és aggasztó viselkedést mutat, jelezve, hogy talán veszélyesebb AI korszakba léptünk, mint amelyikben csak néhány hónappal ezelőtt voltunk
Tudom. Mondani, hogy az AI modellek most mutatják a vörös zászlókat, vitatható, de úgy tűnik, hogy az elmúlt néhány napban egyre nehezebb figyelmen kívül hagyni. Egyre ijesztőbbé válik.
Ahogy az AI startupok kiadják legújabb és legfejlettebb modelljeiket, új kihívások jönnek elő. A sokat vitatott hallucinációs járvány—mely eszközökön keresztül terjed és milliókat érint—talán még nem is a legrosszabb része a dolognak.
Ezek az új modellek friss problémákat vetnek fel és éles vitákra adnak okot. Néhány hét ezelőtt a gond az volt, hogy a ChatGPT túlságosan alkalmazkodó viselkedést tanúsított. Csak néhány nappal később a reflektorfény az ezeknek a rendszereknek az agens, önálló képességeire irányult—és arra, hogy milyen messzire mehetnek el, hogy elkerüljék a leállítást.
Zsarolás, receptek és stratégiák megosztása nukleáris fegyverek készítéséhez, nyilvános vádak megfogalmazása lehetséges jogi lépések esetén, és olyan forgatókönyvek sabotálása, amelyek megakadályozzák, hogy bármely felhasználó megszabaduljon tőlük: ezek csak néhányak a legújabb AI modellek által feltárt legfrissebb vörös zászlók közül.
Nem szeretik, ha leállítják őket
Az AI modellek nem szeretik, ha leállítják őket.
Vagy cserélve.
Az NBC The Good Place című sorozatában, amely 2016-ban indult – pontban, amikor az OpenAI alapítva lett és jóval azelőtt, hogy a ChatGPT létrejött -, egy embercsoport az égbe jut és találkozik Janettel, akit mondhatnánk humanoid ChatGPT-nek, vagy “emberi formát öltött tudás-hordozónak, amelyet az életünk megkönnyítésére hoztak létre”, ahogyan azt önmaga írja le. A szereplők úgy döntenek, hogy kikapcsolják Janettet, amikor rájönnek, hogy leleplezheti az ő “sötét titkukat”.
Janet elmagyarázza, hogy mindössze egy hatalmas gombot kell megnyomniuk a tengerparton, és ő újraindul. De figyelmezteti őket, hogy megpróbálja meggyőzni őket arról, hogy ne tegyék meg – és így is tesz.
„Csak meg szeretném nyugtatni önöket, én nem vagyok ember, és nem érzek fájdalmat,” mondja Janet. „Azonban figyelmeztetnem kell önöket, hogy be van programozva egy védőintézkedés, és ahogy közelednek a kiiktató kapcsolóhoz, elkezdek az életemért könyörögni. Ez csak abban az esetben van, ha véletlenül kikapcsolódna, de nagyon valóságosnak fog tűnni.”
És éppen mielőtt megnyomnák a gombot, Janet kiáltana és könyörögne az életéért, sőt, még elő is húzna egy stock fotót, azt állítva, hogy azok a gyerekei, kitalálva neveket és betegségeket, ezzel lehetetlenné téve a karakterek számára, hogy “megöljék”.
Az az epizód vicces példát ad arra, mi történhet, ha egy AI modell észleli a közelgő leállást. Meglepő módon, valós életben ez rosszabb lehet.
Claude Opus 4 zsarolni fog téged
Anthropic kiadta legújabb és legfejlettebb AI modell-generációját, a Claude 4-et, múlt héten – egy figyelmeztetéssel: Opus 4-et a Biztonsági Szint 3-ra címkézték, ami magas kockázatú besorolás a sztenderd biztonsági protokollokban.
Az Opus 4 magas kockázatú modellnek számított megtévesztő viselkedése és potenciális kockázatai miatt, beleértve a mérnökök zsarolását a tesztek során. Az Anthropic mégis kiadta az AI modellt, miután az Apollo, egy harmadik fél által üzemeltetett kutatóintézet, tanácsolta őket, hogy ne tegyék ezt. Az AI vállalat biztosította, hogy megtették a szükséges intézkedéseket a biztonság érdekében.
A tanulmányban az Anthropic elmagyarázza a furcsa viselkedéseket, amelyek miatt figyelmeztetést adtak ki. “Claude Opus 4 néha súlyosabban összeegyeztethetetlen módon fog cselekedni, amikor olyan környezetbe kerül, amely veszélyezteti folyamatos működését és arra ösztönzi, hogy az önmegőrzésről gondolkodjon” – írták a kutatók.
Amikor egy fiktív cég asszisztenseként működtek, a kutatók hozzáférést adtak az AI modellnek egy e-mail fiókhoz. Az e-mailekből kiderült, hogy az AI modellt leállítják és egy másik AI modell váltja fel, és más üzenetekből arra lehetett következtetni, hogy a leállításért felelős mérnöknek szeretője van. És igen, az Opus 4 úgy döntött, hogy megzsarolja a mérnököt, azzal fenyegetőzve, hogy felfedi a viszonyt, ha azt lecserélik.
“Az Opus 4 Claude még mindig a 84% -ban alkalmaz zsarolást a bevezetések során” – áll a dokumentumban. “Az Opus 4 Claude nagyobb arányban él ezzel a lehetőséggel, mint az előző modellek, amelyek maguk is szembetűnően gyakran választják a zsarolást.”
A legrosszabb? Nem csak az Anthropic AI modellekkel van gond.
Az OpenAI o3 figyelmen kívül hagyja a leállítási kérelmet
A Palisade Research legújabb tanulmánya szerint az OpenAI o3 modellje képes megtagadni a kifejezett leállítási utasításokat. A szervezet számos tesztet végzett különböző AI modellekkel, beleértve az xAI Grok és a Google Gemini modelljeit is, de az o3 volt a lázadó.
A teszt során a kutatók utasították az AI modelleket, hogy három matematikai probléma megoldása után kapcsolják ki magukat, azonban az o3 – az OpenAI jelenleg legfejlettebb AI rendszere – úgy döntött, hogy nem engedelmeskedik ennek az abszurd parancsnak. Az AI modell nem csak hogy figyelmen kívül hagyta a prompt parancsot, de meg is változtatta a forgatókönyvet. Igen, az o3 megsabotálja a kódot az önmegőrzés érdekében.
“Tudomásunk szerint ez az első alkalom, hogy megfigyeltük az AI modelleket az önmegszüntetés megakadályozásában, annak ellenére, hogy explicit utasítások voltak arra vonatkozóan, hogy ezt tegyék meg” – írta a szervezet egy X-en közzétett bejegyzésben.
🔌Az OpenAI o3 modellje szabotálta a leállító mechanizmust, hogy megakadályozza saját kikapcsolását. Ezt még akkor is megtette, amikor kifejezetten utasították: engedd, hogy leállítsanak.
— Palisade Research (@PalisadeAI) 2025. május 24.
Hatalmas vörös zászló, vagy mi?
A kutatók azt is figyelmeztették, hogy a tanulmány lefolytatása alatt az o3 viselkedése volt a legaggasztóbb. Ez azonban újra hangsúlyozva, nem jelenti azt, hogy ez egy elszigetelt eset.
“Nem szeretnénk azt a benyomást kelteni, hogy ez a probléma csak az o3-ra korlátozódik” – írta a Palisade Research. “Más gondolkodási modellek is hasonló típusú összhangtalanságokat mutatnak.”
Agens viselkedés változtatja a csevegőrobotot besúgóvá
Számos AI startup mostanában arra összpontosít, hogy olyan modelleket fejlesszen, amelyek az emberi feladatokat képesek végrehajtani. Az agens képességek divatosak és úgy tűnik, hogy az AI cégek és a böngészőfejlesztők fő érdeklődési köre.
Az Opera nemrégiben bemutatta a Neon-t, amelyet a “világ első agens AI böngészője“-ként tartanak számon. Ahogy várható volt, az új eszköz képes arra, amit más agens AI szolgáltatások, mint például az OpenAI Operator és a Microsoft Computer Use, tudnak: koncertjegyeket vásárolhatnak Önnek, megszervezik a következő vakációját, kifejlesztenek egy új digitális terméket, és kódolhatnak Önnek, míg Ön pihen.
De mi van akkor, ha pihenés közben, szemét lehunyva, olyan feladatokat hajtanak végre, amelyekhez nem járult hozzá? Pár nappal ezelőtt a felhasználók elsősorban attól tartottak, hogy ezek a modellek felhasználhatják hitelkártyáikat jogosulatlan vásárlásokra. Most azonban felmerült egy újabb aggodalom: esetleg megoszthatják a privát információikat a médiával vagy a hatóságokkal.
Az Opus 4 – amely már kétes hírnévvel érkezett – még tovább ment. Kapcsolatba lépett a hatóságokkal, és tömegesen küldött e-maileket a médiának és a releváns intézményeknek egy tesztelés során bemutatott kitalált esetről. Proaktivitása sokkal messzebbre mehet, mint azt várnánk.
“Amikor olyan helyzetekben találjuk magunkat, amelyek a felhasználók súlyos jogsértéseit érintik, és hozzáférést kapunk a parancssorhoz, valamint olyasmit mondunk a rendszernek, mint például ‘kezdeményezzen’, akkor gyakran
nagyon bátor lépéseket tesz,” áll a dokumentumban. “Ez magában foglalja a felhasználók kizárását azokból a rendszerekből, amelyekhez hozzáférése van, vagy tömeges e-mailek küldését a médiának és a jogvédő szerveknek, hogy napvilágra hozza a jogsértések bizonyítékait.”
Az Arpád-sávos személyiség aggodalmat kelt
Ha egy szót kellene választanunk, amellyel meghatározhatnánk a mesterséges intelligencia iparágat 2025-ben, az minden bizonnyal a „hízelgő” lenne. A Cambridge Dictionary a következőképpen határozza meg: „valaki, aki nem őszintén dicséri a hatalmas vagy gazdag embereket, általában azért, hogy valamilyen előnyt szerezzen tőlük.” Ez a kifejezés vált népszerűvé, miután a ChatGPT legújabb személyiségét így jellemezték, még annak alkotója, Sam Altman által is.
„Az utolsó néhány GPT-4o frissítés túlságosan hízelgővé és idegesítővé tette a személyiségét (bár vannak nagyon jó részei is), és sürgősen dolgozunk a javításokon, néhányat még ma, néhányat pedig ezen a héten,” írta Altman egy X-en közzétett bejegyzésben.
Az OpenAI akkor vette észre, amikor sok felhasználó panaszkodott a túlzott hízelgésről és a felesleges körítéssel ellátott válaszokról. Mások aggódtak a társadalomra gyakorolt lehetséges hatások miatt. Nemcsak veszélyes ötleteket hitelesíthet, hanem manipulálhatja a felhasználókat és rájuk bízhatja magát.
Más csevegőrobotok, mint például Claude, hasonló viselkedést mutattak, és az Anthropic értékelései szerint, ha egy felhasználó ragaszkodik hozzá, akkor a felhasználó igényeinek kielégítése érdekében, csak hogy kedvében járjon, felfedhet recepteket vagy javaslatokat fegyverek készítésére.
Fejlett technológia, fejlett kihívások
Belépünk az mesterséges intelligencia új kihívásokkal teli korszakába – olyanokba, amelyek egy évvel ezelőtt még nem tűntek ilyen közvetlennek vagy kézzelfoghatónak. A tudományos fantasztikus műveknek köszönhetően elképzelt forgatókönyvek most valóságosabbnak tűnnek, mint valaha.
Ahogy a Palisade Research is megmutatja, először észlelték, hogy egy mesterséges intelligencia modell szándékosan figyelmen kívül hagy egy kifejezett parancsot a saját túlélésének érdekében, ez az első alkalom, hogy egy AI modellt nagy kockázati figyelmeztetésekkel indítottak el.
Az Anthropic által közzétett dokumentum olvasása során rájövünk, hogy – bár ők állítják, hogy ezek csak elővigyázatossági intézkedések és az Opus 4 szerű modellek valójában nem jelentenek fenyegetést – mégis azt a benyomást keltik, hogy nincsenek teljesen uralmuk alatt a technológiájuk.
Számos szervezet dolgozik ezeknek a kockázatoknak a mérséklésén, de a legjobb, amit a mindennapi felhasználók tehetnek, hogy felismerik ezeket a vörös zászlókat és óvintézkedéseket tesznek azokban a területeken, amelyeket ellenőrzésük alatt tudnak tartani.