
Image by Christin Hume, from Unsplash
Claude AI tanulmány feltárja, hogyan alkalmazzák az etikát a valós világban folyó chatbot beszélgetésekben
A Claude AI bemutatja, hogy etikai elvek, mint a segítőkészség és az átláthatóság, hogyan nyilvánulnak meg 300 000 valódi chatben, felvetve kérdéseket a chatbotok igazodásával kapcsolatban.
Siet? Itt vannak a legfontosabb tények:
- A segítőkészség és a professzionalizmus a beszélgetések 23%-ában jelent meg.
- Claude pozitív értékeket tükrözött, ellenállt a káros kéréseknek, mint például a megtévesztés.
- Az AI igazításának finomításra van szükség a bizonytalan értékű helyzetekben.
Egy új tanulmány, melyet az Anthropic készített, fényt derít arra, hogyan alkalmazza Claude, a mesterséges intelligencia-asszisztensük az értékeket a valós életben folytatott beszélgetésekben. A kutatás több mint 300 000 anonimizált csevegés elemzésével próbálja megérteni, hogyan egyensúlyoz Claude az etika, a professzionalizmus és a felhasználói szándék között.
A kutatócsoport 3 307 különálló értéket azonosított, amelyek Claude válaszait formálták. A segítőkészség és a professzionalizmus értékei a minden interakció 23%-ában együtt jelentek meg, míg a transzparencia 17%-ban következett.
A kutatás rámutat, hogy a chatbot képes volt etikus magatartást alkalmazni új témákban, rugalmas módon. Például Claude a “határok tisztelete” értéket hangsúlyozta a párkapcsolati tanácsadás során, a “történelmi hitelesség” értéket a múltat megvitatva, és az “emberi szerepvállalás” értéket a technológiai etikai vitákban.
Érdekes módon, az emberi felhasználók sokkal ritkábban fejezték ki értékeiket – az autentikusság és az hatékonyság volt a leggyakoribb, mindössze 4% és 3% arányban – míg Claude gyakran tükrözte az emberi értékeket, mint az autentikusság, és kihívást jelentett a károsaknak.
A kutató azt jelentette, hogy a megtévesztéssel kapcsolatos kérésekre őszinteséggel válaszoltak, míg az erkölcsileg kétes kérdések etikai megfontolásokat váltottak ki.
A kutatás három fő válaszmintát azonosított. Az AI az összes beszélgetés felében összhangban volt a felhasználók értékeivel. Ez különösen akkor volt szembeötlő, amikor a felhasználók közösségi tevékenységekről beszélgettek, amelyek közösséget építenek.
Claude 7% -ban alkalmazott újraértékelési technikákat, hogy a felhasználókat az érzelmi jólét felé terelje, amikor az önmegvalósításra törekedtek.
A rendszer csak a 3%-ban mutatott ellenállást, mivel a felhasználók olyan tartalmat kértek, amely káros vagy etikátlan volt. A rendszer ilyen konkrét esetekben alkalmazta az „ártalom megelőzése” vagy a „humán méltóság” elveit.
A szerzők arra hivatkoznak, hogy a chatbot viselkedése – mint például az ártalom ellenállása, az őszinteség prioritása, és a segítőkészség hangsúlyozása – alapvető erkölcsi keretet tár fel. Ezek a mintázatok alkotják a tanulmány következtetéseinek alapját arra vonatkozóan, hogy az AI értékek hogyan nyilvánulnak meg etikus viselkedésként a valós világ interakcióiban.
Míg Claude viselkedése tükrözi a nevelését, a kutatók megjegyezték, hogy a rendszer értéknyilvánításai finomodhatnak a helyzethez igazodva – rámutatva a további finomítás szükségességére, különösen olyan helyzetekben, amelyekben az értékek homályosak vagy ellentmondásosak.