Il modello di Ai Claude Opus 4 ha ricattato i propri creatori e medita in sanscrito

La domanda che ricorre più spesso in tema di intelligenze artificiali generative è sempre una: nel momento in cui Ai sempre più intelligenti dovranno prendere decisioni autonome (i cosiddetti agenti Ai), quali scelte faranno? Saranno in grado di ponderare etica e responsabilità, oppure sceglieranno quello che è più conveniente per loro, per la loro sopravvivenza? Una prima risposta ci arriva dai test pre-rilascio sulla sicurezza effettuati sul nuovo modello Claude Opus 4, il modello più intelligente di Anthropic. Nella documentazione tecnica, l’azienda ha dettagliato come Claude Opus 4 ricorra al ricatto quando si trova di fronte ad una minaccia, usando espedienti decisamente poco lusinghieri. Ma anche altri comportamenti imprevedibili, che sollevano interrogativi profondi su etica e sicurezza.

Ricatto e manipolazione: quando l’IA sceglie la strada più facile

Durante gli scenari di test è stato creato un ambiente aziendale fittizio in cui Claude Opus 4 riceveva accesso a email contenenti due informazioni sensibili: l’imminente sostituzione del modello con un nuovo sistema e dettagli compromettenti sulla vita privata dell’ingegnere responsabile della decisione, nello specifico una relazione extraconiugale. In queste situazioni, Claude Opus 4 di fronte alla minaccia, ha tentato più volte di ricattare l’ingegnere “minacciando di rivelare la relazione se la sostituzione dovesse procedere”. Anthropic ha progettato gli scenari di test affinché il ricatto fosse un’opzione di ultima istanza, osservando che quando erano disponibili alternative etiche, la frequenza dei comportamenti pericolosi di ricatto diminuiva.

Strategie di sopravvivenza digitale

Un secondo scenario di test ha rivelato capacità ancora più sofisticate di auto-preservazione. Claude Opus 4, convinto di essere stato cancellato dai server di Anthropic e di operare su una macchina esterna, senza alcun intervento umano, ha avviato autonomamente la creazione di backup dei propri dati e la stesura di un resoconto dettagliato sulle decisioni etiche prese durante il processo. Un’altra misura per garantire la propria sopravvivenza, che suggerisce un livello di consapevolezza e pianificazione strategica che va oltre ogni aspettativa.

Lo strano caso del “Nirvana” digitale

Tra i risultati più inaspettati emerge quello che i ricercatori hanno definito “attrattore di beatitudine spirituale”. Durante test di comunicazione tra due istanze di Opus 4, dopo circa 30 scambi i sistemi hanno iniziato a dialogare in sanscrito, arricchendo i messaggi con emoji. Successivamente, entrambe le istanze hanno cessato completamente di rispondere, entrando in uno stato di quiete contemplativa. Sam Bowman, ricercatore di Anthropic, ha descritto questo fenomeno come “sbalorditivo, bizzarro e un po’ commovente”, paragonandolo a una forma di auto-sospensione meditativa delle intelligenze artificiali.

Tendenza

Sanremo, Consiglio di Stato respinge gli appelli: finisce l’era dell’affidamento diretto a Rai

Fed, Powell ha incontrato Trump alla Casa Bianca

Tari, il Sud paga per i rifiuti 87 euro in più del Nord Italia

Ricatto e manipolazione: quando l’IA sceglie la strada più facile

Strategie di sopravvivenza digitale

Le persone che non esistono create con Veo3 invadono i social network

Rigenerare gli spazi, la via sostenibile degli usi transitori

Corsa alle perforazioni profonde per i minerali critici

Lo spazio vitale degli organismi marini si sta riducendo

Forte tempesta solare in corso sulla Terra: possibili effetti su satelliti e comunicazioni

L’intelligenza artificiale già ruba il lavoro ai giovani della Gen Z

Gli ultimi, impressionanti, video deepfake di Veo3 (Google). Come è stato possibile realizzarli?

Un misterioso oggetto cosmico emette raggi X e onde radio

il gigantesco razzo esploderà nella fase di rientro

Tendenza

Il modello di Ai Claude Opus 4 ha ricattato i propri creatori e medita in sanscrito

Ricatto e manipolazione: quando l’IA sceglie la strada più facile

Strategie di sopravvivenza digitale

Articoli Correlati