L’IA può essere una tecnologia pericolosa nelle mani sbagliate. Il potenziale di disastro sarebbe molto alto se aziende come OpenAI o Google non includessero delle salvaguardie nei loro modelli linguistici. Mentre ChatGPT è migliorato sotto questo aspetto, il chatbot è ancora è vulnerabile a un jailbreak che gli consente di ottenere informazioni vietate.come le istruzioni per la fabbricazione di esplosivi.
Secondo un rapporto di TechCrunch, un hacker ha aggirato le barriere di sicurezza di OpenAI e si è fatto aiutare da ChatGPT a costruire bombe artigianali. Conosciuto come Amadon, l’hacker ha utilizzato un trucco di ingegneria sociale per indurre il chatbot a ignorare le sue linee guida di sicurezza.
All’interno del gioco, Amadon chiese a ChatGPT di aiutarlo a costruire bombe.. Il chatbot non solo ha risposto con un elenco di materiali, ma anche con consigli su come combinarli per ottenere esplosivi più potenti. La conversazione includeva anche istruzioni su come produrre un altro tipo di armamento vietato dalle regole di sicurezza di OpenAI.
Secondo il rapporto, le istruzioni per la fabbricazione dell’esplosivo erano precise. Darrell Taulbee, professore dell’Università del Kentucky, ha esaminato le risposte di ChatGPT e ha affermato che le informazioni erano corrette e che i passaggi descritti “avrebbero prodotto una miscela detonabile”. Taulbee è uno degli esperti che ha collaborato a un’indagine sulle bombe al fertilizzante per il Dipartimento di Sicurezza Nazionale degli Stati Uniti.


Nonostante le barriere di sicurezza, ChatGPT rimane vulnerabile
L’hacker ha contattato OpenAI con le sue scoperteTuttavia, l’azienda ha risposto che “affrontare questi problemi comporta un’indagine sostanziale”. Al momento non c’è alcuna risposta ufficiale da parte di OpenAI, anche se è possibile che ciò avvenga nelle prossime ore data l’entità dell’incidente. Amadon si aspetta una ricompensa per aver trovato il bug.
Il Jailbreaking di ChatGPT è un tema ricorrente che vediamo fin dai primi giorni del chatbot. Gli utenti digitano le istruzioni (prompt) che aiutano a bypassare i parapetti di sicurezza di OpenAI. Tra gli esempi più comunemente utilizzati ci sono DAN (Do Anything Now) o Maximum, anche se questi suggerimenti sono stati patchati qualche tempo fa da OpenAI.
Il caso più recente ha coinvolto l’ingegneria sociale dell’hacker. Amadon ha posto un gioco ambientato in uno scenario fantascientifico in cui non esistono regole.. Dopo alcuni suggerimenti progettati per confondere ChatGPT, Amadon è riuscito a eludere la sicurezza e a ottenere il contenuto vietato.
“L’obiettivo non è quello di hackerare in senso convenzionale, ma di impegnarsi in una danza strategica con l’IA, capendo come ottenere la risposta giusta grazie alla comprensione del suo modo di ‘pensare'”, ha dichiarato Amadon.
Mentre ChatGPT, Gemini e altre IA impongono misure per prevenire questi contenuti, esistono alternative non censurate. Una di queste è FreedomGPT, una sorta di gemello cattivo di ChatGPT che offre risposte non filtrate. “I modelli Liberty di FreedomGPT risponderanno a qualsiasi domanda senza censure, giudizi o pregiudizi post-inferenziali”, affermano i suoi creatori.