I modelli di intelligenza artificiale generativa, in grado di creare senza l’assistenza diretta dell’utente, offrono vantaggi evidenti. Anche i più strenui nemici dell’automazione dovrebbero ammettere che la nuova IA ha il suo fascino e le sue virtù. Parallelamente, va detto che questi progressi hanno aggravato i rischi nell’arena digitale, tra cui la difficoltà di riconoscere la legittimità dei contenuti. Le falsificazioni audio, una delle varianti della deepfakessono un’illustrazione vivida di questo problema.
Fondamentalmente, sono voci emulate da software specializzati, con risultati estremamente realistici.. Un primo approccio al formato rivela un aspetto che, a priori, sembra paradossale. Si dà il caso che questi falsi contengono meno stimoli rispetto alle immagini e ai video generati con strumenti di intelligenza artificiale. Ma questa austerità li rende più pericolosi. È logico: con meno informazioni, identificare la trappola diventa più complesso.
In questa nota di Ipertestuale esamineremo più da vicino le falsificazioni audio. Nel fare ciò, esamineremo le differenze con quelle deepfakes che aggiungono elementi visivi, ad esempio foto e video ingannati dall’intelligenza artificiale. Inoltre, passeremo in rassegna casi famosi che destano preoccupazione per il loro potenziale di diffusione della disinformazione, di diffamazione di terzi e di esecuzione di attacchi informatici. Infine, esamineremo il usi proficui del formato, nonché lo stigma legato alle contraffazioni..
Falsificazioni audio: l’inganno è più efficace quando è austero?
Vediamo due esempi che serviranno a comprendere meglio la complessa relazione tra l’inganno e la varietà dei formati audio. deepfakes. Da un lato, a gennaio un che emulava la voce del Presidente degli Stati Uniti Joe Biden.. La registrazione – diffusa tramite telefonate – aveva lo scopo di indurre i cittadini del New Hampshire a non votare alle primarie in vista delle elezioni di novembre. In questo contesto, le autorità hanno chiesto agli elettori di “ignorare completamente il contenuto di questo messaggio”, che è stato generato da una softwarecome riportato da Stampa associata.
Un altro recente caso problematico ha coinvolto una delle più grandi star della musica americana. Cosa è successo? Qualche settimana fa, numerose foto di Taylor Swift nuda sono apparse sui social network.. In realtà, non si trattava di foto legittime, ma di immagini ritoccate digitalmente. L’escalation è stata tale che X (Twitter) ha temporaneamente cancellato le ricerche con il nome del creatore di Il tour delle epocheper fermare la diffamazione.
Esaminati questi deepfakes Nelle notizie recenti, riprendiamo l’analisi. I falsi audio sono più convincenti di quelli che aggiungono informazioni visive? È possibile, anche se la risposta non è definitiva. In un video, ad esempio, il ritocco e la “cucitura” sono talvolta evidenti. Anche i movimenti che sembrano innaturali e che quindi mettono in allarme gli utenti più attenti. D’altra parte, il volume più basso degli stimoli nelle contraffazioni audio potrebbe essere una variabile che favorisce l’inganno. E ci sono sempre più sistemi efficaci per crearli. In questo settore, aziende come Meta, ByteDance – proprietaria di TikTok – e OpenAI hanno già i loro software di clonazione vocale. Pur essendo entusiaste di questi sviluppi, riconoscono anche i rischi.
Anche i giganti tecnologici clonano le voci: il caso di OpenAI
All’inizio di aprile, l’organizzazione che sta dietro a ChatGPT ha svelato i dettagli di Motore vocale. Si tratta di un’intelligenza artificiale che clona voci con campioni di soli 15 secondi. In altre parole, genera audio sintetico con una quantità minima di dati per l’addestramento. Se ci concentrassimo sulle paure, piuttosto che sugli incantesimi, saremmo davvero terrorizzati. Immaginate che un malintenzionato copi il vostro modo di parlare e poi invii messaggi audio ai vostri contatti via WhatsApp.
OpenAI ha dichiarato che Voice Engine è in grado di creare voci “emotive e realistiche”. Ma perché non è disponibile, visto che è così efficiente e che, inoltre, è uno sviluppo iniziato nel 2022? Un altro paradosso, solo apparente: funziona così bene che è pericoloso. Per questo motivo, al momento, il gruppo guidato da Sam Altman lo offre solo a un piccolo numero di tester. E vietano di impersonare la voce di persone o personaggi reali, senza i relativi diritti legali.
In un comunicato di presentazioneOpenAI ha riconosciuto che la sua tecnologia di clonazione vocale presenta “seri rischi, particolarmente importanti in un anno di elezioni”. Ha dichiarato che sta lavorando con esperti statunitensi e internazionali per ridurre al minimo i rischi del modello.
L’attenzione per la contraffazione audio è grande. Per i progressi nel campo e, come abbiamo osservato, anche per i rischi che comporta. Inoltre, OpenAI non è l’unico pesce grosso nell’oceano tecnologico lavorando su modelli di questa specie. All’inizio di quest’anno, ByteDance ha rivelato i dettagli di StreamVoiceil proprio clonatore vocale creato insieme ai ricercatori della Northwestern Polytechnical University, un istituto pubblico cinese di scienza e ingegneria.
L’azienda asiatica ha spiegato che la principale novità del suo sistema è la capacità di copiatura vocale in tempo reale. In particolare, il sistema impiega 124 millisecondi per produrre risultati e quindi potrebbe essere utilizzato durante le trasmissioni in diretta. In un documento accademico, i ricercatori hanno anche riconosciuto i potenziali rischi, menzionando la disinformazione e le truffe telefoniche. Per questo motivo, come il motore vocale di OpenAI, StreamVoice non è ancora generalmente disponibile.
Meta (ex Facebook) ha parlato di questi stessi problemi a metà dello scorso anno, annunciando i progressi compiuti su Voiceboxla propria tecnologia per creare voci sintetiche Quanto vi preoccupano le contraffazioni audio? L’azienda californiana ha commentato: “Ci sono molti usi interessanti per i modelli generativi del parlato”. Ma ha anche fatto riferimento ai rischi: “A causa del potenziale uso improprio, per il momento non renderemo pubblico il codice o il modello Voicebox (…) Sebbene riteniamo importante essere aperti con la comunità e condividere la nostra ricerca, c’è un equilibrio da raggiungere tra apertura e responsabilità”, hanno avvertito.
Ancora una volta, l’impersonificazione e il furto di identità sono al centro delle preoccupazioni. Immaginate il grado di realismo che i truffatori potrebbero raggiungere con phishingse solo questi modelli fossero disponibili! In uno scenario del genere, ci sarebbero due possibilità: che i criminali informatici diventino definitivamente padroni del mondo; oppure che si viva in una società in cui nessuno creda ai contenuti che circolano sulle piattaforme digitali.
Un grande problema: siamo in grado di riconoscere la deepfakes?
La confusione associata all’impiego di modelli generativi trascende le falsificazioni audio. “Photoshop“il noto verbo inventato durante l’era tecnologica per riferirsi alle immagini ritoccate, moltiplica la sua portata con i nuovi strumenti di intelligenza artificiale. Le foto e i video creati dall’intelligenza artificiale possono confondere anche gli occhi più allenati.. Un esempio, tra i tanti: un scena che mostrava Papa Francesco con una giacca bianca è diventata virale molto prima che tutti sapessimo che era un falso.
Riconoscere il deepfakes non è semplice, ha concluso un studio pubblicato l’anno scorso da Censuswide per Jumio, un’azienda di sicurezza online. Secondo gli specialisti consultati in quell’indagine, le creazioni sintetiche “hanno raggiunto un livello di sofisticazione che le rende impercettibili a occhio nudo”.. La confusione aumenta, hanno sottolineato, perché le persone sono troppo fiduciose nella loro capacità di individuare le contraffazioni.
“Il deepfakes stanno diventando sempre più difficili da individuare”.hanno osservato i ricercatori di Jumio. Inoltre, hanno ricordato che mentre il ritocco delle immagini di persone pubbliche può essere più rapidamente distinguibile, l’inganno può essere più efficace nelle “truffe di basso profilo”. Questo non è banale, in un mondo sempre più connesso e, parallelamente, con un numero crescente di tentativi di frode finanziaria.
Falsi profondi Audio Deepfakes: i 5 rischi principali e le possibili misure per individuarli
I principali problemi associati alla contraffazione audio includono i seguenti:
- Attacchi di phishing -phishing più sofisticato.
- Alterazione dolosa di contenuti e proliferazione di informazioni errate, che possono anche avere un alto grado di realismo e quindi generare confusione.
- Violazione della privacy e accesso improprio ai conti bancari a comando vocale.
- Disturbo dei mercati finanziari attraverso fake news convincente.
- Interferenza nei processi elettorali.
Quali sono le proposte per promuovere l’individuazione di deepfakes audio? Su questo punto, gli aspetti principali sono due. Da un lato, l’inclusione di indicatori codificati nel contenuto sintetico, che ne rendono esplicito il carattere artificiale. Si tratta di una proposta simile a quella dei watermark su un’immagine. Dall’altro lato, il cosiddetto “rilevamento della vita”. In sostanza, si tratta di un metodo che riconosce se il discorso registrato è stato pronunciato da persone reali, esaminando modelli come il ritmo del discorso, le intonazioni e la respirazione. Si dà il caso che queste variabili siano più difficili da imitare per gli attuali modelli di intelligenza artificiale.
Il “lato positivo” dei falsi audio: cosa c’è dietro la cattiva stampa?
Il termine “contraffazione” è di per sé peggiorativo. Quando si analizzano i vantaggi di questo tipo di contenuti generati con modelli di intelligenza artificiale, sarebbe bene usare altre parole. Dire “voci sintetiche” è meno minaccioso.. In quest’ordine, in un sessione di domande e risposte pubblicato sul sito ufficiale del Massachusetts Institute of Technology (MIT), discute la vantaggi della clonazione vocaleuna tecnica che viene citata come “tecnologia emergente”.
Nauman Dawalatabad, ricercatore di questo istituto specializzato in IA, sottolinea che uno dei problemi è che, sempre più spesso, chiunque non abbia una formazione tecnica può generare questi audio. Ma quali sono i vantaggi? Quelli più evidenti sono legati al loro utilizzo per traduzioni e doppiaggi automatici di contenuti audiovisivi..
“Oltre il regno della creatività, dove le tecnologie di conversione vocale consentono una flessibilità senza precedenti, il deepfakes gli audio deepfakes sono promettenti nei settori della sanità e dell’istruzione“, commenta Dawalatabad. “L’anonimizzazione delle voci dei pazienti e dei medici nei colloqui cognitivi sulla sanità, ad esempio, facilita la condivisione dei dati medici per la ricerca globale, garantendo al contempo la privacy”, spiega Dawalatabad.
Inoltre, l’esperto fa riferimento all’uso di queste tecnologie per il restauro della voce. In questi casi, rappresenta una speranza per le persone con disabilità vocaliper esempio, la sclerosi laterale amiotrofica (SLA) o il linguaggio disartrico, migliorando le capacità di comunicazione e la qualità della vita. “Nonostante i rischi intrinseci, il potenziale dei modelli di IA audio generativa di rivoluzionare l’assistenza sanitaria, l’intrattenimento, l’istruzione e altro ancora è una testimonianza della traiettoria positiva di questo campo di ricerca”, conclude Dawalatabad.