Microsoft presenta VALL-E, un’intelligenza artificiale in grado di imitare la voce di qualsiasi persona dopo soli tre secondi di ascolto.

Microsoft punta molto su GPT-3, l’intelligenza artificiale progettata da OpenAI, per diverse applicazioni e servizi, come Bing o Word. L’azienda guidata da Satya Nadella, tuttavia, sta sviluppando anche i propri modelli. La prova di ciò è VALL-E, un’intelligenza artificiale in grado di imitare la voce di qualsiasi persona semplicemente ascoltando tre secondi di audio.

VALL-E, in particolare, è un modello linguistico per la sintesi vocale (TTS) basato su EnCodec, il codec audio di Meta, ed è molto simile ad altre IA che permettono di generare audio attraverso una breve descrizione testuale. Microsoft stessa, infatti, ha un servizio simile: Text to Speech, che consente di convertire il testo in un discorso sintetizzato. La differenza, tuttavia, è che VALL-E è in grado di analizzare la voce di una persona, e poi interpretare il suono di quella voce con diverse frasi. Tutto questo, inoltre, mantenendo l’intonazione e l’emozione dell’oratore.dice l’azienda. E può ottenere grandi risultati con soli tre secondi di voce.

In particolare, addestriamo un modello neurale di codec linguistico (chiamato VALL-E) utilizzando codici discreti derivati da un modello neurale standard di codec audio, e consideriamo il TTS come un compito di modellazione linguistica condizionale piuttosto che una regressione di segnale continuo come nei lavori precedenti.

VALL-E può essere promettente, ma anche molto pericoloso.

La nuova AI di Microsoft è in grado di replicare la voce di chiunque, e in più, può essere utilizzato con altri modelli di IA generativa. Tra questi, GPT-3. In questo modo, gli utenti possono, ad esempio, chiedere a ChatGPT di imitare la voce di un individuo specifico.

LEGGI  La partnership tra Jony Ive e OpenAI è seria: vogliono creare "l'iPhone dell'intelligenza artificiale".

L’obiettivo, quindi, è quello di poter creare discorsi vocali attraverso l’inserimento di testo. Questo, tuttavia, comporta un grosso svantaggio. Se VALL-E verrà finalmente reso disponibile al pubblico, molti potrebbero usarlo per impersonare l’identità delle persone.. Microsoft, in questo caso, precisa che “è possibile costruire un modello di rilevamento per discriminare se un clip audio è stato sintetizzato da VALL-E”.

VALL-E è solo un altro esempio di ciò che Microsoft intende fare con l’intelligenza artificiale. L’azienda fondata da Bill Gates, lo ribadiamo, è anche interessata a includere modelli di altre aziende, come il GPT di OpenAI, in alcuni dei suoi servizi. Tra questi, Bing, con l’obiettivo di offrire migliori risultati di ricerca e, in questo modo, competere con Google.

Antonio
WRITTEN BY

Antonio

Ciao, mi chiamo Antonio. Sono uno scrittore di DFO Media e la mia passione è esplorare l'intersezione tra sport e tecnologia. Attraverso i miei scritti, svelo le innovazioni che stanno plasmando il futuro dello sport.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *