Gli abbiamo fatto giocare a scacchi e sono diventati avversari imbattibili; gli abbiamo fatto leggere i nostri testi e hanno iniziato a scrivere; hanno anche imparato a dipingere e a ritoccare fotografie. Qualcuno ha forse dubitato che l’intelligenza artificiale non sarebbe stata in grado di fare lo stesso con discorsi e musica?
La divisione di ricerca di Google ha presentato AudioLM (carta), un sistema di quadro per generare audio di alta qualità che rimanga costante nel lungo periodo. Per farlo, parte da una registrazione di pochi secondi ed è in grado di prolungarla in modo naturale e coerente. In particolare Questo risultato viene raggiunto senza essere addestrata con trascrizioni o annotazioni precedenti. nonostante il discorso generato sia sintatticamente plausibile e semanticamente plausibile. Inoltre, mantiene l’identità e la prosodia del parlante al punto che l’ascoltatore non è in grado di discernere quale parte dell’audio sia originale e quale sia stata generata da un’intelligenza artificiale.
Gli esempi di questa intelligenza artificiale sono eclatanti. Non solo è in grado di replicare l’articolazione, l’intonazione, il timbro e l’intensità, ma è anche in grado di inserire il suono del respiro dell’oratore e di formare frasi significative. Se non parte da un audio di studio, ma da uno con rumore di fondo, AudioLM lo replica per dargli continuità. Altri campioni possono essere ascoltati sul sito web di AudioLM.
Un’intelligenza artificiale addestrata alla semantica e all’acustica.
Come si fa? La generazione di audio o musica non è una novità. Ma il modo che i ricercatori di Google hanno escogitato per affrontare il problema è. Da ogni audio vengono estratti marcatori semantici per codificare una struttura di alto livello (fonemi, lessico, semantica…) e marcatori acustici (identità del parlante, qualità della registrazione, rumore di fondo…). Con questi dati già elaborati e comprensibili per l’intelligenza artificiale, AudioML inizia il suo lavoro stabilendo una gerarchia in cui prevede innanzitutto i marcatori semanticiche vengono poi utilizzati come vincoli per prevedere i marcatori acustici. Questi ultimi vengono poi riutilizzati alla fine per convertire i bit in qualcosa di udibile dagli esseri umani.
Questa separazione semantica dell’acustica e della sua gerarchia non è solo una pratica vantaggiosa per l’addestramento dei modelli linguistici per la generazione del parlato. Secondo i ricercatori, è anche più efficace per continuare a comporre il pianoforte, come mostrano sul loro sito web. È molto meglio dei modelli addestrati solo con marcatori acustici.
L’aspetto più significativo dell’intelligenza artificiale di AudioLM non è che sia in grado di continuare discorsi e melodie, ma che possa fare tutto contemporaneamente. Si tratta, quindi, di, un unico modello linguistico che può essere utilizzato per convertire il testo in parlato. – un robot potrebbe leggere interi libri e dare tregua ai doppiatori professionisti, oppure per rendere qualsiasi dispositivo in grado di comunicare con le persone utilizzando una voce familiare. Questa idea è già stata esplorata da Amazon, che ha pensato di utilizzare la voce dei propri cari nei suoi altoparlanti Alexa.
Eccitante o pericoloso?
Programmi come Dalle-2 e Stable Diffusion sono strumenti eccezionali che consentono di abbozzare idee o generare risorse creative in pochi secondi, come l’illustrazione utilizzata sulla copertina di questo articolo. L’audio può essere ancora più importante e si può immaginare che la voce di un annunciatore venga utilizzata su richiesta da varie aziende. I film potevano anche essere doppiati con le voci degli attori deceduti. Il lettore potrebbe chiedersi se questa possibilità, per quanto eccitante, non possa essere pericolosa.. Qualsiasi registrazione audio potrebbe essere manipolata per scopi politici, legali o giudiziari. Google sostiene che, mentre gli esseri umani hanno difficoltà a individuare ciò che è umano e ciò che è intelligenza artificiale, un computer può rilevare se l’audio è organico o meno. In altre parole, non è solo la macchina che può sostituircima per valorizzare il suo lavoro, sarà indispensabile avere un’altra macchina.
Al momento AudioLM non è aperto al pubblico, ma è solo un modello linguistico che può essere integrato in diversi progetti. Ma questa dimostrazione, insieme al programma musicale Jukebox di OpenAI, dimostra quanto rapidamente stiamo entrando in un nuovo mondo in cui nessuno saprà, o non gli importerà, se quella fotografia è stata scattata da una persona o se all’altro capo del telefono c’è una persona o una voce fuori campo generata artificialmente in tempo reale.