Microsoft presenta VASA-1, l’intelligenza artificiale che genera avatar iperrealistici

Microsoft ha presentato un’intelligenza artificiale in grado di generare avatar iperrealistici a partire da un’immagine e da un file vocale. VASA-1 è in grado di dare vita alle fotografie aggiungendo espressioni e sincronizzando il movimento delle labbra con il clip audio. Il risultato finale è sorprendente e potrebbe rivoluzionare il modo in cui interagiamo nel mondo digitale.

Secondo i ricercatori, VESA-1 cattura l’intera gamma dell’espressione umanacompresi i movimenti naturali della testa, per generare avatar parlanti veramente credibili. Ciò è possibile separando elementi come i tratti del viso, la posizione della testa e le espressioni, consentendo un controllo dettagliato di ogni attributo e la possibilità di modificare il contenuto separatamente.

VESA-1 va oltre altri modelli di intelligenza artificiale che aggiungono l’audio a un’immagine e sincronizzano il movimento delle labbra. I ricercatori hanno creato espressioni realistiche con movimenti in uno spazio definito. Questo produce un’immagine più autentica e meno rigida.

“Consideriamo tutte le possibili dinamiche facciali, tra cui il movimento delle labbra, l’espressione (senza labbra), lo sguardo e l’ammiccamento, come un’unica variabile latente e modelliamo la loro distribuzione probabilistica in modo unificato”, affermano gli autori di Microsoft Research. La nostra modellazione olistica delle dinamiche facciali, insieme ai modelli di movimento della testa appresi congiuntamente, porta alla generazione di un’ampia gamma di comportamenti conversazionali emotivi e realistici”.

Come funziona la nuova intelligenza artificiale di Microsoft, VASA-1

Microsoft ha addestrato il suo modello con una gigantesca raccolta di video con persone che parlano. L’idea era di creare un sistema che potesse comprendere i volti e separarne i diversi aspetti.Come l’identità, l’espressione e il movimento della testa, assegnando a ciascuno di essi dei codici. Questi codici verrebbero utilizzati per creare nuovi voltiche consentirebbe di cambiare l’espressione di una persona in un video senza alterarne l’identità, o di farle annuire la testa senza alterarne il sorriso.

LEGGI Amazon annuncia Kindle Scribe con stilo e schermo su cui si può scrivere

Per ottenere questo risultato, i ricercatori hanno utilizzato un approccio 3D per catturare maggiori dettagli sul volto e sul modo in cui si muove nello spazio tridimensionale. Il modello di diffusione accetta spunti aggiuntivi, come la direzione dello sguardo principale e la distanza della testa, nonché le emozioni. Con la stessa traccia audio, VASA-1 può generare avatar felici, arrabbiati o nervosi. (con un eccesso di espressioni) che cercano di avvicinarsi al realismo.

VASA-1 può produrre video di alta qualità a una risoluzione di 512 x 512 pixel a 45 fotogrammi al secondo. I ricercatori hanno sottolineato la sua efficienza, in quanto lo strumento può essere eseguito su un computer con una GPU NVIDIA RTX 4090.

L’intelligenza artificiale di Microsoft non si limita alle fotografie reali, ma può essere applicata anche a illustrazioni o dipinti.come la Monna Lisa che canta Paparazzi. Inoltre, tutti gli esempi presentati sono stati realizzati a partire da fotografie generate con DALL-E 3 e StyleGAN2. “Stiamo esplorando le capacità visive affettive di personaggi virtuali e interattivi, senza impersonare alcuna persona nel mondo reale”, ha dichiarato la società.

Gli avatar iperrealistici potrebbero portare alla disinformazione

Uno dei pericoli latenti di questi modelli è che potrebbero essere usati per ingannare gli utenti. In risposta, Microsoft ha dichiarato che è contrario a qualsiasi applicazione negativa e ha sottolineato che non pubblicherà questo strumento finché non saranno sicuri che la loro tecnologia sarà usata in modo responsabile.

“Ci opponiamo a qualsiasi comportamento che crei contenuti ingannevoli o dannosi da parte di persone reali e siamo interessati ad applicare la nostra tecnica per far progredire il rilevamento delle contraffazioni. Ci impegniamo a sviluppare l’IA in modo responsabile, con l’obiettivo di promuovere il benessere umano”.

LEGGI WhatsApp per iPhone riceve la più grande revisione del design degli ultimi anni