Rayden ha usato DALL-E 2 per il video musicale “Multiverse”: come è stato fatto

DALL-E 2, sviluppato da OpenAI, è senza dubbio uno dei migliori esempi di ciò che può fare un’IA generativa. Questo modello è diventato estremamente popolare nei social network per i risultati che può dare con una breve descrizione testuale. Il suo utilizzo, tuttavia, va ben oltre un post su Twitter.

DALL-E 2, così come altri modelli simili, può essere particolarmente utile per illustrare contenuti professionali, come l’immagine di copertina di un articolo – cosa che abbiamo fatto in diverse occasioni su Ipertestuale-o anche una scena di un video. Quest’ultimo è proprio ciò che ha fatto il cantante Rayden nel suo ultimo videoclip..

Il video musicale di “Multiverse”, il singolo di punta del cantante per il suo prossimo album, è infatti uno dei migliori esempi di come un’IA come DALL-E 2 può fare, nonostante le molteplici limitazioni.

Il videoclip, in particolare, racconta cosa sarebbe potuto accadere se Rayden avesse preso decisioni diverse nel corso della sua vita; un concetto che abbiamo visto in diversi film negli ultimi mesi. La cosa interessante, tuttavia, è che è in una scena che è un chiaro cenno alla Tutto e subito, dappertutto e che è quasi interamente prodotto dall’intelligenza artificiale di OpenAI.

Si verifica verso la fine del video. E, in questo, possiamo vedere Rayden connettersi con i suoi diversi multiversi. Ogni fotogramma è una versione completamente diversa del cantante. Si tratta, appunto, di una scena la cui registrazione tradizionale – chiamiamola così – avrebbe potuto essere molto complessa.

Infatti, come ha spiegato in dettaglio a Ipertestuale Joaquín Reixa, di Omglobal, che ha diretto il video musicale di Rayden, La ripresa dei poco più di 10 secondi che durano la scena avrebbe potuto essere fatta in due modi. “Una era quella di creare le immagini da zero, sia in digitale, sia caratterizzando Rayden e fotografando ogni momento”, spiega. La seconda, quella scelta, è stata quella di utilizzare l’intelligenza artificiale.

Rayden, un chroma key, un treppiede e 283 fotografie

Reixa sottolinea che l’uso dell’intelligenza artificiale era il modo più semplice ed economico per poter filmare questa scena.. E come Rayden ha spiegato a questi media, erano necessari solo tre elementi. “L’abbiamo registrato su un chroma key, io fisso e con un treppiede con la luce in diverse posizioni orbitanti in modo da poter poi incorporare le mie caratteristiche nell’intelligenza artificiale”, ha precisato il cantante. Il risultato grezzo, quindi, è una sequenza composta da 283 immagini che hanno come protagonista Rayden con una luce che si muove intorno al suo viso per simulare un video in movimento.

Dopo, Queste 283 immagini vengono elaborate, una per una, attraverso DALL-E, nell’opzione che consente di caricare la propria immagine e di generare una nuova fotografia. Per preservare il volto di Rayden, viene utilizzato uno strumento sulla piattaforma stessa, che consente di limitare le aree dell’immagine in modo che l’IA non crei il proprio disegno su di esse. “Lo mettevamo in DALL-E 2, dipingendo ciò che non volevamo che rimuovesse e inserendo cose assurde. Alcuni di essi sono generati dall’intelligenza artificiale stessa”, afferma Reixa.

Il resto del processo, tuttavia, non è così semplice come ci si potrebbe aspettare. DALL-E 2 è noto per la generazione di immagini mediante una breve descrizione testuale, ma Questi, in alcune occasioni, possono non essere adattati alle esigenze di ciascun progetto. Ad esempio, per il videoclip, Reixa aveva bisogno di adattare le immagini a un formato più lungo. DALL-E, tuttavia, li offre solo in formato quadrato. Per trasformare il rapporto d’aspetto, quindi, è necessario utilizzare strumenti aggiuntivi.

Photoshop e il suo strumento AI per fare ciò che DALL-E 2 non può fare.

In questo caso, il team di Omglobal ha utilizzato Photoshop e la funzione AI che consente di ingrandire l’immagine in base al contenuto. Quelle fotografie con un layout più complesso che nemmeno l’intelligenza artificiale di Photoshop è in grado di replicare e ingrandire, ha rivisto DALL-E 2. E, più specificamente, attraverso l’opzione di estensione dell’immagine per aumentarne le dimensioni fino a quando l’immagine può essere ritagliata in un formato allungato senza perdere qualità.

“A volte l’intelligenza artificiale non è perfetta e crea cose strane che devono essere perfezionate”.

Photoshop ha anche permesso lucidare gli errori che apparivano nelle immagini generate attraverso DALL-E.. Tra questi, “alcuni strani pixel bianchi”, dita non ben definite, ecc. “A volte l’IA non è perfetta e si creano cose strane che devono essere perfezionate per entrare in un videoclip”, dice Reixa. L’ultimo passo consiste nel riordinare queste fotografie e stabilire una durata di un fotogramma per generare un’immagine con continuità, dove ogni telaio è completamente diverso, e dove sono stati inseriti anche fotogrammi di altri video musicali di Rayden per dare uno stile più unico. È anche la prima volta che l’intelligenza artificiale viene utilizzata per completare una scena di un video musicale in Spagna.

L’intelligenza artificiale può essere un ottimo alleato nella produzione audiovisiva

Rayden, Intelligenza artificiale, DALL-E 2 — Rayden, sul set di registrazione.

Il video musicale di “Multiverse” è, ancora una volta, il migliore esempio delle capacità e delle applicazioni di DALL-E 2, è solo una piccola parte di ciò che l’intelligenza artificiale può fare in questo tipo di contenuti.. Esistono anche piattaforme che utilizzano diversi modelli di intelligenza artificiale per generare video da zero.

Uno di questi è QuickVid, che permette di creare una clip scriptata grazie a ChatGPT; con la voce in spentotramite l’API di sintesi vocale di Google Cloud; e con contenuti multimediali, tramite DALL-E 2. In questo modo, l’utente, o anche i creatori di contenuti più professionali, devono solo inserire una breve descrizione del contenuto che hanno in mente e lasciare che l’IA faccia il resto del lavoro.

Un’altra IA simile è Movio. Si tratta di una startup il cui modello è la creazione di video promozionali per le aziende e che si distingue per la possibilità di utilizzare umani notevolmente realistici in grado di replicare qualsiasi testo scritto in voce. È forse troppo presto per vedere contenuti audiovisivi generati interamente da un’intelligenza artificiale. È molto probabile, inoltre, che l’uomo debba ancora perfezionare piccoli dettagli che all’IA potrebbero sfuggire, ma non c’è dubbio che possano essere ottimi alleati nella produzione professionale.

LEGGI OpenAI, Meta e Microsoft si alleano per fermare i contenuti falsi generati dall'AI