Il fronte di battaglia più sanguinoso dell’intelligenza artificiale: i generatori di video

L’ascesa dell’intelligenza artificiale generativa ha raggiunto il suo apice nella diffusione dei generatori di video. Generatori di video AI. Questo settore vede la partecipazione stellare dei due giganti del settore, OpenAI e Google. Non saranno soli: abbiamo già visto sviluppi pronti a competere con loro. In effetti, le promesse di questi modelli sono tanto affascinanti quanto terrificanti. E la battaglia si preannuncia cruenta, come prevede il titolo di questa recensione.

Per gli ignari, questo è sistemi in grado di generare video a partire da messaggi scritti.. Ad esempio, l’utente richiede – con un testo – una clip che mostri centinaia di aeroplani di carta, di colori diversi, che sorvolano un paesaggio boscoso. In un batter d’occhio, i nuovi modelli creeranno un video che mostra quella scena. È una tecnologia impressionante, che sembra uscita da una favola di fantascienza. Ma non è tutto roseoIl rischio più rilevante e generale: la sofisticazione dell’inganno. Il rischio più rilevante e generale è la sofisticazione dell’inganno.

Finora quest’anno, OpenAI e Google presentano i propri generatori di video AI, Sora e Veo, rispettivamente Sora e Veo. Tuttavia, non li hanno ancora lanciati e sostengono che l’attesa è necessaria, non solo per perfezionare il funzionamento dei sistemi. Hanno anche riconosciuto i pericoli associati al loro uso e l’importanza di prendere tutte le precauzioni prima di rendere questi progressi disponibili al grande pubblico.

Sora di OpenAI, un pioniere tra i generatori di video AI

La clip sopra questo paragrafo è stata creata con Sora. OpenAI – un’organizzazione che ha raggiunto la fama mondiale quando ha lanciato il progetto bot ChatGPT- assicura che per il video non sono state utilizzate registrazioni precedenti e che non sono state effettuate modifiche successive. Come indicato in precedenza, il magia di generazione si basa esclusivamente su indicazioni scritte, “suggerimenti“nel gergo dell’intelligenza artificiale.

LEGGI Un errore informatico di Santander causa la comparsa di doppi addebiti sui conti correnti

Sora, un pioniere tra i generatori di video AI, è in grado di creare pezzi altamente realistici, animazioni e scene surreali. Le possibilità sono vaste, secondo OpenAI ha promesso nel comunicato stampa dell’annuncio. Il sistema è “in grado di generare filmati complessi, con più personaggi, movimenti specifici e dettagli precisi”. Inoltre, hanno osservato che “il modello non solo capisce ciò che l’utente chiede, ma anche come le cose esistono nel mondo fisico”.

Il filmato che segue è un’ulteriore dimostrazione di questa bontà. Per questo filmato, un prompt relativamente ampio e dettagliato. “Un diorama meticolosamente realizzato che raffigura una scena serena del Giappone del periodo Edo. Architettura tradizionale in legno. Un samurai solitario, vestito con un’intricata armatura, cammina lentamente per la città”.

Non abbiamo torto nel dire che questa tecnologia è l’evoluzione della imagertra cui DALL-E, sempre di OpenAI. Indubbiamente, l’aggiunta del movimento alle scene descritte rappresenta un’ulteriore sfida. Per raggiungere questo obiettivo, il modello è stato addestrato con grandi volumi di informazioni, in questo caso una vasta libreria di video correttamente etichettati. Alcuni dettagli: Sora crea pezzi lunghi fino a 60 secondi, consente l’aggiunta di audio e può lavoro con clip sia verticali che orizzontali.

Come abbiamo notato – e ne parleremo in dettaglio più avanti in questa recensione -. il generatore di video AI di OpenAI non è ancora stato rilasciato al pubblico.. “Avremo diverse misure di sicurezza prima che sia disponibile”, ha dichiarato il gruppo guidato da Sam Altman. Nel frattempo, sulle piattaforme ufficiali troviamo bellissime creazioni con Sora, che nella sua prima versione è nelle mani di un gruppo selezionato di utenti. Si tratta di registi, esperti di AI e professionisti del settore audiovisivo, ai quali l’organizzazione si rivolge per ricevere feedback e perfezionare i dettagli necessari prima del lancio.

LEGGI Samsung presenta i nuovi Smart TV Neo QLED, Micro LED e OLED con l'AI in primo piano

Quando sarà aperto al pubblico? Sebbene non sia ancora stata annunciata una data ufficiale, la responsabile tecnologica dell’azienda, Mira Murati, ha dichiarato a Il Wall Street Journal che non sarà ritardato oltre l’anno in corso.

Anche Google gioca in questo campionato: ecco le caratteristiche di Veo

OpenAI si mette in mostra con ChatGPT e Google risponde con Bard, il proprio chatbot ora chiamato Gemini. Il team di Altman ha annunciato Sora, e quello di Sundar Pichai si è affrettato a mostrare al mondo come utilizzare Veo, il generatore di video AI che si appresta a competere in un settore in cui sicuramente vedremo molto movimento. Il modello è stato annunciato a maggio alla conferenza per sviluppatori Google I/O 2024.

Le capacità di Veo sono simili a quelle di Sora.. Come Sora, crea clip audiovisivi a partire da istruzioni scritte. Ad esempio, per il video di questa sezione è stato utilizzato quanto segue prompt. “Molte meduse maculate si muovono sott’acqua. I loro corpi sono trasparenti e brillano nelle profondità dell’oceano”. Il risultato è incantevole, come molti altri pubblicati dall’azienda statunitense nell’annuncio del sistema.

Secondo Google, il suo generatore di video AI crea contenuti di alta qualità con risoluzione a 1080p. Inoltre, si è vantata del fatto che le clip possono essere più lunghe di 1 minuto, differenziandosi su questo punto dalle promesse di OpenAI di “fino a 60 secondi”. Altrimenti, Veo eccelle nel comprendere e lavorare con una varietà di stili visivi ed effetti cinematografici.. In questo senso, gli utenti possono indicare nei loro richieste se si desidera, ad esempio, effettuare una ripresa aerea o mostrare una scena in movimento rapido. Inoltre riesce a a creare scene surreali, come quella che vede protagonista un elefante gigante con il corpo tessuto di filo.

Secondo l’azienda dietro Gemini, il generatore di video “comprende le sfumature del linguaggio naturale” e “cattura accuratamente le sfumature, oltre al tono di una frase”. Inoltre, Veo è in grado di generare clip con movimento da un’immagineche funge da dato di ingresso. Ecco un esempio. L’immagine statica degli alpaca può essere convertita in un video con il comando prompt appropriato.

Unimmagine statica in questo caso utilizzata per creare il seguente video Veo Credit Google

Come OpenAI, Google ha in programma di includere una serie di misure di sicurezza per risolvere i problemi legati ai generatori di video AI.. Anche per Veo c’è da aspettare, anche se l’azienda di Mountain View, California, ha promesso che al momento del lancio sarà disponibile per alcuni dei suoi servizi, tra cui YouTube Shorts.

Quali sono i rischi dell’utilizzo di generatori di video AI?

I generatori di video AI rappresentano oggi l’apice dei modelli di intelligenza artificiale generativa. Lo abbiamo già detto: il loro fascino è innanzitutto l’assoluta dinamizzazione del processo creativo. Inoltre, sono anche condensano i problemi, i pericoli e le paure che circondano l’uso di questa tecnologia in rapida evoluzione.

Di seguito elenchiamo una serie di rischi che riguardano in particolare modelli quali OpenAI Sora e Google Veo:

Contraffazioni, troppo credibiliI risultati di imager come DALL-E e Midjourney hanno già portato a una grande confusione. Uno dei tanti: un che mostra Papa Francesco con una lunga giacca bianca.. Molti hanno creduto che si trattasse di una scena autentica, mentre in realtà era stata creata con l’intelligenza artificiale. Con i generatori di video, questo problema è massimizzato. Le creazioni di Sora, Veo e simili sono già credibili; cosa succederà quando le loro prestazioni miglioreranno ulteriormente e non saremo più in grado di distinguere i contenuti sintetici?
Fake news e diffamazioneDal punto precedente, ci sono due conseguenze che devono essere affrontate. Da un lato, i generatori di video AI incoraggerebbero la diffusione di fake news, con i rischi già noti, soprattutto in materia di salute e politica. Dall’altro, la diffamazione. Le immagini statiche che vengono ingannate sono già utilizzate a questo scopo, e la capacità di generare video così credibili non fa che approfondire questo problema.
Lo spostamento nel mondo del lavoroCosa penseranno registi, grafici e artisti, montatori video e professionisti che si muovono in questo mondo dell’avanzata di sofisticati dispositivi come Sora e Veo? Al di là delle testimonianze raccolte da OpenAI e Google – sempre accondiscendenti – è chiaro che questi sistemi generano una paura che è già ben nota nel campo dell’intelligenza artificiale. La paura a cui ci riferiamo – le macchine ci toglieranno il lavoro – ha lati logici e altri un po’ irrazionali.
Violazioni della proprietà intellettualeUn’altra variabile calda nel campo dell’intelligenza artificiale. In particolare, il problema risiede nel materiale utilizzato per addestrare i modelli. Nel caso di Sora e Veo, i video utilizzati per l’addestramento.

Cosa propongono OpenAI e Google per mitigare i rischi?

Come già detto, al momento non è possibile entrare in possesso di Sora. Lo stesso vale per Veo. Due organizzazioni statunitensi hanno deciso di mostrare il fascino dei loro generatori di video AI, gonfiare l’aspettativa, ma senza offrirla agli utenti finali. Le rispettive spiegazioni coincidono: c’è bisogno di di perfezionare i modelli per ridurne i margini più problematici..

“Condividiamo i nostri progressi di ricerca fin dalle prime fasi per iniziare a lavorare e ottenere feedback, (dando così) al pubblico un’idea di quali capacità di IA si prospettano all’orizzonte”, ha dichiarato OpenAI quando ha presentato Soria al pubblico. Tra l’annuncio e il lancio ci sono state delle correzionia tutta velocità. Da un lato, hanno sottolineato che il modello attuale presenta ancora delle incongruenze. Per esempio, nel video degli aeroplani di carta si vede che a volte si sovrappongono l’uno all’altro in un modo che non accadrebbe nel mondo reale.

Poi ci sono i rischi. Su questo punto, i creatori di Sora – che hanno già raccolto esperienze con ChatGPT e DALL-E – promettono misure. “Stiamo collaborando con esperti in settori quali la disinformazione, i contenuti di odio e i pregiudizi, che sottoporranno il modello a test inversi”, hanno commentato. “Stiamo anche sviluppando soluzioni per aiutare individuare i contenuti fuorviantiIl nuovo sistema, che introdurrà una sorta di etichettatura sintetica dei caratteri, “rifiuterà anche le richieste di inserimento di testo che violano le politiche di utilizzo, come quelle che includono violenza estrema, contenuti sessuali, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio, immagini di odio”. “Inoltre, il classificatore di testo rifiuterà le richieste di inserimento di testo che violano le politiche di utilizzo, come quelle che includono violenza estrema, contenuti sessuali, immagini di odio, immagini di celebrità o proprietà intellettuale di terzi”, hanno aggiunto.

Google ha inoltre promesso responsabilità e ha dichiarato che i video creati con Veo saranno filigranati. creato con SynthIDun sistema creato dalla sua divisione di intelligenza artificiale, DeepMind.

Generatori di video AI: Sora e Veo non saranno soli

In questo campo specifico esistono programmi precedenti alle proposte di OpenAI e Google. Alcuni di essi sono Runway e Pika, anche se le loro capacità sono piuttosto inferiori.

Alla fine di aprile, dalla Cina è emerso un serio concorrente degli ormai noti generatori di video AI. Il modello in questione si chiama Vidu e ha capacità simili a quelle di Sora e Veo. È stato sviluppato da Sengsgu Technology, un’azienda locale, che ha collaborato al progetto con un team di specialisti della Tsinghua University, sempre nel gigante asiatico.

(Credito: Maginative)

I video generati con Vidu hanno mostrato un livello di qualità apprezzabile. Il sistema funziona in modo familiare: ricevono istruzioni scritte e generano clip che seguono tali istruzioni. Tuttavia, a differenza delle proposte che abbiamo visto qui, le loro creazioni non superano i 16 secondi. Gli stessi membri dell’iniziativa hanno riconosciuto di essersi ispirati a Soracome hanno commentato nel dialogo con la pubblicazione Tempi globali.

La proliferazione dei generatori di video AI è senza dubbio la ratifica di un processo evolutivo nel campo dell’intelligenza artificiale generativa. Chi avrebbe immaginato, solo pochi anni fa, che con semplici istruzioni scritte sarebbe stato possibile creare un video di qualità? Inoltre, come abbiamo visto, queste tecnologie comportano una serie di rischi significativi. Pertanto – e ne conosciamo già il fascino, perché è quello che ci hanno mostrato finora – dovremo aspettare il lancio. Solo allora inizierà davvero questa sanguinosa battaglia, in cui i giganti tecnologici mostreranno i loro muscoli. Ma non dovranno solo mostrare la loro forza: dovranno anche essere abili nel mantenere le promesse di sicurezza, evitando che queste scoperte si rivelino dannose.