Google ha approfittato dell’I/O per mostrare la sua potenza nell’IA generativa. Dopo aver presentato alcune delle nuove funzionalità di Gemini e del futuro progetto Astra, l’azienda ha ha mostrato al mondo Immagine 3, il vostro nuovo modello di generazione da testo a immagineche, secondo l’azienda, è la più alta qualità tra tutte quelle disponibili fino ad oggi.
Immagine 3, con un singolo prompt, è in grado di produrre immagini con dettagli incredibili, illuminazione realistica e meno artefatti di distrazione. È senza dubbio una delle dimostrazioni più spettacolari dell’evento, soprattutto se si considerano i problemi che l’azienda ha avuto in passato con la generazione di immagini di Gemini.
Questo nuovo modello di generazione da testo a immagine proviene da Google Deepmind e sfrutta tutta la potenza della tecnologia multimodale dell’azienda di Mountain View per generare le immagini più realistiche possibili, se è questo che l’utente desidera. Image 3 consente di generare qualsiasi tipo di immagine, tra cui cartone animato o qualsiasi altra estetica che l’utente possa immaginare. Google ha inoltre confermato che questo modello è anche il più potente quando si tratta di generare immagini con testo, come quelle utilizzate nella pubblicità.
L’immagine 3 consente la generazione di foto con linguaggio naturale
Immagine 3 utilizza l’input di testo in linguaggio naturaleed è quindi in grado di generare immagini con input semplici e descrizioni di base, ma più l’utente fornisce dettagli, meglio è. Google ha mostrato alcuni esempi durante la presentazione, che mostrano certamente il potenziale della sua tecnologia. Eccone alcuni:
- Prompt: “Una foto di un uomo con capelli corti e barba che sorride alla fotocamera. Lo sfondo è sfocato e mostra alberi ed edifici dai colori chiari”. [“Una foto de un hombre con cabello corto y barba sonriendo a la cámara. El fondo es borroso y muestra árboles y edificios en colores claros”.]


- Prompt: “Vista dall’alto, panoramica di uno splendido canyon fluviale a tre, con vista sull’acqua e sulle montagne verdi. Colori pastello”. [“Vista desde arriba, vista panorámica de un impresionante cañón del río con tres, con vistas al agua y a las montañas verdes. Colores pastel”.]


- Prompt: “Illustrazione dettagliata di un maestoso leone che ruggisce con orgoglio in una giungla da sogno, sfondo bianco viola, clipart su carta viola chiaro”. [“Ilustración detallada de un majestuoso león rugiendo con orgullo en una jungla de ensueño, fondo de arte lineal blanco púrpura, imágenes prediseñadas sobre textura de papel violeta claro”.]


Image 3 sarà disponibile da oggi per il test attraverso la suite ImageFX via Google Labs, anche se attualmente è in fase di test per gli utenti che si iscrivono.
Music AI Sandbox, uno strumento che utilizza l’intelligenza artificiale per produrre musica
Oltre alla generazione di immagini Image 3, Google ha introdotto anche Music AI Sandbox, un modello specifico per la generazione di suoni e musica. La tecnologia, sviluppata in collaborazione con YouTube, offre un nuovo approccio alla generazione musicale grazie a strumenti per la creazione di suoni da zero, per il passaggio da uno stile all’altro e molto altro ancora:
L’azienda non ha fornito molti dettagli sul funzionamento di Music AI Sandbox. Né ha fornito informazioni sull’eventuale disponibilità di test nel prossimo futuro.