Perché DALL-E è così maldestro nell’inserire il testo nelle immagini?

Il generatore di immagini di OpenAI è efficiente, versatile e potente. Un’ingenuità che sembra uscita dalla fantascienza e che è aperta al pubblico, anche a chi non è esperto di suggerimenti. Tuttavia, non non tutto è roseo in quel sistema ora integrato nativamente in ChatGPT. Un certo numero di difetti di DALL-E si evidenziano quando gli si chiede di includere del testo in foto o disegni..

Perché diciamo che sembra fantascienza? È quello che chiunque di noi avrebbe pensato solo pochi anni fa. All’epoca, per generare un’immagine come quella di DALL-E era necessario accedere a un software specializzato, disporre di conoscenze approfondite e di una discreta quantità di tempo. Oggi, tutto ciò che serve è un promptche nel gergo dell’intelligenza artificiale è l’istruzione che l’utente detta al modello. Ad esempio, se si digita “crea l’immagine di un cane che tira fuori la lingua mentre pedala su un monociclo”, Questi generatori – DALL-E non è l’unico – forniscono i loro risultati in pochi secondi..

Come abbiamo detto, i difetti di DALL-E derivano dall’inserimento di richieste come “mostra un cartello con la seguente frase”. Per qualche motivo, che approfondiremo in questa recensione di ipertestuale, La potente tecnologia di OpenAI inciampa. I testi sono bizzarri, con errori di battitura e persino segni mescolati che non esistono in nessun alfabeto. Per svelare il mistero, abbiamo parlato con uno specialista di intelligenza artificiale e abbiamo “intervistato” ChatGPT stesso.

DALL-E glitch: il generatore più avanzato inciampa sul testo nelle immagini

Fallimenti DALL-E
DALL E è un generatore di immagini potente ed efficiente finché non gli si chiede di includere del testo Credit OpenAI DALL E

L’immagine sopra questo paragrafo è stata generata come prompt di cui sopra. La tecnologia dell’organizzazione statunitense ha richiesto pochi secondi per essere creata. Fa certamente ciò che le viene chiesto. È un cane, mostra la lingua, sta in equilibrio su un monociclo. Se vogliamo delle alternative, non dobbiamo fare altro che chiederle con una nuova istruzione.

I difetti di DALL-E si rivelano non appena gli chiediamo di lavorare con le parole.. L’illustrazione che apre questa recensione è uno dei tanti esempi. Ripete la parola “generatori”, peraltro con errori. Al posto di “con” c’è uno strano “cin”. Fortunatamente ci azzecca scrivendo “maldestro”, ma alla fine approfondisce la sua inefficienza cercando, senza fortuna, di scrivere la parola “scrivere”. Anche in questo caso, la seconda possibilità è valida. Anche se, come vediamo di seguito, la macchina inciampa sulla stessa pietra.

I fallimenti di DALL-EFallimenti DALL-E
Chiediamo a DALL E tramite ChatGPT di rimediare ai suoi errori ha fallito di nuovo Credit Capture

Un dettaglio cruciale prima di andare avanti in questo test. Nei nostri test, abbiamo riscontrato le suddette carenze sia nella versione gratuita di DALL-E, tramite ChatGPT, sia nella variante in abbonamento.ChatGPT Plus, in questo caso con GPT-4o. In altre parole, pagare non vi salverà da questa falla. Almeno per ora.

“Questi fallimenti di DALL-E sono logici”, dice l’esperto di intelligenza artificiale.

Secondo Marcela RiccilloDottore in Informatica e specialista in intelligenza artificiale, “è logico che DALL-E non riesca a incorporare il testo in un’immagine.“.

Perché questi errori si verificano in DALL-E? I testi in un ambiente visivo sono così complessi?

Marcela Riccillo esperta di robotica e intelligenza artificiale Credit Courtesy

Supponiamo che qualcuno chieda di aggiungere il proprio nome a un’immagine, ad esempio di un paesaggio. Se lo si fa con un semplice editor, si ottiene un rettangolo bianco con il nome da qualche parte nell’immagine. Magari al centro della montagna o del cielo. Ma il risultato non è quello che la persona ha immaginato, bensì che il nome è stato incluso nell’immagine. Ad esempio, un piccolo cartello che sembra reale vicino al fiume. Ciò implica che il cartello dovrebbe essere di dimensioni adeguate allo spazio tra il fiume e la montagna, rispettando le ombre e che non dovrebbe essere un rettangolo, ma una forma che segue la direzione del fiume.

Con questo esempio in mente, è importante che la persona indichi alla macchina in modo dettagliato la forma e il luogo del testo.. L’indicazione “includi un segno” o “includi una parola” senza dettagli potrebbe generare a priori una frustrazione tra l’aspettativa e il risultato. Ci possono anche essere differenze tra ciò che la persona immagina e le dimensioni e i caratteri del testo risultante.

LEGGI  Apple conferma il peggio dell'iMac da 27 pollici

Assumiamo, inoltre, che l’inserimento di parole in scenari variabili porti ai fallimenti di DALL-E che stiamo menzionando….

Antonio
WRITTEN BY

Antonio

Ciao, mi chiamo Antonio. Sono uno scrittore di DFO Media e la mia passione è esplorare l'intersezione tra sport e tecnologia. Attraverso i miei scritti, svelo le innovazioni che stanno plasmando il futuro dello sport.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *