Il generatore di immagini di OpenAI è efficiente, versatile e potente. Un’ingenuità che sembra uscita dalla fantascienza e che è aperta al pubblico, anche a chi non è esperto di suggerimenti. Tuttavia, non non tutto è roseo in quel sistema ora integrato nativamente in ChatGPT. Un certo numero di difetti di DALL-E si evidenziano quando gli si chiede di includere del testo in foto o disegni..
Perché diciamo che sembra fantascienza? È quello che chiunque di noi avrebbe pensato solo pochi anni fa. All’epoca, per generare un’immagine come quella di DALL-E era necessario accedere a un software specializzato, disporre di conoscenze approfondite e di una discreta quantità di tempo. Oggi, tutto ciò che serve è un promptche nel gergo dell’intelligenza artificiale è l’istruzione che l’utente detta al modello. Ad esempio, se si digita “crea l’immagine di un cane che tira fuori la lingua mentre pedala su un monociclo”, Questi generatori – DALL-E non è l’unico – forniscono i loro risultati in pochi secondi..
Come abbiamo detto, i difetti di DALL-E derivano dall’inserimento di richieste come “mostra un cartello con la seguente frase”. Per qualche motivo, che approfondiremo in questa recensione di ipertestuale, La potente tecnologia di OpenAI inciampa. I testi sono bizzarri, con errori di battitura e persino segni mescolati che non esistono in nessun alfabeto. Per svelare il mistero, abbiamo parlato con uno specialista di intelligenza artificiale e abbiamo “intervistato” ChatGPT stesso.
DALL-E glitch: il generatore più avanzato inciampa sul testo nelle immagini
L’immagine sopra questo paragrafo è stata generata come prompt di cui sopra. La tecnologia dell’organizzazione statunitense ha richiesto pochi secondi per essere creata. Fa certamente ciò che le viene chiesto. È un cane, mostra la lingua, sta in equilibrio su un monociclo. Se vogliamo delle alternative, non dobbiamo fare altro che chiederle con una nuova istruzione.
I difetti di DALL-E si rivelano non appena gli chiediamo di lavorare con le parole.. L’illustrazione che apre questa recensione è uno dei tanti esempi. Ripete la parola “generatori”, peraltro con errori. Al posto di “con” c’è uno strano “cin”. Fortunatamente ci azzecca scrivendo “maldestro”, ma alla fine approfondisce la sua inefficienza cercando, senza fortuna, di scrivere la parola “scrivere”. Anche in questo caso, la seconda possibilità è valida. Anche se, come vediamo di seguito, la macchina inciampa sulla stessa pietra.
Un dettaglio cruciale prima di andare avanti in questo test. Nei nostri test, abbiamo riscontrato le suddette carenze sia nella versione gratuita di DALL-E, tramite ChatGPT, sia nella variante in abbonamento.ChatGPT Plus, in questo caso con GPT-4o. In altre parole, pagare non vi salverà da questa falla. Almeno per ora.
“Questi fallimenti di DALL-E sono logici”, dice l’esperto di intelligenza artificiale.
Secondo Marcela RiccilloDottore in Informatica e specialista in intelligenza artificiale, “è logico che DALL-E non riesca a incorporare il testo in un’immagine.“.
Perché questi errori si verificano in DALL-E? I testi in un ambiente visivo sono così complessi?
Supponiamo che qualcuno chieda di aggiungere il proprio nome a un’immagine, ad esempio di un paesaggio. Se lo si fa con un semplice editor, si ottiene un rettangolo bianco con il nome da qualche parte nell’immagine. Magari al centro della montagna o del cielo. Ma il risultato non è quello che la persona ha immaginato, bensì che il nome è stato incluso nell’immagine. Ad esempio, un piccolo cartello che sembra reale vicino al fiume. Ciò implica che il cartello dovrebbe essere di dimensioni adeguate allo spazio tra il fiume e la montagna, rispettando le ombre e che non dovrebbe essere un rettangolo, ma una forma che segue la direzione del fiume.
Con questo esempio in mente, è importante che la persona indichi alla macchina in modo dettagliato la forma e il luogo del testo.. L’indicazione “includi un segno” o “includi una parola” senza dettagli potrebbe generare a priori una frustrazione tra l’aspettativa e il risultato. Ci possono anche essere differenze tra ciò che la persona immagina e le dimensioni e i caratteri del testo risultante.
Assumiamo, inoltre, che l’inserimento di parole in scenari variabili porti ai fallimenti di DALL-E che stiamo menzionando….
Certo. Se avete un’immagine creata con delle persone e dite alla macchina di includere un certo testo “su un braccialetto” o “su una felpa”, per esempioil sistema deve tenere conto di texture, luci e ombre dell’immagine in modo che il testo corrisponda all’immagine..
Applicazioni come DALL-E sono state addestrate con immagini e da queste “deducono” come adattare il testo alla loro posizione. I testi per strada, i cartelloni pubblicitari, i nomi delle aziende, le scritte sui camion e così via, di solito non sono completi. Alcune parti, alcune lettere, sono coperte da rami, riflessi del sole, persone che camminano. Ad esempio, nel caso della fascia da braccio, se il braccio è appoggiato su un tavolo, solo l’inizio del testo sarebbe visibile, mentre il resto sarebbe sotto la parte del braccio sul tavolo. E la felpa avrebbe delle pieghe che coprirebbero alcune delle lettere.
Questi difetti di DALL-E si spiegano quindi con il modo in cui i testi vengono riprodotti nel mondo reale, a differenza di quanto avviene, ad esempio, su un poster o in un libro?
La macchina cerca di imitare l’effetto visto nella realtà e nasconde parte del testo, lo scrive incompleto perché è stata addestrata a farlo. Inoltre, diversi sistemi di intelligenza artificiale generativa includono dettagli nella parte in primo piano dell’immagine, ma lo sfondo, quando è sfocato, è talvolta incongruo. Ad esempio, piante dove non sono previste. Anche quadrati o forme sullo sfondo che non si riesce a interpretare come sarebbero nella vita reale). Con i testi sullo sfondo accade qualcosa di simile e potrebbero diventare illeggibili.
Abbiamo “intervistato” ChatGPT per capire perché non funziona con il testo nelle immagini.
In sintonia con le spiegazioni di Riccillo, da OpenAI indicano che “il errori che si verificano durante la generazione di testo nelle immagini sono dovuti a varie ragioni, legate alla natura del modello di intelligenza artificiale e al suo addestramento”. Poiché il chatbot dell’organizzazione è un buon conversatore, gli trasmettiamo le nostre domande come se si trattasse di un’intervista con la fonte diretta.
Dimmi, ChatGPT, perché troviamo difetti in DALL-E quando gli chiediamo di includere del testo nelle immagini che genera?
DALL-E è addestrato su un set di dati che contiene sia immagini che descrizioni testuali. Tuttavia, non è specificamente ottimizzato per generare testo con precisione tipografica o grammaticale. Il suo obiettivo principale è generare immagini che corrispondano alla descrizione generale, non necessariamente scrivere un testo perfetto. In questo senso, sebbene sia in grado di comprendere e generare descrizioni visive complesse, la sua capacità di riprodurre testi accurati è limitata. Generare immagini con un testo accurato implica un livello di controllo e di dettaglio che potrebbe non rientrare nelle capacità del modello.soprattutto per quanto riguarda la tipografia e l’allineamento esatto.
Per quanto riguarda i difetti di DALL-E che lei riconosce, quanto sarebbe complesso incorporare una soluzione?
Creare un testo leggibile in un’immagine richiede un alto livello di dettaglio e di precisione dei pixel. DALL-E, in quanto generatore di immagini basato sull’intelligenza artificiale, può avere difficoltà a rendere il testo con la chiarezza e l’accuratezza necessarie, soprattutto a piccole dimensioni o con caratteri complessi. Il modello non è specificamente addestrato per compiti di progettazione grafica o per la creazione di poster accurati. Le sue capacità sono più orientate alla generazione di concetti visivi basati su descrizioni testuali. È importante sottolineare che, quando genera un’immagine, il modello effettua dei compromessi tra i vari elementi visivi. Quando cerca di includere il testo, può dare la priorità alla coerenza visiva complessiva rispetto all’accuratezza di un testo specifico.
Cosa proponete agli utenti che desiderano includere del testo nelle loro immagini, per superare queste carenze di DALL-E?
Per superare queste limitazioni, un’opzione è generare l’immagine senza testo e poi aggiungere il testo usando strumenti di modifica delle immagini.come Photoshop o GIMP, che sono specificamente progettati per gestire il testo in modo accurato. In questo modo si combinano i punti di forza di DALL-E nella generazione di immagini con le capacità precise degli strumenti di editing grafico per la manipolazione del testo.
Continuo a non capire quanto segue: perché il vostro generatore è così efficiente nel creare scene molto complesse, ma non funziona bene con il testo? Le lettere, dopo tutto, non sono un tipo di grafica?
Si noti che gli oggetti nelle immagini (come un’auto, un albero o una persona) hanno forme e strutture che DALL-E ha imparato a riconoscere e replicare grazie a una grande quantità di dati di addestramento. Queste forme sono spesso complesse e varie, il che consente al modello di generalizzare bene e di creare rappresentazioni visive accurate. Ma che dire del testo? Sebbene le lettere siano graficamente semplici, richiedono un allineamento preciso e un ordine specifico per formare parole e frasi leggibili.. Questa precisione è difficile da ottenere perché DALL-E non è specificamente ottimizzato per comprendere e riprodurre accuratamente la tipografia.
Infine, questi difetti di DALL-E sono spiegati dal modo in cui viene addestrato. Nei dati di addestramento, immagini con testo (come manifesti, pubblicità, ecc.) sono meno comuni rispetto alle immagini di oggetti e scene.. Ciò significa che il modello ha meno esempi di testo da apprendere e riprodurre con precisione.
Quando DALL-E tenta di generare un testo, piccoli errori nel posizionamento o nella dimensione delle lettere possono rendere il testo illeggibile. Questi errori non influiscono più di tanto sulla generazione di oggetti, perché gli esseri umani sono in grado di riconoscere visivamente e correggere le forme non perfette, ma il testo richiede precisione. Inoltre, il testo, soprattutto se di piccole dimensioni, può richiedere più dettagli di quelli che il modello può gestire con precisione in una risoluzione limitata.
I fallimenti di DALL-E quando si lavora con il testo: promesse di miglioramento e prospettive nel generatore di video Sora.
Quando abbiamo chiesto a ChatGPT se esiste la possibilità che questi difetti di DALL-E vengano corretti in futuro, il chatbot si è dimostrato ottimista. Da un lato, ha osservato che è probabile che sia OpenAI che altri sviluppatori di IA lavorino per migliorare questa capacità ormai ridotta. “La capacità di generare testo accurato nelle immagini è una caratteristica molto richiesta.soprattutto per le applicazioni di grafica, pubblicità e creazione di contenuti. Per questo motivo, la domanda degli utenti potrebbe spingere OpenAI a concentrare le risorse sul miglioramento di questa capacità”, ha risposto la macchina.
Inoltre, visti i rapidi progressi nel campo, non è irragionevole pensare che le prossime tecnologie permetteranno a DALL-E e ad altri suoi simili di superare gli inconvenienti del lavoro con il testo. A questo proposito, OpenAI sottolinea che, una delle chiavi sarà una formazione più specifica. Vale a dire, l’uso di insiemi di dati che includono più esempi di testo in contesti visivi diversi. Inoltre, un passo evolutivo sarà il integrazione dell’OCR -tecnologie di riconoscimento ottico dei caratteri, per convalidare e correggere i testi generati.
Oltre ai difetti di DALL-E, anche ChatGPT – anche nella sua versione a pagamento – presenta alcune limitazioni. Alla domanda se lo stesso accadrà in Sora, il generatore di video che OpenAI ha già annunciato ma che non è ancora stato lanciato, il chatbot ha ammesso di non sapere di cosa si tratti. “Non ho informazioni specifiche, perché il mio ultimo aggiornamento risale al dicembre 2023”, ha risposto. Nel frattempo, possiamo ipotizzare che Sora avrà la stessa carenza quando lavora con il testo, per le stesse ragioni addotte per DALL-E.
Gemini ha lo stesso problema
Per concludere, vale la pena notare che il difetto di DALL-E non è esclusivo di questo generatore. Anche il modello Gemini che crea le immagini presenta la stessa difficoltà, come possiamo vedere sopra questo paragrafo. Per inciso, il sistema di Google non svolge ancora questo lavoro in inglese, come abbiamo riscontrato testando la versione ad accesso gratuito.