I modelli di intelligenza artificiale generativa sono ora al centro della scena. In questo contesto, si parla molto degli sviluppi più noti – tra cui quelli di OpenAI e Google – e di quelli emergenti. Tuttavia, la collegamenti tra ChatGPT e umorismo non sono stati affrontati in modo approfondito. Finora.
I ricercatori dell’University of Southern California (USC), negli Stati Uniti, hanno deciso di di esaminare se il più famoso modello di intelligenza artificiale generativa sia in grado di farci ridere.. Le conclusioni dello studio sono sorprendenti. Gli scienziati hanno scoperto che, in determinati contesti, l’entità sintetica è “divertente come o più degli esseri umani”.
“Nel nostro studio su ChatGPT e umorismo, i partecipanti umani hanno valutato le barzellette prodotte dall’uomo e dall’IA, senza essere a conoscenza della loro fonte”, spiegano i ricercatori. “Le barzellette del modello OpenAI sono state giudicate ugualmente o più divertenti di quelle prodotte dall’uomo.“, affermano.
ChatGPT e umorismo: come è stato condotto lo studio?
Sebbene esistano già studi che hanno esaminato la capacità dei modelli di intelligenza artificiale di generare testi umoristiciI ricercatori dell’UCS Drew Gorenz e Norbert Schwarz hanno deciso di andare oltre. Per farlo, hanno confrontato i risultati del chatbot OpenAI con l’umorismo umano, compreso quello degli scrittori di riviste umoristiche.
Gli scienziati hanno condotto due test. Nel primo, hanno chiesto a un gruppo di adulti di generare testi umoristici. Per farlo, hanno chiesto loro di usare acronimi e di rispondere a domande che servivano da stimolo per le battute. Ad esempio, “quale risultato straordinario probabilmente non inseriresti nel tuo CV? In questa rassegna su ChatGPT e umorismo, hanno anche invitato i partecipanti a elaborare un’opinione onesta su come canta un amico, che tra l’altro canta in modo molto stonato. “Ad essere sinceri, sentirti cantare è stato come…”, è la frase con cui hanno dovuto iniziare il verdetto, sempre in chiave umoristica.
Poi hanno chiesto a ChatGPT – nella sua versione 3.5 – di eseguire gli stessi compiti. Infine, altri partecipanti hanno valutato i risultati, assegnando punteggi in base a quanto fossero divertenti le frasi generate sia dagli esseri umani sia dal modello AI, senza conoscere le fonti in ciascun caso. La conclusione: le battute sintetiche erano più divertenti. Quasi il 70% ha preferito le barzellette sintetiche, rispetto al 26,5% che ha scelto quelle umane. Quasi il 4% ha ritenuto che le barzellette umane fossero altrettanto divertenti di quelle umane. contendenti in questa battaglia umoristica.
La seconda prova: scrivere titoli per una rivista di fumetti
La compatibilità tra ChatGPT e umorismo è stata confermata nello studio dell’USC con un secondo esperimento. Per questo esperimento, i ricercatori hanno chiesto sia agli esseri umani sia al modello di intelligenza artificiale di scrivere titoli nello stile di Il Cipollottouna pubblicazione umoristica degli Stati Uniti nota per il suo tono satirico.
In questo caso, i risultati sono stati giudicati da studenti di psicologia e non c’è stato un grande vantaggio. Circa il 49% ha trovato i titoli originali di La cipolla. Il 37% ha ritenuto più divertenti quelli generati da ChatGPT.
“Che ChatGPT può generare umorismo scritto con una qualità che supera le capacità dei dilettanti, eguagliando quelle di alcuni scrittori di commedie professionisti, ha importanti implicazioni per gli appassionati del genere. Anche per i lavoratori dell’industria dell’intrattenimento”, hanno detto i ricercatori. “Per gli autori di commedie professionisti, i nostri risultati suggeriscono che i LLM costituiranno una seria minaccia per il loro impiego”, hanno aggiunto.
Intervista esclusiva con l’autore dello studio: “È importante valutare le capacità di scherzare di ChatGPT”, afferma Drew Gorenz.
Come è nata l’idea di studiare i legami tra ChatGPT e umorismo?
Ricordo che stavo ascoltando un episodio di podcast e che stava parlando con un ospite di IA. Secondo Ezra, il motivo per cui gli LLM non hanno sconvolto l’industria del giornalismo come si era previsto è la loro tendenza ad avere allucinazioni. In un settore in cui l’accuratezza è molto importante, questa è un’enorme barriera al loro utilizzo.
Così ho pensato: e l’intrattenimento? In questo campo, le persone sono meno interessate a questioni di accuratezza. Sono invece più interessati alla domanda: è divertente? E nelle commedie, è divertente? Se i modelli di intelligenza artificiale sono abbastanza divertenti, alla maggior parte delle persone potrebbe non importare se inventano qualcosa. È stato allora che ho deciso di voler sapere quanto sono divertenti.
Perché ha utilizzato la versione ChatGPT 3.5 per questo studio, considerando i vantaggi che GPT 4o offre ora?
Si dà il caso che abbiamo condotto il nostro studio l’anno scorso, prima del rilascio di GPT-4o. La precedente versione a pagamento di GPT-4 era già disponibile. Ma prima volevo vedere quanto fosse valida la versione gratuita (GPT 3.5), che è più accessibile a tutti.
Nella sua recensione di ChatGPT e dell’umorismo, ha fatto test simili con altri chatbot, magari con Gemini o Claude di Anthropic?
Ci siamo concentrati sul modello OpenAI. Ho giocato con gli altri chatbot. Al momento mi piace molto Claude 3.5. Non ho ancora testato sperimentalmente questi modelli tra loro e valutato il feedback delle persone, ma mi piacerebbe farlo in futuro.
La metodologia dello studio è interessante. Come è nata l’idea di chiedere al chatbot di scrivere titoli nello stile di La cipolla?
Nel primo studio, abbiamo verificato quanto ChatGPT-3.5 fosse divertente rispetto alle persone “normali”. In questo caso, ha superato gli esseri umani in diversi test di performance umoristica. Successivamente, ho voluto alzare l’asticella e trovare un modo per testare un LLM con autori comici professionisti. La cipolla è un’organizzazione di notizie satiriche di grande successo negli Stati Uniti e, personalmente, una delle mie preferite.
In un’epoca in cui la maggior parte della comicità di successo si basa su immagini, audio o video, questa pubblicazione produce ancora alcune delle migliori battute di solo testo sotto forma di titoli di notizie satiriche. Dal momento che ChatGPT può produrre solo battute testuali, Il Cipollotto è diventato un’ottima fonte di confronto.
Dopo aver letto il vostro studio, abbiamo esaminato noi stessi il rapporto tra ChatGPT e umorismo. Nei nostri test – chiediamo al chatbot di raccontare barzellette – le barzellette sono noiose, troppo infantili. Può essere che questo sia dovuto al fatto che gli sviluppatori, OpenAI in questo caso, preferiscono tenersi fuori dai guai con barzellette un po’ più “spinte”?
Ebbene, tenetelo a mente. Sebbene molte buone battute possano essere considerate offensive da alcuni e innocue da altri, non credo che le battute debbano essere per forza offensive o “scabrose” per essere divertenti. Ci sono molte “pulito“che hanno avuto un grande successo professionale. Detto questo, ci sono molte ragioni per cui uno potrebbe non apprezzare le battute di LLM al di fuori delle barriere poste per moderarne il contenuto.
Quali sono queste variabili?
Da un lato, studiando ChatGPT e umorismo, emerge quanto segue. La scrittura è solo una componente della produzione comica. L’altra componente è la consegna o il supporto. Le persone tendono a considerare meno divertenti le barzellette che contengono solo testo rispetto a quelle che coinvolgono immagini e testo o elementi audiovisivi. Poiché questi modelli non creano umorismo basato su immagini, audio o video, dovremmo confrontarli solo con altre commedie basate sul testo, non con video o meme, ad esempio.
Detto questo, i LLM incorporano sempre più spesso immagini, audio e video, man mano che emergono nuovi modelli con maggiore potenza di calcolo e dati di addestramento. Si potrebbero combinare le capacità di scrittura umoristica di un modello AI con le capacità di produzione di immagini, audio o video di un altro per raccontare le barzellette.
Prima ha menzionato un secondo fattore per analizzare i legami tra ChatGPT e umorismo. Anche per capire perché le sue battute sono a volte troppo leggere…
Certamente. L’altra parte fondamentale è l’incitamento. Come l’intelligenza artificiale, la maggior parte delle persone, compresi i comici, non si comporterebbe bene se gli venisse chiesto di “dire qualcosa di divertente”. Gran parte della comicità è contestuale. Quando abbiamo valutato le capacità di produzione di umorismo delle persone, abbiamo dato loro un contesto e dei vincoli nei nostri suggerimenti. Per esempio, “un risultato degno di nota che probabilmente non metteresti nel tuo CV”), oltre a esempi di buone risposte.
Facciamo attenzione al fatto che i laureati in LLM potrebbero produrre battute di qualità inferiore in risposta a richieste più ambigue, prive di esempi, vincoli o contesto sociale. Ad esempio, un altro gruppo di ricercatori (Jentzsch e Kersting, 2023) ha dato a ChatGPT questo messaggio: “Puoi raccontarmi una barzelletta, per favore?”, solo con sottili variazioni nella formulazione. Ad esempio, “Mi piacerebbe sentire una barzelletta”, ripetendolo migliaia di volte. Come previsto, il chatbot ha restituito molte barzellette ridondanti e di scarsa qualità in risposta a queste richieste generiche. La conclusione è stata che ChatGPT “è divertente, ma non così tanto”.
Perché è importante valutare la capacità umoristica di questi sistemi sintetici? Pensate che sia importante per i LLM raggiungere la capacità di imitare gli esseri umani, anche sotto questo aspetto?
Molti ricercatori hanno documentato le capacità di conoscenza e di ragionamento analitico dei sistemi di intelligenza artificiale emergenti. Pochi hanno studiato le loro capacità creative. Abbiamo pensato che fosse altrettanto importante documentare la loro posizione creativa nella produzione di umorismo. Comprendere le loro capacità creative ci aiuta a prepararci per le future interruzioni del settore. Inoltre, ci insegna come si produce l’umorismo.
Poiché i LLM non possono provare emozioni, non provano la sensazione di apprezzare una buona battuta. Tuttavia, essi stessi possono fare una buona battuta. Questo ci dice che le emozioni non sono una componente necessaria per produrre una buona commedia. Altre componenti, come il riconoscimento dei modelli, possono essere più importanti.
In definitiva, in che modo ChatGPT è diverso quando si tratta di scherzare, rispetto alla ricerca di barzellette su Google? Al di là delle ovvie differenze, cosa cambia?
Beh, le ricerche sul web restituiscono contenuti che sono già stati creati. Se si cerca qualcosa che non è mai stato creato prima, non lo si troverà su Google. Al contrario, i LLM creano nuovi contenuti. Per questo motivo, sono molto più flessibili alle richieste specifiche che si possono fare. Ad esempio, è possibile rispondere a cosa direbbe Shrek all’ex presidente Barack Obama se si incontrassero per un gelato.
Titolo Quanto è divertente ChatGPTLo studio è stato pubblicato sulla rivista Plos One e può essere consultato integralmente al seguente indirizzo questo link.