L’AI Grok di Elon Musk e X ora riconosce le immagini

Poche settimane dopo il suo annuncio, xAI ha lanciato Grok-1.5V, il modello multimodale di prima generazione. offerto dall’azienda di Elon Musk. Questa versione è in grado di elaborare immagini e rispondere a domande correlate. Un SDK esemplificativo ha confermato che l’IA multimodale di Elon Musk è già disponibile per gli sviluppatori, quindi potrebbe presto raggiungere il grande pubblico.

Secondo con la documentazione, Grok-1.5V può comprendere documenti, diagrammi scientifici, tabelle, schermate e fotografie.. xAI ha pubblicato un grafico con i punteggi ottenuti in vari test di performance, in cui la sua intelligenza artificiale supera il GPT-4V in alcuni compiti come la lettura di testi, diagrammi, matematica o la comprensione del mondo reale.

“Siamo particolarmente entusiasti delle capacità di Grok di comprendere il nostro mondo fisico”, ha dichiarato l’azienda. “Grok supera i suoi colleghi nel nostro nuovo benchmark RealWorldQA, che misura la comprensione spaziale del mondo reale”, ha aggiunto. Quest’ultimo è un benchmark progettato per valutare le capacità di base di comprensione del mondo spaziale in modelli multimodali.

Nei primi test, Grok-1.5V è in grado di riconoscere le dimensioni e l’orientamento degli oggetti.xAI ha mostrato alcuni esempi di ciò che il suo nuovo modello di intelligenza artificiale multimodale può raggiungere.

Grok analizza un diagramma di flusso su una lavagna e lo converte in codice sorgente in Python.con commenti e tutto il resto. L’intelligenza artificiale identifica anche una tabella con i valori nutrizionali e risponde a domande specifiche sulle calorie. Un altro esempio si concentra sul riconoscimento di una traccia e sulla scrittura di una storia, spiegare un meme o analizzare una fotografia.

Quello che offrono i modelli multimodali, come Grok

Un modello di intelligenza artificiale multimodale è un sistema in grado di elaborare e integrare informazioni provenienti da diverse fonti come testo, immagini, audio, video o dati sensoriali. Ciò consente loro di avere una comprensione più completa e contestualizzata del mondo che li circonda, simile a quella degli esseri umani.

LEGGI Blink Mini 2: la nuova videocamera di sorveglianza di Amazon può ora essere utilizzata anche all'aperto

A differenza dei sistemi di intelligenza artificiale tradizionali che si concentrano su un singolo tipo di dati, come l’elaborazione del linguaggio naturale per il testo o la visione computerizzata per le immagini, i modelli multimodali possono combinare e analizzare le informazioni provenienti da varie modalità per eseguire compiti più complessi.

Ad esempio, un modello multimodale può leggere una domanda, analizzare un’immagine pertinente e generare una risposta che combina testo e immagine.. È anche in grado di generare didascalie o descrizioni che catturano meglio il contesto e le informazioni non verbali.

La creazione di questo tipo di modelli richiede grandi quantità di dati di alta qualitàche possono essere difficili da raccogliere ed etichettare. Allo stesso modo, il loro addestramento può essere intensivo dal punto di vista computazionale, quindi è necessario garantire l’accesso a un hardware potente.

“I progressi della nostra comprensione multimodale e delle nostre capacità di generazione sono passi importanti verso la costruzione di un’intelligenza artificiale generale (AGI) in grado di comprendere l’universo”, ha dichiarato xAI. “Nei prossimi mesi prevediamo di apportare miglioramenti significativi a entrambe le capacità, in una varietà di modalità, come immagini, audio e video”.