Meta presenta Llama 3.2, la sua AI open source in grado di comprendere le immagini

Meta presentato Llama 3.2, il suo primo modello di linguaggio multimodale open-source in grado di elaborare immagini e testo. Pochi mesi dopo il rilascio di Llama 3.1, Mark Zuckerberg e compagnia tornano con un’intelligenza artificiale che comprende le immaginigenerazione di testo multilingue e altro ancora. La famiglia comprende due modelli leggeri ottimizzati per ARM che possono essere eseguiti su processori Qualcomm e MediaTek.

Secondo Meta, Llama 3.2 supporta casi d’uso di image reasoning, come la comprensione di tabelle e grafici, la creazione di didascalie, la localizzazione di oggetti e altro ancora. La nuova AI multimodale è in grado di estrarre dettagli da un’immagine e di scrivere una frase. o due che potrebbero essere usati come identificativi o per aiutare a raccontare una storia.

Durante il keynote di Meta Connect, Mark Zuckerberg ha mostrato l’integrazione di Llama 3.2 nelle sue applicazioni più popolari. Ad esempio, l’assistente Meta AI integrato in WhatsAppMessenger, Instagram e Facebook, capire cosa si sta guardando. È possibile inviargli una foto e chiedergli informazioni.o condividere la foto di un piatto per ottenere una ricetta per la sua preparazione.

Riconoscimento delle immagini in Llama 3.2

Il carattere multimodale di Llama 3.2 permetterà anche di di sfruttarlo nel fotoritocco. Zuckerberg ha mostrato una dimostrazione in cui Meta AI aggiunge pattini a rotelle, ginocchiere e un casco di sicurezza a una foto in base a una richiesta. L’intelligenza artificiale può apportare altre modifiche, come cambiare i vestiti, rimuovere lo sfondo e altro ancora.

Llama 3.2 sfida GPT-4o mini e altri modelli di IA commerciali

Secondo la tecnologia, Llama 3.2 è competitivo se confrontato con altri modelli di business.. In alcuni casi, il modello open source di Meta supera Haiku e GPT-4o mini di Claude 3, dimostrando prestazioni eccezionali nei test di riconoscimento delle immagini e di comprensione visiva.

LEGGI Ulefone Armor 24: un mostro "robusto" con una batteria da 22000 mAh!

La famiglia Llama 3.2 comprende due modelli multimodali: uno con 90 miliardi di parametri e uno con 11 miliardi. L’offerta è completata da Llama 3.2, 1B e 3Bche supportano una lunghezza del contesto di 128K token e sono in grado di eseguire sintesi, riscritture e tutti i tipi di istruzioni in esecuzione su un dispositivo locale. I modelli leggeri sono ottimizzati per ARM e può risolvere più compiti con una latenza minima.

L’arrivo di Llama 3.2 avviene a soli due mesi dal rilascio del suo predecessore. Meta ha investito una notevole quantità di tempo (e di dati) per addestrare il modello di nuova generazione. Proprio come abbiamo visto con Llama 3.1, la nuova versione del modello linguistico rimane fedele all’open source.

“Oggi, diverse aziende tecnologiche stanno sviluppando modelli chiusi all’avanguardia. Ma l’open source sta rapidamente colmando il divario”, ha dichiarato Zuckerberg in una nota a margine pubblicata a luglio. “L’anno scorso, Llama 2 era paragonabile solo a una generazione precedente di modelli di frontiera. “Quest’anno, Llama 3 è competitivo con i modelli più avanzati ed è leader in alcune aree”.

Llama 3.2 è disponibile da oggi per tutti gli sviluppatori. Insieme al lancio, Meta ha condiviso una guida all’uso responsabile e un sito web con strumenti e risorse per sfruttare al meglio la sua IA.