Microsoft presenta Phi-3 vision, un’intelligenza artificiale che comprende immagini e testo

Microsoft ha annunciato la disponibilità di Phi-3 Miniil modello di intelligenza artificiale leggero e potente in grado di competere con il GPT-3.5. Il colosso tecnologico ha approfittato dell’inizio della Build 2024 per per presentare le novità della sua famiglia di modelli linguistici.. Il Phi-3 Mini non è l’unica novità di rilievo di oggi: Microsoft ha infatti rivelato anche Phi-3 vision e Phi-Silicaun piccolo modello in grado di funzionare su PC Copilot+.

Anche se sapevamo già tutto su Phi-3 MiniDel Phi-3 Mini non era ancora stato rivelato uno dei dettagli più significativi: la sua disponibilità. Il modello linguistico è stato presentato solo poche settimane fa e ha fatto rapidamente notizia grazie alle sue caratteristiche. Il nuovo membro della famiglia Phi è così piccolo da poter essere eseguito su dispositivi mobili. o su computer di base.

Questa leggerezza non compromette la sua potenza: Phi-3 Mini è in grado di gestire 3,8 miliardi di parametri.. Microsoft ha rivelato che il suo modello è stato addestrato attraverso le storie dei bambini, utilizzando più di 3.000 parole semplici che spiegano concetti più complessi. Il risultato finale è un’intelligenza artificiale in grado di soddisfare GPT-3,5il modello alla base della prima versione di ChatGPT, e funziona sul vostro computer.

Phi-3 Mini ora disponibile tramite il cloud Azure per l’accesso degli sviluppatori.

Phi-3 vision: il modello multimodale in grado di comprendere le immagini

Un’altra sorpresa di Build 2024 è l’annuncio di Visione Phi-3un modello di intelligenza artificiale in grado di comprendere testi e immagini. Il nuovo arrivato è il primo modello multimodale della famiglia Phi-3 e può comprendere immagini e rispondere a domande su di esse. Questa AI è simile a quella che vediamo con il GPT-4o, anche se su scala più piccola.

LEGGI ChatGPT cambierà per sempre con Strawberry, l'intelligenza artificiale segreta di OpenAI che consente di "pensare" le risposte.

La visione Phi-3 è un modello in grado di eseguire compiti di ragionamento visivo. Ad esempio, può comprendere grafici e diagrammi e generare informazioni da essi. Può anche ragionare sulle immagini del mondo reale ed estrarre il testo. L’unica cosa che non può fare è generare immagini, come i modelli OpenAI.

Forse la cosa più sorprendente di questo modello sono le sue dimensioni. La visione Phi-3 ha 4,2 miliardi di parametri. e supera modelli più grandi come Gemini 1.0 Pro V o Claude-3 Haiku nel ragionamento visivo, nella comprensione di grafici, tabelle e compiti OCR. La nuova AI di Microsoft è progettata per essere eseguita localmente su una gamma più ampia di dispositivi, come cellulari o computer.

Phi-Silica: l’intelligenza artificiale inclusa nei PC Copilot+.

Microsoft ha lasciato il meglio per ultimo. Dopo aver annunciato la disponibilità dei nuovi modelli linguistici Phi-3, l’azienda tecnologica ha presentato una nuova IA costruita per funzionare sui PC Copilot+..

Phi-Silica è un SLM che sarà integrato in tutti i PC di questa categoria, compresi il Surface Pro e il Surface Laptop. Il modello è il più piccolo della famiglia Phi-3, con una dimensione di appena 3,3 miliardi di parametri ed è progettato per sfruttare i chip Snapdragon X Elite di Qualcomm.

Microsoft sostiene che Phi-Silica è ottimizzato per funzionare sulla NPU Copilot + PCche fornisce inferenze locali ultraveloci. L’IA si distingue dagli altri per essere il primo modello linguistico implementato localmente su Windows.