Questa intelligenza artificiale traduce e trascrive già oggi qualsiasi audio

Whisper è una nuova intelligenza artificiale di OpenAI che intende rivoluzionare le tecnologie e i traduttori speech-to-text. Secondo ArsTechnica, Questa intelligenza artificiale è in grado di trascrivere e tradurre interviste, podcast, conversazioni e altro ancora.. Ma soprattutto, la sua capacità di farlo è quasi al livello di un essere umano.

Secondo OpenAI, La sua intelligenza artificiale è stata addestrata con oltre 680.000 ore di audio.. Ma oltre ad ascoltare, Whisper ha dovuto anche abbinare a quelle parole un testo scritto.

Grazie alla rete neurale dell’intelligenza artificiale, può utilizzare il contesto dei dati di ingresso.e quindi apprendere le associazioni che possono essere tradotte in output del modello.

Come funziona Whisper, l’intelligenza artificiale in grado di tradurre e trascrivere qualsiasi input audio.

“L’audio in ingresso viene suddiviso in pezzi da 30 secondi”, descrive OpenAI nel comunicato ufficiale. Viene quindi “convertito in uno spettrogramma… e passato all’encoder”.

Ma non è tutto. Successivamente, il codificatore viene addestrato a prevedere il testo corrispondente. Come si fa? Si mescolano gettoni token speciali che indirizzano il modello a svolgere un singolo compitocome l’identificazione della lingua. All’equazione si aggiungono poi altre variabili, come l’identificazione delle firme temporali a livello di frase, la trascrizione del parlato multilingue e la traduzione in inglese.

Ma soprattutto, il lavoro di Whisper non finisce qui. OpenAI ha deciso di pubblicare il suo codice in modo che possa servire come base per i futuri processori vocali. e strumenti di accessibilità. Pertanto, vi è l’opportunità di vedere miglioramenti nell’intelligenza artificiale.

I risultati sono impressionanti

La tecnologia alla base di questa intelligenza artificiale è impressionante quanto i risultati. Per testarne la potenza hanno utilizzato un episodio del podcast.che conteneva un frammento in cui veniva utilizzato un telefono per trasmettere l’audio, quindi la qualità lasciava molto a desiderare.

LEGGI Dal sarcasmo al parlare con un'altra IA o descrivere tutto ciò che è stato ripreso dalla telecamera: i video di GPT-4o che vi lasceranno a bocca aperta.

Nonostante questo, Whisper ha fatto un buon lavoro di trascrizione del testo mentre era in esecuzione in Python. Naturalmente, questa tecnologia non funziona in tempo reale e, secondo quanto riportato da ArsTechnicaCi è voluto un po’ di tempo per finalizzarlo su un processore Intel di fascia media. Alla fine, il risultato è stato “molto migliore rispetto ai servizi di trascrizione basati sull’intelligenza artificiale che abbiamo provato in passato”.

Ma attenzione, nel codice Whisper ci sono delle scritte in piccolo.. Secondo i suoi creatori, è uno strumento che potrebbe essere usato anche per il male. Ad esempio, per identificare gli interlocutori in una conversazione o anche per automatizzare la sorveglianza. Tuttavia, OpenAI spera che venga utilizzato a fin di bene e che consenta agli sviluppatori di creare strumenti di traduzione e trascrizione molto più complessi.