OpenAI ha usato video rubati su YouTube per addestrare GPT-4

OpenAI avrebbe addestrato i suoi modelli di intelligenza artificiale sui video di YouTube. Un rapporto sostiene che l’azienda ha sviluppato uno strumento per trascrivere l’audio dai video di YouTube.. Il testo confluirebbe nel set di dati utilizzato da OpenAI nel GPT-4 e in altri modelli linguistici.

Secondo Il New York TimesOpenAI ha progettato e implementato uno strumento per il riconoscimento vocale chiamato Whisper, con il quale ha trascritto più di un milione di ore di video di YouTube. Il rapporto menziona che il presidente dell’azienda, Greg Brockman, avrebbe compilato i video per addestrare il GPT-4, uno dei suoi modelli di intelligenza artificiale più avanzati.

L’idea di trascrivere i video di YouTube faceva parte della strategia di OpenAI per alimentare il suo set di dati di addestramento. Secondo le fonti, Sam Altman e la società erano alla disperata ricerca di dati per sviluppare il GPT-4.poiché avevano esaurito le scorte dal 2021. Diversi dipendenti hanno discusso di alternative, tra cui l’acquisto di aziende con enormi database o trascrivere video e audiolibri.

Il risultato di questi colloqui è stato Whisper, uno strumento di riconoscimento vocale in grado di trascrivere video e podcast.. “Abbiamo studiato le capacità dei sistemi di elaborazione vocale addestrati semplicemente a prevedere grandi quantità di trascrizioni audio su Internet”, spiega l’autore. un documento tecnico. “Abbiamo ottenuto i nostri risultati senza dover ricorrere a tecniche di auto-monitoraggio e auto-addestramento, che sono state un pilastro del recente lavoro di riconoscimento vocale su larga scala”.

Il documento di Whisper elenca nomi come Greg Brockman, presidente di OpenAI, e Ilya Sutskever, cofondatore dell’azienda. Quest’ultimo è stato l’artefice della rivolta che ha portato al licenziamento di Sam Altman alla fine del 2023.

LEGGI  Sonos Ace: trapelano le cuffie più attese degli ultimi anni

Non solo OpenAI, anche Google ha addestrato la sua IA sui video di YouTube

YouTube

Anche se OpenAI non si è mai distinta per avere una bussola moraleIn effetti, la trascrizione di video in dati di addestramento non era un’esclusiva dell’azienda.

Secondo il rapporto del NYTI dipendenti di OpenAI hanno discusso sul fatto che Whisper avrebbe violato i termini d’uso di YouTube e sono andati avanti lo stesso. Forse la cosa più sorprendente è che alcuni dipendenti di Google erano a conoscenza di queste pratiche e non le hanno fermate.L’azienda tecnologica ha fatto lo stesso per addestrare i suoi modelli di intelligenza artificiale.

La trascrizione dei video di YouTube per addestrare il GPT-4 e altri modelli linguistici ha aperto un vaso di Pandora. Alcuni mettono in dubbio la legalità dell’uso di questi dati. come base per la formazione senza l’approvazione degli autori. Tuttavia, un avvocato specializzato in proprietà intellettuale ha dichiarato al giornale che le regole sull’utilizzo delle trascrizioni sono ambigue.

Un portavoce di Google ha dichiarato che l’azienda non era a conoscenza delle pratiche di OpenAI e che vieta la navigazione o il download di contenuti. Qualche mese fa, l’azienda ha modificato i termini di servizio per impedire questo comportamento. Allo stesso tempo, l’azienda di Mountain View sfrutta le scappatoie legali per estrarre dati da Docs o Maps che potrebbero essere utilizzati per addestrare Gemini.

Come OpenAI, Google e altre aziende stanno cercando di alimentare i propri dataset per i modelli linguistici.. Ciò ha generato critiche da parte di artisti, scrittori e designer, che ritengono che le grandi aziende tecnologiche stiano rubando il loro lavoro su vasta scala. Le cause legali non si sono fatte attendere, quindi è possibile che si assista a una youtuber che si uniscono al movimento di protesta anti-AI.

LEGGI  L'Apple Watch Series 10 punta a "rivoluzionare" con un misuratore di pressione, un rilevatore di apnea e un nuovo design

Elaborazione…

Hai finito! Ora siete iscritti

Si è verificato un errore, aggiornare la pagina e riprovare.

Anche in Hipertextual:

Antonio
WRITTEN BY

Antonio

Ciao, mi chiamo Antonio. Sono uno scrittore di DFO Media e la mia passione è esplorare l'intersezione tra sport e tecnologia. Attraverso i miei scritti, svelo le innovazioni che stanno plasmando il futuro dello sport.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *