Apple e altre aziende tecnologiche hanno utilizzato i video di YouTube per addestrare la loro intelligenza artificiale. La ricerca ha rilevato che l’azienda di Cupertino ha preso dati dai sottotitoli che sono stati presumibilmente estratti senza autorizzazione.. Le società hanno addestrato i loro modelli linguistici con contenuti di MrBeast, PewDiePie, MKBHD e altri famosi youtuber.
Secondo un’indagine di ProofNewsaziende come Apple, NVIDIA, Anthropic e Salesforce hanno utilizzato contenuti non autorizzati per addestrare la loro IA. Le aziende si sono basate su un set di dati che comprende i sottotitoli di 173.536 video, provenienti da più di 48.000 canali di YouTube. Apple ha utilizzato questi dati per addestrare OpenELM, un’intelligenza artificiale open source in grado di funzionare su iPhone, annunciata solo pochi mesi fa.
Mentre l’origine dei dati di addestramento è sempre stata un punto interrogativo per queste aziende, la situazione è diversa da quella di OpenAI. Secondo la ricerca, i sottotitoli estratti fanno parte di un sottoinsieme di dati chiamato Sottotitoli di YouTube, che a sua volta integra The Pile, il gigantesco dataset open source da 825 GB.
Secondo la descrizione di The Pile, Sottotitolo YouTubes è un corpus parallelo di testi compilato a partire da sottotitoli generati dall’uomo su YouTube. Il documento menziona che, oltre a fornire dati multilingue, i sottotitoli di YouTube “sono una fonte di contenuti educativi, cultura popolare e dialogo naturale”. L’unico dettaglio che omette è che i contenuti sono utilizzati senza il permesso dell’autore.
Apple e altre aziende hanno addestrato l’intelligenza artificiale su video controversi


ProofNews ha utilizzato uno strumento per sviluppatori di YouTube per ottenere i metadati di ogni video e poi ha esaminato gli identificatori nel set di dati. Dopo l’analisi è emerso che Sottotitoli di YouTube include video da canali come MrBeast, Marques Brownlee (MKBHD), PewDiePie, oltre a BBC, New York Times e altri canali.The Late Show with Stephen Colbert o Jimmy Kimmel Live, per citarne alcuni.
Il quantità di dati varia per ogni canale. Ad esempio, MrBeast, che ha 302 milioni di abbonati, ha contribuito solo con due video, mentre PewDiePie ha estratto 337 video. Come ci si poteva aspettare, i video non includono informazioni di alta qualità, come menzionato in The Pile. L’insieme trascina con sé teorie della cospirazione e contenuti polemici. generati da youtuber.
A differenza di OpenAI, che ha sviluppato uno strumento per estrarre i sottotitoli e utilizzarli per addestrare GPT-4, la situazione con Apple è diversa. I tecnologi hanno utilizzato un set di dati compilato da terzi. (EleutherAI), che lo offre come open source per democratizzare lo sviluppo di altre IA. Il Pile è composto da 22 sottoinsiemi che comprendono libri, codice GitHub, articoli ArXiv, documenti del Parlamento europeo e altro ancora.
Anthropic ha ammesso di aver usato i sottoinsiemi per addestrare Claude, anche se se ne è lavata le mani e ha detto che si trattava di un’intelligenza artificiale. qualsiasi violazione dei termini di servizio di YouTube è responsabilità di EleutherAI. D’altro canto, Salesforce ha dichiarato di essersi affidata a The Pile per addestrare uno dei suoi modelli di IA. L’azienda ha sottolineato che questo modello era destinato a scopi accademici e di ricerca.
Apple e NVIDIA non sono le sole a utilizzare il set di didascalie di YouTube. Aziende come Microsoft, Meta o Yandex si affidano a The Pile. per lo sviluppo di modelli come Megatron, LlaMA, Galactica o YaLM 100B. Nel caso di Cupertino, l’unica AI che utilizza il sottoinsieme è OpenELM.