Notebookcheck Logo

Il più grande dataset di immagini per l'addestramento dell'AI è stato messo offline dopo la scoperta di materiale illecito preoccupante

Il set di dati LAION-5B contiene oltre 5,8 miliardi di coppie immagine-testo (Fonte immagine: LAION - modificato)
Il set di dati LAION-5B contiene oltre 5,8 miliardi di coppie immagine-testo (Fonte immagine: LAION - modificato)
Uno studio di Stanford ha scoperto migliaia di immagini esplicite di abusi su minori in LAION-5B, il più grande dataset di immagini per l'addestramento di modelli AI, tra cui Stable Diffusion. In seguito a questa rivelazione, LAION ha temporaneamente messo offline i suoi set di dati per assicurarsi che siano sicuri prima di ripubblicarli.

Uno studio di pubblicato lo studio pubblicato dall'Osservatorio Internet di Stanford ha fatto una scoperta inquietante: LAION-5B, il più grande set di dati di immagini utilizzato per l'addestramento Generazione di immagini AI contiene 3.226 immagini sospettate di essere materiale pedopornografico (CSAM). LAION ha quindi ritirato il suo set di dati dall'accesso pubblico, fino a quando non potrà assicurarsi che siano privi di contenuti non sicuri.

LAION-5B, un set di dati open-source composto da oltre 5,8 miliardi di coppie di URL di immagini online e didascalie corrispondenti, viene utilizzato per addestrare i modelli AI, tra cui il popolarissimo Diffusione stabile. È stato creato utilizzando Common Crawl per raschiare Internet alla ricerca di un'ampia gamma di immagini.

David Thiel e il team di ricercatori di Stanford, autori dello studio, hanno iniziato a filtrare il set di dati utilizzando i classificatori NSFW di LAION, poi si sono affidati a PhotoDNAuno strumento comunemente utilizzato per la moderazione dei contenuti in questo contesto. Poiché la visione di CSAM è illegale, anche a scopo di ricerca, il team ha utilizzato l'hashing percettivo, che crea una firma digitale unica per ogni immagine e utilizza tale firma per abbinarla a un'immagine di prova, per verificare se è identica o simile. Inoltre, il team ha inviato le 'corrispondenze certe' per essere convalidate dal Canadian Centre for Child Protection.

Dopo la pubblicazione dello studio, un portavoce di Stable Diffusion ha dichiarato a 404 Media che l'azienda dispone di numerosi filtri interni che non solo eliminano CSAM e altro materiale illegale e offensivo dai dati effettivamente utilizzati per l'addestramento, ma assicurano anche che le richieste di input e le immagini generate dal modello AI siano pulite.

Secondo la legge federale statunitense, è illegale possedere e trasmettere non solo CSAM, ma anche "film non sviluppati, videocassette non sviluppate e dati memorizzati elettronicamente che possono essere convertiti in un'immagine visiva". Tuttavia, poiché i set di dati come il LAION-5B contengono solo URL e non le immagini stesse, l'esatta legalità che li riguarda non è chiara. La questione più ampia è ulteriormente aggravata dal fatto che il CSAM generato dall'AI è difficile da distinguere dal CSAM reale, ed è in aumento. Anche se 3200 immagini su 5 miliardi possono sembrare insignificanti, non si può ignorare la potenziale influenza di questi dati di addestramento 'contaminati' sui risultati dei modelli generativi di AI.

Lo studio pubblicato da David Thiel e dal suo team mette in evidenza una delle più preoccupanti conseguenze dell'improvvisa proliferazione dell'AI. Trovare soluzioni a queste preoccupazioni sarà un compito lento e difficile nei prossimi anni, che coinvolgerà in parti uguali il legislatore, le forze dell'ordine, l'industria tecnologica, gli accademici e il pubblico in generale.

Please share our article, every link counts!
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2023 12 > Il più grande dataset di immagini per l'addestramento dell'AI è stato messo offline dopo la scoperta di materiale illecito preoccupante
Vishal Bhardwaj, 2023-12-23 (Update: 2023-12-23)