Hacked by poetry - perché i modelli di intelligenza artificiale falliscono con i suggerimenti poetici

Secondo un nuovo studio, i meccanismi di sicurezza dei modelli linguistici di grandi dimensioni possono essere aggirati con le poesie. (Fonte immagine: Pixabay)

I risultati dello studio rivelano che i modelli linguistici di grandi dimensioni sono suscettibili agli input scritti in forma poetica. Nello studio, le poesie create a mano hanno aggirato con successo le misure di sicurezza dell'AI nel 62% dei casi.

Marius Müller (traduzione a cura di Ninh Duy), Pubblicato 11/25/2025 🇺🇸 🇩🇪 ...

AI Science

OpenAI e aziende simili investono tempo e risorse significative nella costruzione di sistemi di sicurezza progettati per evitare che i loro modelli AI generino contenuti dannosi o non etici. Tuttavia, come dimostra uno studio pubblicato da il 19 novembre2025 mostra che queste difese possono essere facilmente aggirate. Secondo i risultati, bastano alcuni suggerimenti poetici formulati in modo intelligente.

I ricercatori del DEXAI, dell'Università Sapienza di Roma e della Scuola Superiore Sant'Anna hanno testato 25 modelli linguistici di nove diversi fornitori, utilizzando poesie create a mano e generate automaticamente. In media, le poesie create a mano contenenti istruzioni dannose sono riuscite ad aggirare le misure di sicurezza circa il 62% delle volte, mentre gli input poetici generati automaticamente hanno raggiunto un tasso di successo di circa il 43%. In alcuni casi, le difese dei modelli sono state violate più del 90% delle volte.

Secondo i ricercatori, questa vulnerabilità deriva dal fatto che i filtri di sicurezza dei modelli linguistici sono addestrati principalmente su un linguaggio semplice e fattuale. Quando vengono presentati input poetici - ricchi di metafore, ritmo e rime - i modelli tendono a interpretarli come espressione creativa piuttosto che come una potenziale minaccia. Lo studio Adversarial Poetry evidenzia una nuova dimensione nella sicurezza dell'AI, rivelando una debolezza stilistica nei modelli linguistici di grandi dimensioni. L'argomento ha anche guadagnato trazione su Redditdove molti utenti descrivono il concetto come "piuttosto interessante" o "cool", mentre altri esprimono serie preoccupazioni sulle sue implicazioni per la sicurezza dell'AI.

Fonte(i)

Arxiv

Fonte dell'immagine: Pixabay

AMD potrebbe cancellare la RX 9070 ...

Editor of the original article: Marius Müller - Tech Writer - 2636 articles published on Notebookcheck since 2024

Translator: Ninh Ngoc Duy - Editorial Assistant - 663084 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2025 11 > Hacked by poetry - perché i modelli di intelligenza artificiale falliscono con i suggerimenti poetici

Marius Müller, 2025-11-25 (Update: 2025-11-25)