Notebookcheck Logo

Google presenta l'AI generativa Lumiere per creare immagini e video più realistici a partire dal testo

Google presenta Lumiere, l'ultima novità dell'AI generativa che crea video realistici a partire da un testo. (Fonte: Google Research)
Google presenta Lumiere, l'ultima novità dell'AI generativa che crea video realistici a partire da un testo. (Fonte: Google Research)
Google ha presentato Lumiere - l'ultima novità nella generazione realistica di testo-immagine e testo-video utilizzando l'apprendimento automatico. Un'innovazione chiave è la capacità di creare movimenti realistici, come la camminata, che le attuali AI generative hanno difficoltà a gestire. Il software lo fa creando tutti i fotogrammi del video in una sola volta, anziché utilizzare i fotogrammi chiave e l'addestramento per imparare come dovrebbero apparire gli oggetti in movimento.

Google ha presentato Lumiere, lo stato dell'arte dell'AI generativa realistica da testo a immagine e video. Il software migliora notevolmente il movimento utilizzando un approccio innovativo alla generazione di fotogrammi video che crea tutti i fotogrammi in un unico passaggio per attenuare gli errori di movimento.

L'AI generativa di immagini crea immagini dal testo. Una chiave che consente di farlo è l'enorme quantità di immagini e video online disponibili per la formazione. Un altro è lo sviluppo di metodi per associare tutte le parole di una lingua tra loro attraverso vettori. Pertanto, l'AI può capire come una coppia di parole, o in una frase, "io sono" sia più probabile di "io unilateralmente". Le AI che creano immagini, come la Diffusione Stabile, associano le parole alle immagini degli oggetti. Tale AI capisce che le parole "residenza reale" sono più strettamente associate all'immagine di un "castello" che a quella di una "casa".

L'IA generativa di video estende l'IA delle immagini per creare video dal testo. I concorrenti di Lumiere creano prima i fotogrammi chiave, poi i fotogrammi intermedi. È come se un maestro animatore disegnasse le immagini iniziali e finali di un tiro a canestro, poi un assistente disegnasse le immagini intermedie. Il problema è che spesso si verificano errori di movimento perché le immagini intermedie non sono disegnate correttamente, quindi Lumiere aggira questo problema creando tutti i fotogrammi video senza keyframing. Inoltre, Lumiere è addestrato a conoscere l'aspetto degli oggetti in movimento a varie dimensioni dell'immagine, per cui i suoi video hanno un aspetto superiore.

Tecnicamente, Lumiere utilizza modelli probabilistici di diffusione per generare immagini accoppiate con una U-Net spazio-temporale, un'architettura U-net con scalatura temporale verso l'alto e verso il basso più blocchi di attenzione aggiunti alla consueta scalatura della risoluzione dell'immagine. Il down-scaling temporale simultaneo alla risoluzione riduce significativamente i carichi di lavoro computazionali, mentre l'up-scaling accoppiato con un modello di super-risoluzione spaziale e temporalmente consapevole genera l'output ad alta risoluzione. Tuttavia, la segmentazione dei fotogrammi dell'immagine è necessaria a causa dei limiti di memoria, per cui la Multidiffusione viene utilizzata attraverso la sovrapposizione dei confini dei segmenti dei fotogrammi per contribuire a mitigare gli artefatti da movimento temporale.

Lumiere può essere accoppiato con altre AI per creare una gamma più ampia di risultati. Questo include:

  • Cinemagraphs - viene animata una sezione di un'immagine
  • Inpainting - un oggetto in un video viene sostituito da un altro
  • Generazione stilizzata - l'aspetto viene ricreato in un altro stile artistico
  • Da immagine a video - viene animata un'immagine desiderata
  • Da video a video - i video vengono ricreati in un altro stile artistico

La lunghezza del video è limitata a 5 secondi, mentre la capacità di creare transizioni video e angolazioni multiple della telecamera sono inesistenti. I lettori interessati a sperimentare l'IA generativa sul proprio computer desktop dovrebbero passare a una scheda video potente(come questa su Amazon) per ottenere le migliori prestazioni durante l'addestramento.

Lumiere può creare immagini e video a partire da un testo, stilizzato in base a un'altra arte, e persino sostituire gli oggetti. (Fonte: Google Research)
Lumiere può creare immagini e video a partire da un testo, stilizzato in base a un'altra arte, e persino sostituire gli oggetti. (Fonte: Google Research)
Lumiere può animare una parte di un'immagine e l'output può essere inserito facilmente in altre AI. (Fonte: Google Research)
Lumiere può animare una parte di un'immagine e l'output può essere inserito facilmente in altre AI. (Fonte: Google Research)
Please share our article, every link counts!
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2024 01 > Google presenta l'AI generativa Lumiere per creare immagini e video più realistici a partire dal testo
David Chien, 2024-01-31 (Update: 2024-01-31)