Alla Rete Neurale è Stato Insegnato Ad "animare" I Ritratti Sulla Base Di Una Sola Immagine Statica - Visualizzazione Alternativa

Alla Rete Neurale è Stato Insegnato Ad "animare" I Ritratti Sulla Base Di Una Sola Immagine Statica - Visualizzazione Alternativa
Alla Rete Neurale è Stato Insegnato Ad "animare" I Ritratti Sulla Base Di Una Sola Immagine Statica - Visualizzazione Alternativa

Video: Alla Rete Neurale è Stato Insegnato Ad "animare" I Ritratti Sulla Base Di Una Sola Immagine Statica - Visualizzazione Alternativa

Video: Alla Rete Neurale è Stato Insegnato Ad
Video: 5G e biliardino 4.0 nella fabbrica del futuro di Bosch Rexroth 2024, Potrebbe
Anonim

Gli specialisti russi del Samsung AI Center-Moscow Center for Artificial Intelligence, in collaborazione con gli ingegneri dello Skolkovo Institute of Science and Technology, hanno sviluppato un sistema in grado di creare immagini animate realistiche di volti umani basate su pochi fotogrammi umani statici. Solitamente, in questo caso, è richiesto l'utilizzo di grandi database di immagini, tuttavia, nell'esempio presentato dagli sviluppatori, il sistema è stato addestrato per creare un'immagine animata di un volto umano da soli otto frame statici, e in alcuni casi ne è bastato uno. Per maggiori dettagli sullo sviluppo, vedere un articolo pubblicato sul repository online di ArXiv.org.

Image
Image

Di regola, è piuttosto difficile riprodurre un modulo personalizzato fotorealistico di un volto umano a causa dell'elevata complessità fotometrica, geometrica e cinematica della riproduzione della testa umana. Ciò è spiegato non solo dalla complessità della modellazione del viso nel suo insieme (per questo ci sono un gran numero di approcci alla modellazione), ma anche dalla complessità della modellazione di alcune caratteristiche: la cavità orale, i capelli e così via. Il secondo fattore complicante è la nostra tendenza a cogliere anche piccoli difetti nel modello finito di teste umane. Questa bassa tolleranza per gli errori di modellazione spiega l'attuale prevalenza di avatar non fotorealistici utilizzati nella teleconferenza.

Secondo gli autori, il sistema, soprannominato Fewshot learning, è in grado di creare modelli altamente realistici di teste parlanti di persone e persino ritratti. Gli algoritmi sintetizzano l'immagine della testa della stessa persona con le linee di riferimento del volto prese da un altro frammento del video, oppure utilizzando i punti di riferimento del volto di un'altra persona. Come fonte di materiale per la formazione del sistema, gli sviluppatori hanno utilizzato un ampio database di immagini video di celebrità. Per ottenere la testa parlante più precisa possibile, il sistema deve utilizzare più di 32 immagini.

Per creare immagini del viso animate più realistiche, gli sviluppatori hanno utilizzato i precedenti sviluppi nella modellazione generativa del contraddittorio (GAN, dove una rete neurale pensa i dettagli di un'immagine, infatti, diventando un artista), nonché un approccio di meta-apprendimento automatico, in cui ogni elemento del sistema è addestrato e progettato per risolverne alcuni compito specifico.

Schema di meta-apprendimento
Schema di meta-apprendimento

Schema di meta-apprendimento.

Image
Image
Image
Image

Video promozionale:

Tre reti neurali sono state utilizzate per elaborare le immagini statiche delle teste delle persone e trasformarle in animate: Embedder (rete di implementazione), Generator (rete di generazione) e Discriminator (rete discriminatrice). La prima suddivide le immagini della testa (con punti di riferimento facciali approssimativi) in vettori incorporanti, che contengono informazioni indipendenti dalla posa, la seconda rete utilizza i punti di riferimento facciali ottenuti dalla rete di incorporamento e genera nuovi dati basati su di essi attraverso una serie di strati convoluzionali che forniscono resistenza ai cambiamenti di scala, spostamenti, curve, cambio di angolazione e altre distorsioni dell'immagine del viso originale. Un discriminatore di rete viene utilizzato per valutare la qualità e l'autenticità delle altre due reti. Di conseguenza, il sistema trasforma i punti di riferimento del viso di una persona in foto personalizzate dall'aspetto realistico.

Image
Image
Image
Image

Gli sviluppatori sottolineano che il loro sistema è in grado di inizializzare i parametri sia della rete del generatore che della rete del discriminatore individualmente per ogni persona nella foto, quindi il processo di apprendimento può essere basato su poche immagini, il che aumenta la sua velocità, nonostante la necessità di selezionare decine di milioni di parametri.

Nikolay Khizhnyak

Raccomandato: