A La Red Neuronal Se Le Enseñó A "animar" Retratos Basados en Una Sola Imagen Estática - Vista Alternativa

A La Red Neuronal Se Le Enseñó A "animar" Retratos Basados en Una Sola Imagen Estática - Vista Alternativa
A La Red Neuronal Se Le Enseñó A "animar" Retratos Basados en Una Sola Imagen Estática - Vista Alternativa

Vídeo: A La Red Neuronal Se Le Enseñó A "animar" Retratos Basados en Una Sola Imagen Estática - Vista Alternativa

Vídeo: A La Red Neuronal Se Le Enseñó A
Vídeo: Como hacer arte con Inteligencia Artificial (Código Python) - Neural Style Transfer 2024, Mayo
Anonim

Los especialistas rusos del Samsung AI Center-Moscow Center for Artificial Intelligence, en colaboración con ingenieros del Instituto de Ciencia y Tecnología de Skolkovo, han desarrollado un sistema capaz de crear imágenes animadas realistas de rostros humanos basados en unos pocos fotogramas humanos estáticos. Por lo general, en este caso, se requiere el uso de grandes bases de datos de imágenes, sin embargo, en el ejemplo presentado por los desarrolladores, el sistema fue entrenado para crear una imagen animada de un rostro humano a partir de solo ocho cuadros estáticos, y en algunos casos uno fue suficiente. Para obtener más detalles sobre el desarrollo, consulte un artículo publicado en el repositorio en línea de ArXiv.org.

Image
Image

Como regla general, es bastante difícil reproducir un módulo personalizado fotorrealista de un rostro humano debido a la alta complejidad fotométrica, geométrica y cinemática de reproducir la cabeza humana. Esto se explica no solo por la complejidad de modelar la cara en su conjunto (para esto hay una gran cantidad de enfoques de modelado), sino también por la complejidad de modelar ciertas características: la cavidad bucal, el cabello, etc. El segundo factor de complicación es nuestra tendencia a detectar incluso defectos menores en el modelo terminado de cabezas humanas. Esta baja tolerancia a los errores de modelado explica la prevalencia actual de avatares no fotorrealistas utilizados en las teleconferencias.

Según los autores, el sistema, denominado Fewshot learning, es capaz de crear modelos muy realistas de cabezas parlantes de personas e incluso pinturas de retratos. Los algoritmos sintetizan la imagen de la cabeza de la misma persona con las líneas de referencia de un rostro extraídas de otro fragmento del video, o utilizando los hitos del rostro de otra persona. Como fuente de material para entrenar el sistema, los desarrolladores utilizaron una extensa base de datos de imágenes de videos de celebridades. Para obtener la cabeza parlante más precisa posible, el sistema necesita usar más de 32 imágenes.

norte

Para crear imágenes faciales animadas más realistas, los desarrolladores utilizaron desarrollos previos en modelado generativo adversarial (GAN, donde una red neuronal piensa en los detalles de una imagen, de hecho, se convierte en un artista), así como un enfoque de metaaprendizaje automático, donde cada elemento del sistema está entrenado y diseñado para resolver algunos problemas. tarea específica.

Esquema de metaaprendizaje
Esquema de metaaprendizaje

Esquema de metaaprendizaje.

Image
Image
Image
Image

Video promocional:

Se utilizaron tres redes neuronales para procesar imágenes estáticas de cabezas de personas y convertirlas en animadas: Embedder (red de implementación), Generator (red de generación) y Discriminator (red discriminadora). La primera divide las imágenes de la cabeza (con puntos de referencia faciales aproximados) en vectores de incrustación, que contienen información independiente de la pose, la segunda red usa los puntos de referencia faciales obtenidos por la red de incrustación y genera nuevos datos basados en ellos a través de un conjunto de capas convolucionales que brindan resistencia a cambios de escala, desplazamientos, giros, cambio de ángulo y otras distorsiones de la imagen de la cara original. Se utiliza un discriminador de red para evaluar la calidad y autenticidad de las otras dos redes. Como resultado, el sistema transforma los puntos de referencia del rostro de una persona en fotos personalizadas de aspecto realista.

Image
Image
Image
Image

Los desarrolladores enfatizan que su sistema es capaz de inicializar los parámetros tanto de la red generadora como de la red discriminadora individualmente para cada persona en la imagen, por lo que el proceso de aprendizaje puede basarse en unas pocas imágenes, lo que aumenta su velocidad, a pesar de la necesidad de seleccionar decenas de millones de parámetros.

Nikolay Khizhnyak

Recomendado: