La Red Neuronal Escuchó Las Voces De Las Personas Y Dibujó Sus Retratos - Vista Alternativa

Tabla de contenido:

La Red Neuronal Escuchó Las Voces De Las Personas Y Dibujó Sus Retratos - Vista Alternativa
La Red Neuronal Escuchó Las Voces De Las Personas Y Dibujó Sus Retratos - Vista Alternativa

Vídeo: La Red Neuronal Escuchó Las Voces De Las Personas Y Dibujó Sus Retratos - Vista Alternativa

Vídeo: La Red Neuronal Escuchó Las Voces De Las Personas Y Dibujó Sus Retratos - Vista Alternativa
Vídeo: Reconocimiento de voz mediante Red Neuronal Multicapa 2024, Mayo
Anonim

Recientemente, las redes neuronales han sorprendido con sus habilidades. ¿Podrías haber creído hace diez años que una computadora podría "animar" retratos de Dostoievski y Marilyn Monroe? Prepárese para sorprenderse aún más porque los investigadores del MIT han creado una red neuronal Speech2Face que puede dibujar retratos de personas con solo escuchar sus voces. La tecnología está lejos de ser ideal, pero su capacidad para determinar el género, la nacionalidad y la edad de una persona es impresionante.

Para entrenar la red neuronal, se utilizó el kit AVSpeech con un millón de videos cortos con miles de personas hablando. Las pistas con video y sonido están separadas, por lo que el sistema pudo estudiar cada tipo de material con el mayor detalle posible. En la primera etapa del trabajo, el algoritmo VGG-Face estudió fragmentos de video y creó retratos de las personas en ellos en expresiones faciales neutrales y de rostro completo. Otra parte del algoritmo estudió el espectrograma de la voz y aplicó cambios adicionales a los retratos resultantes; como resultado, se obtuvo un retrato aproximado de cada persona hablando.

Una red neuronal para crear retratos basados en voz ya es una realidad

norte

Si comparas el rostro de una persona con un video y la opción propuesta por el algoritmo, puedes encontrar muchas diferencias. Sin embargo, los investigadores aseguran que inicialmente no querían crear el retrato más similar de una persona; muchos factores afectan el tono y la entonación de la voz humana, por lo que no habrían obtenido el resultado ideal de todos modos. Pero la red neuronal hace un excelente trabajo en lo que es importante para los investigadores, a saber, la determinación precisa del género, la nacionalidad y la edad.

Image
Image

Los autores del trabajo señalaron que en este momento el algoritmo es débil para determinar la edad, pero pueden mejorar la precisión. También se encontró que el algoritmo recrea mejor los rostros europeos y asiáticos, pero esto solo se debe al hecho de que los videos de entrenamiento tenían un número desigual de rostros de diferentes nacionalidades.

Video promocional:

¿Por qué necesitas una red neuronal?

¿Cómo puede ser útil esta tecnología en el futuro? Alternativamente, con la ayuda de él, algún día se puede crear un servicio en el que el avatar virtual de un usuario se cree automáticamente, en función de su voz. El nuevo estudio también tiene grandes beneficios científicos: al estudiar los datos, los científicos pueden encontrar la relación entre la apariencia de una persona y su voz. Puede escuchar voces y mirar retratos recreados sobre su base en el sitio web del proyecto.

Ramis Ganiev

Recomendado: