A La Red Neuronal Se Le Enseñó A Copiar La Voz Humana Casi A La Perfección - Vista Alternativa

Tabla de contenido:

A La Red Neuronal Se Le Enseñó A Copiar La Voz Humana Casi A La Perfección - Vista Alternativa
A La Red Neuronal Se Le Enseñó A Copiar La Voz Humana Casi A La Perfección - Vista Alternativa

Vídeo: A La Red Neuronal Se Le Enseñó A Copiar La Voz Humana Casi A La Perfección - Vista Alternativa

Vídeo: A La Red Neuronal Se Le Enseñó A Copiar La Voz Humana Casi A La Perfección - Vista Alternativa
Vídeo: Cómo enseñé a mi red neuronal a hablar casi tan bien como Rajoy - Alex Gascón | T3chFest 2018 2024, Marzo
Anonim

El año pasado, la empresa de inteligencia artificial DeepMind compartió detalles sobre su nuevo proyecto WaveNet, una red neuronal de aprendizaje profundo que se utiliza para sintetizar el habla humana realista. Recientemente, se lanzó una versión mejorada de esta tecnología, que se utilizará como base del asistente móvil digital Google Assistant.

Un sistema de síntesis de voz (también conocido como función de texto a voz, TTS) generalmente se basa en uno de dos métodos básicos. El método de concatenación (o compilación) implica la construcción de frases mediante la recopilación de piezas individuales de palabras grabadas y partes previamente grabadas con la participación de un actor de voz. La principal desventaja de este método es la necesidad de reemplazar constantemente la biblioteca de sonidos cada vez que se realizan actualizaciones o cambios.

Otro método se llama TTS paramétrico, y su característica es el uso de conjuntos de parámetros con los que la computadora genera la frase deseada. La desventaja del método es que la mayoría de las veces el resultado se manifiesta en forma de un sonido robótico o poco realista.

WaveNet, por otro lado, produce ondas de sonido desde cero utilizando un sistema de red neuronal convolucional donde el sonido se genera en varias capas. En primer lugar, para entrenar la plataforma para sintetizar voz "en vivo", se "alimenta" una gran cantidad de muestras, mientras se observa qué señales de sonido suenan realistas y cuáles no. Esto le da al sintetizador de voz la capacidad de reproducir la entonación naturalista e incluso detalles como chasquear los labios. Dependiendo de las muestras de habla que se ejecuten en el sistema, esto le permite desarrollar un "acento" único, que a largo plazo se puede utilizar para crear muchas voces diferentes.

norte

Afilado en la lengua

Quizás la mayor limitación del sistema WaveNet fue que requería una gran cantidad de potencia informática para funcionar, e incluso cuando se cumplía esta condición, no difería en velocidad. Por ejemplo, tomó alrededor de 1 segundo generar 0.02 segundos de sonido.

Después de un año de trabajo, los ingenieros de DeepMind todavía encontraron una manera de mejorar y optimizar el sistema para que ahora sea capaz de producir un sonido crudo de un segundo en solo 50 milisegundos, lo que es 1000 veces más rápido que sus capacidades originales. Además, los especialistas lograron aumentar la frecuencia de muestreo de audio de 8 bits a 16 bits, lo que tuvo un efecto positivo en las pruebas con los oyentes. Estos éxitos han allanado el camino para que WaveNet se integre en productos de consumo como Google Assistant.

Video promocional:

Actualmente WaveNet se puede utilizar para generar voces en inglés y japonés a través del Asistente de Google y todas las plataformas que utilizan este asistente digital. Dado que el sistema puede crear un tipo especial de voces, dependiendo del conjunto de muestras que se le proporcionó para la capacitación, es muy probable que en un futuro cercano Google implemente soporte para sintetizar voz realista en WaveNet en otros idiomas, incluso teniendo en cuenta. dialectos locales.

Las interfaces de voz son cada vez más comunes en una amplia variedad de plataformas, pero su pronunciada naturaleza antinatural del sonido apaga a muchos usuarios potenciales. Los esfuerzos de DeepMind para mejorar esta tecnología ciertamente contribuirán a la adopción más amplia de dichos sistemas de voz, así como también mejorarán la experiencia del usuario a partir de su uso.

Se pueden encontrar ejemplos de habla sintetizada en inglés y japonés utilizando la red neuronal WaveNet siguiendo este enlace.

Nikolay Khizhnyak

Recomendado: