WaveNet es una red neuronal profunda para generar audio muestra a muestra. Está creada por investigadores de la empresa de inteligencia artificial de Londres DeepMind. La técnica, descrita en un artículo en septiembre de 2016, es capaz de generar sonidos realistas como voces humanas modelando formas de onda directamente mediante redes neuronales entrenadas directamente a partir de muestras del habla humana real.[1] Pruebas realizadas con inglés y mandarín, mostraron que el sistema superaba los sistemas de síntesis del habla (text-to-speech, TTS) de Google, aunque aún es menos convincente que el discurso humano real.[2] La capacidad de Wavenet para generar formas de onda permite modelar cualquier clase de audio, incluyendo música.[3] Una empresa emergente canadiense llamada Lyrebird-AI ofrece tecnología similar, basada en un modelo de aprendizaje profundo diferente.[4]
Generar el discurso a partir de texto es una tarea cada vez más común debido a la popularidad de software como Apple Siri, Cortana, Amazon Alexa o el Ayudante de Google.[2]
La mayoría de tales sistemas utilizan una variante de una técnica que usa fragmentos de sonidos concatenados para formar sonidos y palabras reconocibles.[5] El más común de estos se llama síntesis concatenativa del habla.[6] Consta de biblioteca grande de fragmentos del habla, grabados de un hablante, que se concatenan para producir sonidos y palabras completos. El resultado no suena natural, con una cadencia y tono extraños.[7] La dependencia respecto a la biblioteca que haya sido grabada también lo hace difícil de modificar o cambiar la voz.[8]
Otra técnica, conocida como TTS paramétrica, utiliza modelos matemáticos para recrear sonidos que se reúnen en palabras y frases.[9] La información necesaria para generar los sonidos debe estar almacenada en los parámetros del modelo. Las características del habla producida están controladas mediante las entradas al modelo, mientras el habla se genera típicamente con una técnica de voz sintética denominada vocoder. Esto puede también resultar en que el sonido resulte antinatural.
WaveNet es un tipo de red neuronal conocido como red neuronal convolucional profunda. En WaveNet, la red toma las muestras de una señal como una entrada y sintetiza muestra a muestra la salida. Lo hace por muestreo de una distribución mediante una softmax (por tanto, categórica) de unas muestras codificadas utilizando una transformación μ-ley y cuantizada según 256 valores posibles.[10]
En el artículo de 2016, a la red se le suministraron formas de onda reales de habla inglesa y mandarín. Cuando estas entradas pasan a través de la red, ésta aprende un conjunto de reglas para describir cómo evoluciona la forma de onda en el tiempo. La red entrenada puede entonces crear nuevas formas de onda como habla a una frecuencia de muestreo de 16,000 muestras por segundo. Estos formas de onda incluyen ruidos de los labios y respiraciones realistas - pero no conforme a cualquier lengua.[11]
WaveNet tiene capacidad para modelar voces diferentes, con el acento y tono de la entrada correlacionada con la entrada. Por ejemplo, si está entrenada con alemán, produce habla en alemán.[12] Esta capacidad de clonar las voces ha levantado preocupaciones éticas sobre la capacidad de WaveNet para imitar las voces de personas vivas.
Esta capacidad también significa que si a la WaveNet se le dan otras entradas -como música- su producción será musical. En el momento de su publicación, DeepMind mostró que WaveNet podría producir formas de ondas sonoras como música clásica.[13]
Cuando se publicó, DeepMind dijo que WaveNet requirió demasiada potencia computacional para ser utilizada en aplicaciones de la vida real.[14] Pero en octubre de 2017, Google anunció un rendimiento 1.000 veces mejor junto con una mejor calidad de la voz. WaveNet era entonces utilizada para generar voces del Ayudante de Google para EE. UU.[15] En la conferencia anual de desarrolladores en mayo de 2018, se anunció que estaban disponibles nuevas voces del Ayudante de Google, hechas posible por WaveNet. WaveNet redujo mucho el número de grabaciones sonoras requeridas para crear el modelo de voz.[16]