Deep Voice, el sistema de IA de Baidu que aprende a hablar en poco tiempo y sin intervención humana


Baidu Research, el laboratorio de inteligencia artificial (IA) de Baidu, el gigante chino de búsquedas en Internet, desveló hace pocos días a Deep Voice, un sistema de texto-a-voz (TTS) de calidad de producción construido enteramente a partir de redes neuronales profundas y capaz de aprender a hablar rápidamente con poca o ninguna intervención humana.

Este nuevo sistema está basado en WaveNet, la red neuronal desarrollada por el proyecto DeepMind de Google que aprende a hablar mediante la escucha de las ondas de sonido del habla real al compararla con una transcripción del texto.

Deep Voice está inspirado en los tradicionales filtros de texto a voz y adopta la misma estructura, mientras que reemplaza todos los componentes con redes neuronales y utiliza características más sencillas. Esto hace que nuestro sistema sea más fácilmente aplicable a nuevos conjuntos de datos, voces y dominios sin ninguna anotación manual de datos o ingeniería de características adicionales”, señala el área de investigaciones de Baidu en un comunicado.

Cabe recordar que los actuales sistemas de conversión de texto a voz (TTS) se utilizan en aplicaciones de navegación, programas de accesibilidad para personas con incapacidad visual, relojes que hablan, contestadores automáticos, etc, y la mayoría de ellos fueron creados mediante la grabación de una gran base de datos de un único individuo, para luego recombinar los enunciados para armar nuevas frases.

El problema con estos sistemas es que es difícil cambiar a un nuevo orador o alterar el énfasis en sus palabras sin registrar una base de datos totalmente nueva. Así que los científicos informáticos han estado trabajando en otro enfoque con el fin de sintetizar el habla en tiempo real desde cero, como se requiere.

Con este objetivo en mente, los especialistas de Baidu decidieron utilizar técnicas de aprendizaje profundo (Deep Learning)  para convertir el texto de las más pequeñas unidades de sonido perceptualmente distintas, conocidas como “fenómenos”. A continuación, recurrieron a una red de síntesis de voz para reproducir dichos sonidos. Como cada etapa de ese proceso funciona por medio del aprendizaje profundo, una vez que Deep Voice ha sido entrenado no necesita prácticamente ningún ajuste físico humano.

Deep Voice y la síntesis del habla en tiempo real

Para comprobar que este nuevo sistema permite la síntesis del habla en tiempo real, los científicos de Baidu decidieron probarlo en la plataforma de crowdsourcing Amazon Mechanical Turk, pidiéndole a una importante cantidad de oyentes que calificaran la calidad del audio mientras lo comparaban con una grabación humana original.

Según indicaron los responsables del proyecto,  los resultados fueron de alta calidad. “Optimizamos la inferencia a velocidades más rápidas que en tiempo real, mostrando que estas técnicas pueden ser aplicadas para generar audio en tiempo real de forma fluida”, señalaron.




Ruben

Rubén es editor del sitio desde el año 2010. Colabora regularmente escribiendo noticias sobre tecnología, software, negocios, gadgets y ciencia. Sus intereses son Tecnología y Relaciones internacionales, tópico con el que también colabora en otros medios de publicación web.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *