Student: Eder del Blanco Sierra
Supervisor: I. Hernáez Rioja
Este trabajo de fin de grado ha sido propuesto por el Laboratorio de Procesado de Señal Aholab, perteneciente al Departamento de Electrónica y Telecomunicaciones (DET) de la Escuela Técnica Superior de Ingeniería (ETSI) de la UPV/EHU.
Este trabajo se basa en el proyecto nació en el año 2011, cuando se intentó crear un robot capaz de improvisar y cantar versos (Bertsobot). Para ello colaboraron la Asociación de Amigos del Bertsolarismo [AAB] y tres laboratorios de la UPV/EHU: el grupo de Robótica y Sistemas Autónomos [GRSA] , Ixa [IXA] y Aholab [AHO] . En el proyecto original se creó un software que improvisaba versos a partir de una o más palabras clave o repetía versos almacenados en su memoria. El papel de Aholab en este proyecto fue el de dar voz a los versos, que otro software se encarga de crear.
La herramienta sobre la que se basa el sintetizador de voz cantada es un conversor de texto a voz creado por Aholab. El conversor de texto a voz genera voz hablada a partir de una entrada de texto plano. Para que la voz pudiera cantar, fue necesario implementar algunas adaptaciones, que permitieron cambiar la duración de las sílabas que se deben pronunciar y cambiar la frecuencia fundamental del sonido en cada una de ellas, para hacerlas coincidir con las notas de la melodía.
Sin embargo, las adaptaciones realizadas eran provisionales y el resultado que se obtuvo no fue muy satisfactorio. La voz sintetizada tenía escasa inteligibilidad y la melodía se entonaba dando lugar a saltos bruscos entre notas, de forma que resultaba muy robótica al oído humano. Además, en este sistema las frecuencias a las que se debe modular la voz y la duración de cada una debían ser especificadas manualmente, por lo que cambiar la línea melódica que se utilizará conllevaba una carga de trabajo. Se puede decir que el sistema inicial era demasiado estático, y no sería funcional si se pretendiera darle un uso más frecuente.
Los objetivos de este trabajo vienen dados por las deficiencias iniciales, y consiste precisamente en darles respuesta: conseguir que la pronunciación de la voz sintética sea más comprensible, solventar el problema de la transición entre notas y dinamizar la configuración de la melodía. La herramienta propuesta para lograr dichos objetivos es Pure Data, un lenguaje de programación visual ideado para crear música electrónica. El programa mediante el cual funciona ofrece múltiples herramientas para controlar en tiempo real el procesamiento de las señales. Por ello, es un recurso interesante para obtener mayor dominio sobre la entonación de la voz.