Estudiante: Mirari Aldekoa
Fecha de defensa: Julio 2020
En los sistemas estadístico paramétricos de conversión texto basados en modelos de Markov es posible crear voces sintéticas adaptadas a la voz de un hablante utilizando muy pocos datos pertenecientes a ese hablante. Para ello se emplean técnicas de adaptación de locutor, en que se modifican los modelos de la voz de un locutor para convertirla en una voz parecida a la del locutor objetivo. La calidad de la voz sintética adaptada resultante depende en buena medida de la voz de la que se parte, y los mejores resultados se consiguen cuando se parte de una voz promedio, que
representa las características de muchos y muy diversos locutores.
El objetivo de este trabajo es obtener una voz promedio en castellano, para lo cual se deben recoger grabaciones de voz de diferentes locutores, junto con el texto correspondiente. Para ello se propone utilizar el repositorio de audiolibros de libre disposición LibriVox (https://librivox.org/). Una vez alineada la señal de voz y el texto, es posible entrenar la voz promedio.
Para la realización del trabajo se requieren conocimientos de programación (Python, scripts de Shell de unix).
Directora: Eva Navas (eva.navas@ehu.eus)