Uno de los mayores problemas en la producción de voz esofágica en pacientes laringectomizados es la falta de pitch o frecuencia fundamental que produce señales poco naturales. Aplicando técnicas de conversión de voz se puede mejorar la calidad de sus voces [1][2], pero la ausencia de frecuencia fundamental es un problema que persiste en las señales convertidas limitando su calidad. Las redes generativas antagónicas (Generative Adversarial Networks, GANs) han sido aplicadas con éxito en la conversión de voz susurrada (carente de frecuencia fundamental) a voz sonora [3]. En este trabajo se propone explorar estas técnicas basadas en aprendizaje profundo para restaurar la frecuencia fundamental en señales sonoras a las que se les habrá eliminado previamente la información de frecuencia fundamental, como primer paso para obtener un sistema de restauración de pitch válido para pacientes laringectomizados. Para ello, se propone aplicar la arquitectura disponible en [4].
Para la realización del trabajo se requieren conocimientos de programación, principalmente Python y scripts de Shell de Unix.
Directoras: Inma Hernáez (inma.hernaez@ehu.eus) y Eva Navas (eva.navas@ehu.eus)