De las dos señales biológicas que se investigarán en este proyecto coordinado, se capturarán y procesarán las señales electromiográficas producidas por el aparato de producción del habla (señales sEMG).

Utilizando un conjunto de sensores ubicados sobre parte de la cara y de la garganta, se obtendrán las señales generadas por los movimientos de los músculos implicados en el proceso de producción del habla para a partir de ellas (sin uso de señales acústicas) generar de forma artificial una señal de voz. Para ello se utilizarán técnicas algorítmicas basadas en el aprendizaje profundo.

Aunque las interfaces de habla silenciosa pueden ser utilizadas en otros contextos (como por ejemplo para mantener la privacidad de una conversación telefónica o remota), nuestro proyecto está enfocado a proveer de voz a personas que han sido sometidas a una operación de largingectomía total. Estas personas, por lo general, recuperan un habla llamada esofágica tras un periodo de intenso aprendizaje, cuyas características distan notablemente de las del habla sana. Dado que aún conservan el control sobre los articuladores del habla, los datos del habla silencioso que reflejan los movimientos de los articuladores se pueden capturar y ser convertidos en habla artificial.

Creemos que los dispositivos SSI basados en sEMG pueden mejorar notablemente la calidad de vida de estas personas.

Durante el proyecto se generarán bases de datos de señales EMG y de habla que serán puestas a disposición de la comunidad investigadora. Además, se profundizará en el uso de las Redes Neuronales Profundas contribuyendo con nuevas arquitecturas de aprendizaje. El proyecto se llevará a cabo con la colaboración de expertos internacionales en el campo del habla silenciosa, y se colaborará con la asociación de laringuectomizados de Bizkaia no sólo para la obtención de datos, sino también y más importante para evaluación y validación de las técnicas desarrolladas.

Objetivos del proyecto

Proyecto coordinado (SP1 + SP2)
  • Explorar los caminos y avances en la aplicación de arquitecturas de redes neuronales generativas profundas de última generación para mejorar la calidad actual y la inteligibilidad de los SSI actuales utilizando EMG y ECoG.
  • Desarrollar corpus, bases de datos, protocolos y mejores prácticas para la investigación de SSI en idioma español.
  • Establecer una nueva línea de investigación y, en consecuencia, una infraestructura de investigación para la ISS en España.
  • Fortalecer los vínculos entre dos de los grupos de investigación en tecnologías del habla más consolidados a nivel nacional: Aholab de la UPV / EHU y SiGMAT de la UGR.
Objetivos de SP1
  • Establecer una infraestructura para la adquisición y procesamiento de señales EMG que permitan la investigación en el campo de SSI basados en EMG. 
  • Esta infraestructura incluye los sensores electrónicos, las interfaces y las capacidades informáticas necesarias. 
  • Desarrollar un sistema de referencia de alta calidad de síntesis de voz directa basado en EMG utilizando DNNs, incluyendo las bases de datos necesarias.
  • Investigar nuevas arquitecturas para superar el problema de la variabilidad entre sesiones y entre hablantes. 
  • Validar el uso de EMG SSI para ser utilizado por laringectomizados.

Gente

Equipo investigador del Subproyecto 1

Equipo de trabajo del Subproyecto 1