Subproyecto 1

Aprendizaje profundo para la restauración del habla a partir de bioseñales de movimientos faciales

Descripción SP1

DeepRESTORE tiene como objetivo investigar el uso de Interfaces de Habla Silenciosa (SSI) para restaurar la comunicación en personas que han sido privadas de la capacidad de hablar. Las interfaces de habla silenciosa son dispositivos que capturan señales biológicas no acústicas generadas durante el proceso de producción de voz y las utilizan para predecir el mensaje emitido. Si bien las SSI se han investigado principalmente en el contexto del reconocimiento de voz (Silent-Speech-to-Text), este proyecto también investigará las técnicas de síntesis de voz directa, generando así directamente la forma de onda de voz correspondiente.

De las dos señales biológicas que se investigarán en el proyecto coordinado, en el subproyecto 1 se captarán dos bioseñales producidas por los movimientos del aparato productor del habla: las señales eléctricas generadas por los músculos de la cara y el cuello implicados en la producción del habla (señales sEMG ) e imágenes de video capturadas de la cara. Usando un conjunto de sensores ubicados en la cara y la garganta, y una cámara, y sin el uso de señales acústicas, el dispositivo SSI decodificará esas señales en el mensaje de texto (EMG a texto) o acústico (EMG a voz) correspondiente. Para ello se utilizarán técnicas algorítmicas basadas en el aprendizaje profundo.

Aunque las interfaces de habla silenciosa se pueden utilizar en otros contextos (como por ejemplo en el contexto de seguridad, para mantener la privacidad en un teléfono), nuestro proyecto se centra en proporcionar voz a las personas que se han sometido a una operación de laringectomía total. Tras un período de intenso aprendizaje estas personas suelen recuperar una voz llamada esofágica, cuyas características son marcadamente diferentes a las del habla sana. Dado que aún conservan el control sobre los articuladores del habla, los datos del habla silenciosa que reflejan los movimientos de los articuladores se pueden capturar y convertir en habla artificial.

Creemos que los dispositivos SSI basados en sEMG pueden mejorar significativamente la calidad de vida de estas personas. Durante el proyecto se completarán las bases de datos existentes en español con más datos en otros idiomas (inglés) que estarán a disposición de la comunidad investigadora. Además, se profundizará en el uso de SoA Deep Neural Networks, contribuyendo a nuevas arquitecturas de aprendizaje. El proyecto se llevará a cabo con la colaboración de expertos internacionales en el campo del habla muda, y colaborará con la Asociación de Laringectomizados de Bizkaia no solo para la recogida de datos, sino también y más importante para la evaluación y validación de las técnicas desarrolladas.

Objetivos

Desarrollar una base de datos multi-lenguaje para estudios en varios idiomas de EMG y SSI basados en video para inglés y español

Desarrollar un sistema multimodal EMG+video a texto para español

Desarrollar un sistema de generación de voz multimodal basado en video+EMG para español

Desarrollar técnicas novedosas para la adaptación entre idiomas y la transferencia de aprendizaje en sistemas de generación de voz basados en EMG+video.