Áreas de interes – Aholab-GTTS

Tecnologías del habla para la diversidad funcional

El grupo ha desarrollado un sistema de conversión de texto a voz que, sobre todo para el euskera, ha alcanzado un elevado nivel de difusión en el País Vasco. En este proyecto se propone la investigación delas técnicas basadas en redes neuronales, con el fin de obtener un TTS de calidad superior al actual.
Adicionalmente, también se pretende mejorar la calidad de las voces personalizadas, investigando estrategias para realizar la adaptación de las voces utilizando redes neuronales. De especial importanciaes la capacidad de personalización de la voz cuando se trata de un donante de voz con patología: elobjetivo es obtener voces sintéticas que representen e identifiquen a la persona donante, de forma quepueda utilizarla integrada en su dispositivo de comunicación alternativa.
Por otro lado una de las mayores limitaciones que sufren las personas que presentan una patología en el habla es la dificultad de ser comprendidos por los sistemas automáticos de reconocimiento de voz. En el proyecto se investigarán diferentes estrategias, basadas en el empleo de redes neuronales profundas para realizar la conversión de las señales de forma que mejore su inteligibilidad, de forma especial frente a los sistemas ASR.

Subtitulado automático y búsqueda de términos hablados y escritos en recursos audiovisuales multilingües
El grupo dispone de una gran cantidad de datos de audio y texto de las sesiones parlamentarias del Parlamento Vasco, en castellano y euskera. Estos datos ofrecen al nuevo grupo la posibilidad de mejorar tanto los modelos acústicos ya disponibles como los modelos del lenguaje del sistema de reconocimiento desarrollado previamente y que está siendo utilizado por otros agentes tecnológicos (diccionario de la Fundación Elhuyar) del País Vasco. En esta nueva fase se pretende realizar las gestiones necesarias para que dichos datos puedan dar lugar a un reconocedor de habla continua para el euskera que pueda ponerse a disposición de otros agentes tecnológicos para su comercialización. Se desarrolla una base de datos de 3 años de sesiones parlamentarias de la que se extraerán aproximadamente 4 horas con etiquetado de alta calidad. Esta parte se pondrá a disposición de la comunidad investigadora a través de las agencias de distribución de datos (LDC, ELRA). Se pretende también desarrollar un prototipo de subtitulado automático de las sesiones parlamentarias capaz de detectar cambios de locutor y cambios de idioma, y deberá alinear adecuadamente el audio utilizando tanto las transcripciones manuales (obtenidas de las actas oficiales de las sesiones) como las transcripciones automáticas obtenidas por reconcimiento automático del habla.
También en el campo de la extracción automática de información se producirá la colaboración de los grupos, por tener ambos experiencia en este ámbito. El objetivo general es mejorar tanto la búsqueda por voz como por texto de los sistemas actualmente disponibles, principalmente incorporando redes neuronales profundas en el proceso de extracción de las características (posteriores fonéticos o BNFs).

Detección y clasificación de ruidos en vehículos
La investigación del grupo en esta línea surge de la colaboración con Mercedes-Benz Vitoria con una visión muy cercana a la aplicación de las tecnologías al proceso de fabricación y de calidad de la planta.
Dentro de sus procedimientos de control de la calidad sonora de los vehículos la presencia de ruidos de tipo zumbidos, chirridos y traqueteos (Buzz, Squeak and Rattle, BS&R) es determinante y por ello orientamos la línea de investigación a la aplicación de las redes neuronales a la detección de estos eventos sonoros.
El reto más importante es la aplicación de estos sistemas de detección en un entorno real de conducción, que es dónde se producen los ruidos molestos de BS&R. El sistema automático tiene que ser extraordinariamente robusto para funcionar en condiciones muy desfavorables de relación señal a ruido en entornos muy variables: diferentes tipologías de vehículo, diferentes condiciones de conducción y diferentes fuentes de ruido.
El objetivo perseguido es crear un sistema automático de audición (machine listening) que se integre en los procedimientos de control de calidad y análisis funcional de la planta, y que facilite la detección, clasificación y localización de los ruidos indeseables que afectan a la calidad sonora del vehículo.