David Tavárez: Técnicas de mejora del rendimiento de los sistemas de diarización de locutores
Eder del Blanco
Título: TÉCNICAS DE MEJORA DEL RENDIMIENTO DE LOS SISTEMAS DE DIARIZACIÓN DE LOCUTORES
Autor: TAVAREZ ARRIBA, DAVID
Universidad: Universidad del País Vasco/Euskal Herriko Unibertsitatea
Departamento: Ingeniería de comunicaciones
Fecha de Lectura: 19/12/2016
Programa de doctorado: Programa Oficial de Doctorado en Tecnologías de la Información y Comunicaciones en Redes Móviles
Dirección:NAVAS CORDÓN, EVA (Director)
Tribunal:HERNÁEZ RIOJA, INMACULADA (presidente)ERRO ESLAVA, DANIEL (secretario)ORTEGA GIMENEZ, ALFONSO (vocal)
Descriptores:TECNOLOGIA DE LAS TELECOMUNICACIONES
Resumen:El objetivo de la diarización es detectar los cambios de locutor en una grabación e identificar qué segmentos de voz corresponden a un mismo locutor, respondiendo a la pregunta ¿quién habló cuándo? El trabajo realizado en esta tesis abarca diferentes aspectos relacionados con el proceso de diarización de locutores, centrando el esfuerzo en los problemas comunes a los diferentes campos de aplicación.En primer lugar, se han recopilado dos nuevas bases de datos que permitirán el desarrollo y la implementación de nuevos sistemas de diarización en los dos principales ámbitos de aplicación. Además, se han diseñado dos nuevas técnicas de segmentación de audio, refrendadas con éxito en distintas campañas de evaluación organizadas por la Red Temática en Tecnologías del Habla. Se ha desarrollado un método de fusión de etiquetas que tiene en cuenta el desequilibrio entre clases, habitual en distintas áreas del procesado de la voz, como son la segmentación de audio, el reconocimiento de emociones o el reconocimiento y verificación de locutores. En cuanto a la tarea de segmentación de locutores, se ha introducido en esta tesis una técnica de detección de cambios de turno basada en el análisis trama a trama, que permite extender el funcionamiento online a los sistemas de diarización. Por último, se ha propuesto una técnica de mejora de la diarización basada en la identificación y reagrupamiento de clusters pertenecientes a un mismo locutor.