Estudiante: Gemma Meseguer Castillo
Directoras: Christoforos Souganidis, Eva Navas Cordón and Inma Hernáez Rioja
Fecha de defensa: 03/07/2025
Este trabajo de fin de máster se centra en la diarización de locutores en audio de emisión, utilizando modelos de la plataforma NVIDIA NeMo. El objetivo principal es evaluar el rendimiento de estos modelos en entornos reales, como programas de televisión y radio, donde hay múltiples interlocutores y condiciones acústicas variadas.
Se han comparado diferentes sistemas de diarización, incluyendo NeMo y pyannote.audio, y se han analizado métricas como el Diarization Error Rate (DER), que mide errores como detecciones perdidas, confusión entre locutores y falsas alarmas. También se ha explorado el uso de herramientas como Itzuli para facilitar el procesamiento multilingüe.
Los resultados muestran que, aunque los modelos actuales ofrecen buen rendimiento en escenarios simples, todavía presentan desafíos en situaciones con solapamiento de voces o múltiples hablantes. Este trabajo contribuye al desarrollo de sistemas más robustos para aplicaciones como la transcripción automática, la monitorización de medios y la mejora de la accesibilidad.