Ikaslea: Gemma Meseguer Castillo
Zuzendariak: Christoforos Souganidis, Eva Navas Cordón and Inma Hernáez Rioja
Defentsa-data: 03/07/2025
Master amaierako lan honek, NVIDIA NeMo plataformaren ereduak erabiliz, esatarien diarizazioa audio-emisioan du ardatz. Helburu nagusia da eredu horiek ingurune errealetan duten errendimendua ebaluatzea, hala nola telebista- eta irrati-programetan, non solaskide ugari eta askotariko egoera akustikoak baitaude.
Diarizazio-sistema desberdinak alderatu dira, NeMo eta pyannote.audio barne, eta Diarization Error Rate (DER) bezalako metrikak aztertu dira, akatsak neurtzen dituena, hala nola, detektatze galduak, esatarien arteko nahastea eta alarma faltsuak. Itzuli bezalako tresnen erabilera ere arakatu da, prozesamendu eleanitza errazteko.
Emaitzek erakusten dutenez, egungo ereduek agertoki sinpleetan errendimendu ona eskaintzen duten arren, oraindik erronkak dituzte ahotsak edo hiztun anitz gainjartzen diren egoeretan. Lan honek aplikazio batzuetarako sistema sendoagoak garatzen laguntzen du, hala nola, transkripzio automatikoa, bitartekoen monitorizazioa eta irisgarritasuna hobetzea.