Alumno: Iker Luengo Gil
Directora: Eva Navas Cordón
Fecha defensa: 1 junio 2010
Mediante el trabajo desarrollado en esta tesis se pretende cubrir este vacío del campo del habla emocionada. Se presenta un análisis sistemático de las parametrizaciones acústicas más comúnmente utilizadas en la identificación automática de emociones, determinando así su capacidad para distinguir los diferentes estilos de habla y su efectividad en los sistemas de identificación. Se ha tenido especial cuidado en lograr que los resultados obtenidos para cada una de estas parametrizaciones sean comparables entre sí, utilizando para ello bases de datos y arquitecturas comunes durante todo el proceso.
El análisis presentado en este documento se ha llevado a cabo mediante diferentes métodos, estudiando cada parámetro por separado (a través de técnicas de ranking de parámetros), así como considerando todo el conjunto de parámetros (mediante medidas de dispersión multidimensional). También se describen los resultados obtenidos en pruebas experimentales de identificación automática, lo que
permite validar las conclusiones obtenidas durante el análisis.
En una primera fase, se ha realizado el análisis sobre emociones actuadas, utilizando la base de datos de habla emocional Berlin. Las conclusiones resultantes han sido posteriormente validadas en emociones naturales y habla espontánea, mediante la base de datos AIBO. En ambos casos se ha llegado a conclusiones similares, mostrando que aquellas parametrizaciones que destacan por su capacidad de discriminar emociones actuadas también obtienen los mejores resultados en situaciones más reales.
Los resultados desvelan que los parámetros prosódicos o de calidad de voz más habitualmente utilizados no son los más adecuados para la identificación automática de emociones, ya que las características espectrales presentan mayor capacidad de discriminación. Este efecto es más acusado cuando se consideran emociones naturales en habla espontánea.
Un análisis detallado de los parámetros sugiere que el escaso rendimiento de los parámetros prosódicos y de calidad de voz probablemente se debe a la dificultad en el cálculo de estos parámetros a partir de la señal de voz. Esta dificultad es todavía más evidente en voz espontánea. Aunque las características prosódicas y de calidad de voz son generalmente consideradas como un vehículo importante de la información emocional, la extracción de esta información mediante algoritmos automáticos no es sencilla, lo que provoca que los parámetros estimados sean poco robustos y aumenten la confusión en el sistema de clasificación. Por el contrario, las características espectrales muestran mayor estabilidad, a la vez que transportan una cantidad de información emocional considerable, haciendo que finalmente presenten mejores cualidades para la identificación.