Se
propone una
competición entre sistemas en una tarea de
verificación de la lengua similar a
la que organiza el NIST a nivel internacional, aunque con un menor
grado de
dificultad, con tan solo 4 lenguas objetivo (castellano,
catalán, euskera y
gallego) y señales de ancho
de banda y
SNR mayores. Los materiales de entrenamiento, desarrollo y
evaluación provienen
todos ellos de programas de televisión (informativos,
documentales, debates,
entrevistas, reportajes, magazines, etc.), de tres conjuntos disjuntos
e
independientes. Aunque se ha recogido una cierta cantidad de
señales en
condiciones ambientales y de canal relativamente difíciles
(reportajes desde la
calle, con conversaciones de fondo, música, ruido, etc.),
predominan
grabaciones limpias en estudio. Los resultados de
verificación serán evaluados
mediante el script empleado por el NIST en la 2007 Language Recognition
Evaluation, que previamente será adaptado a la tarea
propuesta. El corpus de
entrenamiento constará de aproximadamente 8 horas por lengua
(más de 30 horas
en total). Junto al corpus de entrenamiento se suministrará
un corpus de
desarrollo de características similares al de
evaluación. Este corpus de
evaluación constará de un total de no
más de 2000 ficheros, en las 4 lenguas
objetivo y en otras lenguas desconocidas y su duración no
excederá las 8 horas.
Sobre
cada sistema participante se enviará, antes del 1 de
Octubre,
una descripción en el mismo formato utilizado para el envío
de artículos.
Para
conocer
más detalles sobre la evaluación propuesta,
consulte el Plan detallado de
evaluación de sistemas ALBAYZIN-08 sobre
Verificación de la Lengua.
|