Aplicaciones de las tecnologías del habla en sistemas CALL y CAPT
by Néstor Becerra Yoma (Universidad de Chile)

Se ha observado últimamente un gran interés en la comunidad internacional por el potencial de tecnología de voz en las aplicaciones relacionadas con educación tales como CALL (Computer Aided Language Learning). CALL y CAPT (Computer Aided Pronunciation Training), en particular, se pueden considerar como frameworks interesantes para aplicar de modo masivo tecnología del habla. Sistemas CALL ofrecen varias ventajas sobre los métodos convencionales de clases presenciales con profesor: las lecciones se pueden preparar ad-hoc a una clase o a cada estudiante; los estudiantes, a su vez, pueden practicar ejercicios desde sus casas, laboratorio o en cualquier otro lugar en condiciones menos estresantes y embarazosas que en frente del profesor y de otros alumnos; aquellos estudiantes con dificultades de aprendizaje pueden disponer de apoyo extra para estudiar y practicar de modo más interactivo y dinámico que simplemente con un libro; y, finalmente, el problema de baja penetración en varias regiones de profesores debidamente entrenados para enseñar un segundo idioma es alivianado. Además las tecnologías de voz tienen el potencial de proveer una retro-alimentación adecuada para corregir errores sin la necesidad imperativa de asistencia humana. Esta motivación es de especial importancia para motivar a practicar y aprender. Sin embargo, estas tecnologías sus propias limitaciones y estrategias del tipo "plug-and-play" tienden a fallar en nuestro campo.

En esta charla se discutirá el estado de avance de tecnología CAPT, y se describirá el diseño y puesta en marcha de un sistema distribuido en Internet para la enseñanza de inglés como segundo idioma en Chile. El sistema usa la tecnología de reconocimiento de voz, basada en HMM, para la evaluación de calidad pronunciación y para dar respuestas por voz en actividades de comprensión de texto y de asociación de palabras a significados. La evaluación de entonación se implementa separada de la de fonética utilizando estimación de pitch y alineamiento no lineal entre la elocución de test y la de referencia. La plataforma también ofrece actividades de dictado mediante las cuales el alumno debe transcribir palabras y frases. Algoritmos de programación dinámica permiten dar una nota en función del número de errores. Es interesante destacar que la plataforma propuesta puede ser vista como una etapa hacia IALL (Internet Aided Language Learning) una vez que el servicio se ofrece a través de la Internet y todo el procesamiento se realiza de modo centralizado. Finalmente, se presentan resultados prelimares de experimentos de usabilidad realizados con alumnos de un colegio público de Santiago.

Néstor Becerra Yoma nació en Santiago, Chile, en 1964. He recibió los grados de B.Sc (1986) y el M.Sc (1993) de la UNICAMP (Campinas State University), Sao Paulo, Brasil, y el grado de doctor (1998) de la Universidad de Edimburgo, UK, todos ellos en Ingeniería Eléctricaall of them in Electrical Engineering. En 1998 y 1999, fue investigador post-doc en UNICAMP y profesor a tiempo completo en Mckenzie University en Sao Paulo, Brasil.

Desde el año 2000, es profesor en el Departamento de Ingeniería Eléctrica de la Universidad de Chile en Santiago, impartiendo clases de telecomunicaciones y procesado de voz, y trabajando en reconocimiento de voz y de locuror, sistemas de diálogo y voz sobre IP. En la Universidad de Chile, ha creado el Laboratory para Procesado y Transmisión de voz, para el studio de las tecnologías del habla y sus aplicaciones sobre la línea telefónica e internet. Es miembro del IEEE y de la ISCA (International Speech Communication Association).

Conferencia invitada 3