Implementación y puesta a punto de un reconocedor de voz basado en Kaldi

El reconocimiento de voz es uno de los retos clave de la interacción hombre-máquina. Para construir un reconocedor de voz se necesitan dos cosas: (1) un software que modele la correspondencia entre audio y fonemas, y (2) una cierta cantidad de datos de voz, generalmente de múltiples hablantes, con los que aprender tal correspondencia (es lo que se conoce como entrenamiento). Respecto al software, existen herramientas públicamente accesibles como HTK o como la reciente Kaldi, que a juzgar por comparativas publicadas en artículos científicos funciona muy bien. Existen también otras aproximaciones basadas en DNNs. El objetivo de este proyecto es analizar diversas alternativas e implementar un reconocder para el euskera utilizando la que se considere más adecuada, usando para entrenarlo las bases de datos de voz disponibles en Aholab.

Requisitos: manejo de Linux , buenas dotes de programación (en algún punto será necesario tanto programar scripts como entender código), inglés , interés por aprender sobre tecnologías de la voz.

Se valorará: Python, Tensorflow

Directores: Inma Hernáez y David Tavárez (inma.hernaez@ehu.eus)

Previous post Red de doctorado ENRICH Next post Análisis de la voz alaríngea

You must be logged in to post a comment.

(no title)
12 February, 2026
We’re organizing a Special Session on Speech & Language Technologies in Healthcare at #Odyssey2026 (Lisbon) From voice-based diagnosis to assistive and inclusive communication technologies — research meeting real clinical impact. Submit by March 15 https://odyssey2026.inesc-id.pt/speech-and-language-technologies-in-healthcare/ Join us!
(no title)
11 February, 2026
Gorabehera baten ondorioz, web zerbitzu batzuk ez dabiltza ondo. Konpontzen ari gara. Barkatu. Due to an incident, some web services are not working properly. We’re fixing it. Sorry. Por una incidencia, algunos servicios web no funcionan correctamente. Estamos trabajando en ello. Disculpad.
(no title)
4 February, 2026
Santa Ageda bezpera dugu! Goazen kantari! Entzun nahi duzue bizkaieraren fonotekan daukagun herri literatura? l.eus/5n7kqica Hona hemen adibide bat! l.eus/hmwkluwl
(no title)
30 January, 2026
Publiko egin da EMG-Voc ReSSint Database datu-basea ELRAren bidez The EMG-Voc ReSSint Database has been made publicly available through ELRA. Se ha hecho pública a través de ELRA la base de datos EMG-Voc ReSSint Database https://islrn.org/resources/057-914-072-202-4/ https://catalog.elra.info/en-us/repository/browse/ELRA-S0498/
(no title)
14 January, 2026
Presentando en el Congreso Internacional de Fonética Experimental, CIFE X, en la Universidad de Córdoba. uco.congressus.es/cife2026/
(no title)
7 January, 2026
Our first paper of 2026 comes early! https://doi.org/10.1016/j.csl.2026.101939
(no title)
19 December, 2025
We have taken part in this year’s LibriBrain Competition, and our neural2speech system achieved first place in the Phoneme Classification Standard Track. A great milestone! https://neural-processing-lab.github.io/2025-libribrain-competition/prizes/
(no title)
19 December, 2025
Hemos participado en la LibriBrain Competition de este año, y nuestro sistema neural2speech ha logrado el primer puesto en el Phoneme Classification Standard Track. ¡Un gran avance! https://neural-processing-lab.github.io/2025-libribrain-competition/prizes/
(no title)
19 December, 2025
Aurtengo LibriBrain Competition-ean parte hartu dugu, eta gure neural2speech sistema lehen postua lortu du Phoneme Classification Standard Track-ean. Aurrerapausu galanta! https://neural-processing-lab.github.io/2025-libribrain-competition/prizes/
(no title)
7 November, 2025
Berriro eskura! Gure ahotsak Windows-en entzun ahal izateko AhoSAPI aplikazioa. De nuevo disponible la aplicación que permite utilizar nuestras voces en Windows: AhoSAPI. AhoSAPI, the app that allows the use of our voices in Windows systems is available again. https://aholab.ehu.eus/aholab/es/ahosapi/