Proyecto – BrAIn2Lang Project

La decodificación del habla directamente a partir de señales cerebrales es un campo en rápido avance, pero también altamente complejo, situado en la intersección entre la neurociencia, la inteligencia artificial y la comunicación asistiva. Mientras que los sistemas neuroprotésicos invasivos basados en registros intracraneales han logrado resultados impresionantes en la reconstrucción del habla en poblaciones clínicas, sus riesgos quirúrgicos, su limitada escalabilidad y sus elevados requisitos de entrenamiento ponen de relieve la necesidad de alternativas no invasivas como EEG, MEG o fMRI. Sin embargo, la investigación actual con técnicas no invasivas sigue siendo limitada y a menudo se centra en características motoras de bajo nivel y en entornos monolingües. El proyecto propuesto aborda estas limitaciones mediante el uso de representaciones semánticas, modelado multilingüe (español–euskera), aprendizaje autosupervisado e inteligencia artificial explicable, con el objetivo de construir sistemas cerebro-a-habla más robustos, interpretables y escalables. Para ello combina neuroimagen multimodal y modelado generativo, avanzando tanto en la comprensión científica del problema como en el desarrollo de aplicaciones asistivas reales.

Subproyecto 1:
MEGLinguaAI

EQUIPO

SP1 investiga la decodificación de la actividad cerebral relacionada con el habla a partir de registros de MEG, con el objetivo de reconstruir tanto lenguaje hablado como escrito a partir de señales neuronales no invasivas. Los experimentos abarcarán cuatro condiciones: escucha, articulación explícita, articulación silenciosa y habla imaginada. La adquisición de datos se llevará a cabo en las instalaciones de SP3, aprovechando su infraestructura de MEG, sus protocolos de reclutamiento de participantes y su experiencia técnica. Un desafío metodológico central es la anotación a nivel de fonema de la actividad cerebral en condiciones sin salida acústica (por ejemplo, habla imaginada o silenciosa). Para abordarlo, SP1 desarrollará y evaluará una combinación de modelado articulatorio, inferencia de trayectorias motoras y técnicas de alineamiento estadístico para estimar los probables inicios de los fonemas. Las primeras fases de los sistemas de decodificación se centrarán en la identificación de comandos —una tarea de clasificación controlada— antes de avanzar hacia la decodificación abierta, en la que las salidas se reconstruyen como habla o texto continuos. Para ello, SP1 explorará arquitecturas basadas en transformers como Wav2vec2, HuBERT o Whisper para la generación de audio, y modelos de lenguaje de gran tamaño como GPT o variantes de LLaMA para la generación de texto. El desarrollo metodológico se coordinará estrechamente con SP2, lo que permitirá comparar arquitecturas y aplicar modelos de forma cruzada sobre datos neuronales obtenidos mediante distintas modalidades de registro. Se prestará especial atención a la generalización entre condiciones y a la interpretabilidad de los modelos. Este enfoque integrador permite estudiar las representaciones neuronales del habla, tanto compartidas como específicas de cada condición, y favorece el desarrollo de interfaces cerebro-ordenador no invasivas capaces de generar lenguaje inteligible en forma hablada y escrita.

Institución encargada

Centro Hitz
(Universidad del País Vasco)

Investigadora principal

Eva Navas

Subproyecto 2:
NeurSpeechXAI

Hospital Universitario Virgen de las Nieves

EQUIPO

SP2 se centra en el desarrollo de modelos robustos de decodificación neuronal que integren conocimiento semántico y mecanismos de explicabilidad. Los datos neuronales se recogerán mediante tres técnicas: sEEG, EEG y fMRI. Los datos de sEEG se obtendrán de pacientes portadores de electrodos profundos implantados con fines de monitorización clínica en la Unidad de Cirugía de la Epilepsia del Hospital Universitario Virgen de las Nieves de Granada (HUVN), mientras que los registros de EEG y fMRI se realizarán con adultos sanos hispanohablantes en las instalaciones del centro de investigación CIMCYC de la Universidad de Granada. Las tareas experimentales se diseñarán en colaboración con SP3 para estudiar la producción y la percepción del habla en distintos niveles de complejidad lingüística, incluyendo articulación de fonemas, comandos comunes de comunicación aumentativa y alternativa (CAA), frases fonéticamente equilibradas y tareas de nivel semántico como la denominación de imágenes y la descripción de escenas. También se implementarán tareas multilingües en colaboración con socios en los Países Bajos para apoyar la construcción del corpus español-neerlandés. Los conjuntos de datos se anonimizarán y se prepararán para su compartición abierta. A partir de estos datos, SP2 desarrollará, con la participación de SP1, modelos de decodificación basados en aprendizaje autosupervisado aplicado a grandes volúmenes de datos no etiquetados de EEG y sEEG, seguidos de un ajuste fino para tareas de habla y lenguaje. Modelos generativos como la difusión latente y arquitecturas codificador-decodificador se condicionarán a la actividad neuronal para generar salidas en forma de habla o texto. Finalmente, se integrarán técnicas de inteligencia artificial explicable, incluyendo métodos basados en mapas de saliencia y herramientas de atribución de características, con el fin de interpretar las decisiones de los modelos. Esto permitirá mejorar la transparencia de los sistemas, favorecer la confianza clínica y aportar conocimiento sobre la contribución de regiones cerebrales específicas y de determinados patrones neuronales al procesamiento fonológico y semántico, así como sobre la dinámica neuronal durante estas tareas cognitivas.

Instituciónes encargadas

Universidad de Granada
Hospital Universitario Virgen de las Nieves

Investigador Principal

José A. Gonzalez

Subproyecto 3:
Deco-B

EQUIPO

El objetivo del SP3 es investigar hasta qué punto las redes semánticas se solapan entre lenguas en individuos bilingües. Con este fin, el equipo decodificará habla percibida a partir de señales de MEG y fMRI utilizando un modelo contrastivo multimodal basado en transformers.

Los datos de neuroimagen se recogerán de 20 sujetos bilingües equilibrados euskera–castellano (adultos jóvenes diestros), que escucharán pasajes de habla de 15 minutos grabados tanto en euskera como en castellano. Los participantes completarán cuatro sesiones de MEG y cuatro sesiones de fMRI, cada una con una duración aproximada de 2 horas. Este enfoque permitirá obtener una cantidad sustancial de datos neuronales en ambos idiomas y en las dos modalidades de neuroimagen. Además, se utilizará una sesión adicional de fMRI para administrar dos tareas de localización funcional (un localizador motor/articulatorio y un localizador de procesamiento del lenguaje), que ayudarán a identificar las regiones cerebrales implicadas en la producción del habla y en el procesamiento del lenguaje, facilitando así la interpretación de las señales neuronales registradas durante la tarea principal. Todos los datos neuronales se preprocesarán utilizando pipelines de análisis de última generación.

Para investigar la relación entre la actividad neuronal y el significado del habla, el equipo desarrollará modelos computacionales entrenados con dos fuentes complementarias de información:
(a) los estímulos de habla, a partir de los cuales se extraerán representaciones semánticas contextualizadas mediante modelos de lenguaje preentrenados como GPT-2, XLM-R, mT5 y LaBSE; y
(b) los datos de MEG y fMRI recogidos durante la tarea de escucha.

El equipo mapeará así las características semánticas extraídas de los estímulos de habla con las señales cerebrales asociadas. Para integrar las distintas características espacio-temporales de MEG y fMRI, el SP3 implementará estrategias avanzadas de fusión multimodal, incluyendo transformers multimodales, modelos de espacio latente compartido (p. ej., Deep CCA, VAE multimodales) y marcos de aprendizaje contrastivo inspirados en modelos como CLIP. Una vez establecida la correspondencia entre las representaciones de los estímulos y los datos neuronales, el equipo examinará hasta qué punto las respuestas neuronales provocadas por ambas lenguas reflejan la activación de redes semánticas compartidas. En particular, el SP3 evaluará si dichas redes pueden aprovecharse para decodificación cerebro-a-habla entre lenguas.

Este análisis permitirá evaluar en qué medida la organización neuronal de la información semántica se generaliza entre lenguas en individuos bilingües, así como el potencial de viabilidad de interfaces cerebro-ordenador multilingües.

Finalmente, SP1 y SP2 aportarán pipelines de decodificación y herramientas de modelado que podrán emplearse para abordar estos objetivos, así como métodos de explicabilidad en IA que facilitarán la interpretación de las representaciones aprendidas entre actividad neuronal y semántica.

Institución encargada

BCBL Basque Center on Cognition, Brain and Language

Investigador principal

Nicola Molinaro