1. azpiproiektua

Hizketa berrezartzeko ikaskuntza sakona, aurpegi-mugimenduen bioseinaleetatik abiatuta

SP1-en Deskribapena

DeepRestorek isilpeko ahots interfazeen erabilera ikertzea du helburu, hitz egiteko gaitasuna galdu duten pertsonengan komunikazioa berrezartzeko. Isilpeko ahots interfazeak ahotsa soetzeko prozesuan sortutako seinale biologiko ez-akustikoak atzematen dituzten gailuak dira, eta nahi den mezua iragartzeko erabiltzen dituzte. Silent-Speech-to-Text interfazeak —SSI— ahotsa ezagutzeko testuinguruan ikertu badira ere, proiektu hau zuzeneko ahotsaren sintesi-tekniketan zentratzen da, zuzenean sortzeko bere irteerari dagokion ahots-uhinaren forma.
Proiektu koordinatuan ikertuko diren bi seinale biologikoetatik, 1. azpiproiektuan, hizketa sortzen duen aparatuaren mugimenduek sortutako bi bioseinale atzemango dira: hizketaren ekoizpenean inplikatutako aurpegiko eta lepoko muskuluek sortutako seinale elektrikoak (sEMG seinaleak) eta aurpegitik hartutako bideo-irudiak. Aurpegian eta eztarrian kokatutako sentsore-multzo bat eta kamera bat erabiliz, eta seinale akustikorik erabili gabe, SSI gailuak seinale horiek deskodetuko ditu dagokion testu-mezuan (EMG testura) edo mezu akustikoan (EMG ahotsera). Horretarako, ikaskuntza sakonean oinarritutako teknika algoritmikoak erabiliko dira.

Isilpeko ahots- interfazeak beste testuinguru batzuetan erabil daitezkeen arren (adibidez, segurtasun-testuinguruan, telefono batean pribatutasuna mantentzeko), gure proiektuaren ardatza laringektomia osoko ebakuntza egin zaien pertsonei ahotsa ematea da. Ikasketa sakoneko aldi baten ondoren, pertsona horiek hestegorrikoa deritzon ahots bat berreskuratzen dute, baina ahots horren ezaugarriak eta hizketa osasuntsuarenak oso desberdinak dira. Oraindik ere mintzamenaren artikulatzaileen gaineko kontrola dutenez, artikulatzaileen mugimenduak islatzen dituzten hizketa isileko datuak atzeman eta hizketa artifizial bihur daitezke.

Gure ustez, sEMGn oinarritutako SSI gailuek nabarmen hobetu dezakete pertsona horien bizi-kalitatea. Proiektuak irauten duen bitartean, gaztelaniaz dauden datu-baseak beste hizkuntza batzuetan (ingelesez) dauden datuekin osatuko dira, eta ikertzaileen eskura egongo dira. Horrez gain, SoA Deep Neural Networks-en erabileran sakonduko da, ikasketa arkitektura berriei lagunduz. Proiektua hizketa mutuaren arloko nazioarteko adituen lankidetzarekin gauzatuko da, eta Bizkaiko Laringektomizatuen Elkartearekin lankidetzan arituko da, ez soilik datuak biltzeko: baita, garrantzitsuagoa dena, garatutako teknikak ebaluatzeko eta baliozkotzeko ere.

Helburuak

Hizkuntza anitzeko datu-base bat garatzea, ingeleserako eta gaztelaniarako bideoan oinarritutako EMG eta SSIko hainbat hizkuntzatako azterlanetarako.

EMG+bideotik testura sistema multimodal bat garatzea, gaztelaniarako

Ahotsa sortzeko sistema multimodal bat garatzea, bideoa+EMGa oinarri hartuta, gaztelaniarako

Hizkuntzen arteko egokitzapenerako eta EMG+bideoan oinarritutako ahotsa sortzeko sistemetan ikaskuntza transferitzeko teknika berritzaileak garatzea.