Erreportaia
2003ko Maiatzaren 18a - 1899. alea

Ingeniaritza linguistikoa
GIZAKI ETA MAKINEN ARTEKO KOMUNIKAZIOA
Ordenagailuek hizkuntza gizakiok ulertzen dugun bezala ulertuko duten eguna urrun bada ere, aplikazio interesgarri eta baliagarriak egin dira ingeniaritza linguistikoaren esparruan. Sistema gehienek ingeleserako balio dute eta beste hizkuntzek ahalegin handia egin behar dute atzean ez gelditzeko. Hori dela-eta, ingeniaritza linguistikoan diharduten euskal ikerketa taldeen helburua gure hizkuntza ingelesaren mailara iristea da. Hori lortzeko, industria eta erakunde ofizialen arteko koordinazioa ezinbestekoa da.

Hizkuntza teknologiak funtsezkoak dira informazio eta komunikazioaren gizartean. Egun, badira zenbait hizkuntza aplikazio eskuragarri, hala nola, ortografia eta estilo zuzentzaileak, on-line hiztegiak, itzulpen laguntzaileak, Interneterako bilatzaileak, hizketa testu bihurtzen duten sistemak, testuak irakurtzen dituztenak... Sistema hauen eta gizakiaren arteko komunikazioa lantzen duen zientziari deritzo ingeniaritza linguistikoa, pertsona eta makinen arteko komunikazioari, alegia.

Euskal Herrian badira ingeniaritza linguistikoa lantzen duten zenbait enpresa eta talde, besteak beste, Elhuyar, IXA, Eleka, Code & Sintax, VicomTech, Hizkia, Plazagunea, Ametzagaiña eta Aholab. Unibertsitate mailan ere, esaterako EHUko Zientzia Fakultatean, Bilboko Industri Injineruen Eskolan eta Gasteizko Injineru Teknikoen Eskolan, bada honetan jarduten duenik.

Ingeniaritza linguistikoaren munduan lantzen diren esparru ezberdinak eta Euskal Herrian duten trataera eta ikerlana ezagutu xedez, hiru enpresetara jo dugu, hain zuzen ere Eleka, Aholab eta Ametzagaiñara. Teknologia linguistikoetan espezializatuak diren Eleka enpresan esaterako, Josu Waliño ikertzailearekin hitz egin dugu. Teknologia linguistiko estrategikoak garatzeko eredu aitzindaria da Eleka. Urteak daramatza ingeniaritza linguistikoaren arloan ikertzen, behar dokumentalei eta linguistikoei aurre egiteko teknologiak eta irtenbideak garatzen. Unibertsitateetan garatzen diren teknologietan oinarrituta eta produktuen gaineko lizentzien bidez bezeroen eskakizunen arabera tresnak garatzea da haien eginkizun nagusia.

Bi talde elkartuz sortu den enpresa proiektua da Eleka: IXA Taldea eta Elhuyar Fundazioa. Errendimendu Handiko Taldea izendatu du Eusko Jaurlaritzak EHUko Informatika Fakultateko IXA Taldea. Talde horrek 15 urte eman ditu ingeniaritza linguistikoaren arloan. Hainbat produktu garatu dituzte, esaterako, Xuxen (Worden txertatutako euskarazko zuzentzaile ortografikoa), lematizazioan oinarritutako Interneteko bilatzaileak eta hainbat tresna linguistiko. Bestalde, Elhuyar Fundazioak hizkuntzaren esparruan hogeita hamar urteko esperientzia du. Denbora honetan zehar, Euskal Herriko hizkuntzalaritzaren arloan enpresa aitzindaria bihurtu da Elhuyar.

Josu Waliñoren ustez, ingeniaritza linguistikoa hizkuntza eta informazioa informatikaren bidez tratatzea da. Bi arlo ezberdintzen dira zientzia honetan: Testuaren tratamendu informatizatua, hau da, lengoaia naturalaren prozesamendua eta bestetik, ahotsaren tratamendua. Azken honen barruan bi arlo bereizi behar dira, ahotsaren sintesia, hots, ordenagailuak hitz egitea, eta ordenagailuak zuk esandakoa transkribatzea edota ulertzea. Waliñoren aburuz, ezagutzaren tratamendua da ingeniaritza linguistikoaren helburua, maila guztietan. Informazioa ezagutza da, era testualean nahiz ahotsaren bitartez eman daitekeena. Beraz, informazio hori jaso eta ezagutza tratatzeko aukera izatea da xedea. Honekin lortzen dena da pertsonek egun behartuta egitera gauden hainbat lan ordenagailuek era automatikoan egitea; itzulpena esaterako. Itzulpen automatikoaren helburua sistema bat testu bat bere testuinguruan ulertzeko gai izatea eta itzultzea izango litzateke. Ahots errekonozimenduan beste horrenbeste izango litzateke, ezagutzaren tratamendua.
Nazioartean informatikaren lehen pausoekin hasi ziren ingeniaritza linguistikoa lantzen. Euskal Herri mailan aldiz, Informatika Fakultateko IXA taldea hasi zen arlo hau jorratzen duela 15 urte. Beraz, EHUn hasi zen ingeniaritza linguistikoa lantzen eta ikertzen. Ondoren, IXA taldeak eta Elhuyar Fundazioak Eleka sortu zuten ingeniaritza linguistikoa enpresetara eramateko. Memento honetan, zortzi laguneko ikerketa talde batek euskarazko zuzentzaile gramatikala lantzen dihardu. Urtebete barru amaitua egotea espero dute. Orain arte Elekak testuaren tratamendu informatizatua landu badu ere, Elhuyarrekin, Aholabekin, IXArekin, Robotikerrekin eta VicomTechekin bat eginik, ahots errekonozimendua landuko du lehen aldiz. Hain zuzen ere, ahotsaren bitartez euskarazko bilaketak egiteko proiektua dute. «Hizking 21» izeneko hiru urteko proiektu honen helburua euskara ingelesaren mailara iristea da.

Euskara informatikoki lantzeko zailtasunak

Euskarak informatikoki landua izateko bi zailtasun nagusi ditu. Alde batetik morfologia, hau da, hizkuntzaren berezitasun linguistikoa. Hizkuntza osatzeko garaian, adibidez, zuzentzaile ortografiko bat egiten bada, gaztelaniaz hitz zerrenda mugatu bat nahiko da. Aitzitik, euskaraz zerrenda hori mugagabea bihurtzen da hitzen aldaera posible guztiekin eta deklinabideekin. Beraz, arau linguistikoetan oinarrituz funtzionatu behar da. Bestalde, ingelesa eta gaztelaniarekiko, oinarrizko baliabideetan oso atzeratua dago euskara. Garrantzitsua da ingeniaritza linguistikoetan lan egiteko corpus handiak izatea, bai ahotsean eta bai testuan. Josu Waliñok dioen moduan, "uzta jasotzeko erein egin behar da eta guri ereiteko lur hori falta zaigu. Lur hori eraikitzen dihardugu orain, ondoren aplikazio indartsuak lortzeko. Zalantzarik gabe, ingelesa da teknologia hauetan hoberen kokatuta dagoen hizkuntza".

Ahots errekonozimendua

Ahots errekonozimenduan gehiago sakondu nahian, Gasteizko Ingeniari Teknikoen Eskolan Sistemen Ingeniaritza eta Automatika saileko koordinatzaile eta Aholab ikerkuntza taldeko kide den Karmele Lopez de Ipiñarengana jo dugu. "Euskal Herrian nahiko aberatsa da ingeniaritza linguistikoan ahotsaren errekonozimendua, Unibertsitate munduan nahiz enpresa munduan", baieztatu digu Lopez de Ipiñak. Euskal Herrian, besteak beste, IXA taldea eta Aholab taldeak dihardute ahots errekonozimendua lantzen. IXA taldeak lengoaia naturala lantzen du gehienbat eta Aholab-ek, aldiz, hizketaren tratamenduan dihardu. Azkeneko honetan bi arlo ezberdindu beharko lirateke: batetik, ahots bihurketa eta bestetik, ahots ezagutza. Lehenengoa konputagailuak hitz egiteko izango litzateke, bestea ordea hiztunak egiten duen mezua ulertzeko. Enpresa munduan, lehen aipatu legez, Eleka enpresak dihardu honetan. Telefonicak, Euskaltelek, Fagorrek... ere zenbait lantxo egin dituzte arlo honetan.

Katalunian kokatuta dagoen ATLAS (Applied Technologies on Language and Speech) enpresak esaterako, euskaraz ataza sinpleak ezagutzeko sistema garatu du. Honekin lortzen dena da konputagailuari hitz egitea, berak mezu bat ulertzea, transkribatu edota hitz gako batzuen bitartez bilaketa batzuk egin edota gailu bat aktibatzea. Aholab taldea berriro hizpide hartuta, testuak transkribatzeko prototipo bat lantzen ari dira, ikerkuntza mailan betiere. Talde honek euskara ere badu erreferente, bestelako aplikazioak ezagutzeko zenbait ataza landu dituzte, besteak beste domotikan aplikatzeko, elbarrientzako aplikazioak... Mementoz ezer komertzialik ez badute ere, ikerkuntzan zenbait aplikazio garatu ditu Aholab taldeak. Finantziazio aldetik, tresna hauek garatzeko datu base onak behar direnez inbertsio handiak egin behar direla jakinarazi digu Karmele Lopez de Ipiñak. "Datu guztiak bildu, etiketatu eta tratatzeko baliabideak behar dira eta finantziazioa ezinbestekoa da. Nire ustez erakundeak sartuko dira finantziazio honetan eta hiru urte barru egoera aldatzea espero dut. Izan ere, honek beste sistema batzuk garatu eta aurrerapen, ikerkuntza eta baliabide gehiago edukitzea ekarriko bailuke. Memento honetan bilaketak egiteko finantziazioa eta denbora ez da hain handia. Urte honetan behingoz zerbait operatiboa eta erabilgarria edukitzea espero dugu".

Hizkuntzaren tratamenduari dagokionez, bat dator Aholabeko kidea Josu Waliñorekin, hots, euskara informatikoki landua izateko zailtasun nagusia hizkuntzaren egitura morfologikoa dela adierazi digu: «Zailtasun honen aurrean beste eredu batzuk aurkitu behar izan ditugu, esaterako turkiera. Ahotsa eta hotsak grabatzeko ez dugu batua bakarrik erabili, euskalki guztiak baizik, batez ere hots ezberdinak egon daitezkeelako».

Naturaltasuna da sistema hauen helburua. Orain arte eginiko sistemak deserosoak izan dira erabiltzailearentzat. Memento honetan, sistema eleanitzak, erosotasuna eta erabilgarritasuna dira nazioarte mailan gehien lantzen ari diren esparruak. Horretarako, baliabideen optimizazioa hartzen da kontuan. Euskal Herrian ordea, helburu horiek murriztu egiten dira, helburu "errealagoak" finkatuz. "Ikerkuntza taldean nazioarteko kongresuetara mugitzen gara, ezinbestekoa baita kanpoko jendearekin harremanak mantentzea sistemak garatzeko eta eurengandik ikasteko. Askotan euskarak baliorik ez duela iruditzen bazaigu ere, gure lanak nazioartean erakustean, euskararen egitura berezia duenez, jendea asko hurbiltzen zaigu. Guk esaterako, turkiera eta japoniera ditugu eredu bezala, erabiltzen duten egitura antzekoa baita", azaldu digu Karmele Lopez de Ipiñak. Bere esanetan, gu ez gaude nazioartekoen mailan, finantziazioa eta baliabideak falta baitzaizkigu. Dena den, egun, erakunde eta enpresen aldetik interes handia omen dago.

Ahots errekonozimenduaren barnean, robotizazioa eta domotizazioa ere aurkitzen dira. Batak robotek agindupean gizakiak esanikoa burutzea bilatzen du eta besteak berriz, etxeko gailuek gure ahotsaren aginduak betetzea. Sistema hauek errazagoak dira, hitz sinpleak direlako. Arazoak ordea, aplikazioa garatzeko modua bilatzerakoan sortzen dira. Hizketa ezagutza ez da oso konplexua, zailtasuna arlo teknikoan dute gehienbat.

Etorkizunari begira, "nazioartean dituzten tresnak Euskal Herrian edukitzea izango litzateke ikerlarion ametsa", adierazi digu Aholabeko kideak. Tresna ugari daude, telefono bidezko aplikazioak esaterako. Elkarrizketa sistema batzuk beste hizkuntza batzuetan garatuta daude. Katalunian esaterako, eguraldia kontsultatzeko zerbitzu hau eskaintzen da. 906 789 987 zenbakira deitu eta sistema automatiko batek hartzen du deia. Lengoaia naturalaz baliaturik eguraldiari buruz informazioa eskatu dezakezu. Sistema hau Kataluniako Unibertsitate Politeknikoko TALP ikerketa taldeak garatu du. Antzeko sistemak garatu dituzte Telepizza eta Renfek, besteak beste.

Hizkuntza idatziaren tratamendua

Euskal Herrian ingeniaritza linguistikoa lantzen duten beste enpresek esparru honen inguruan zer egiten duten jakin nahian, teknologia ikertzen eta produktuak garatzen diharduen Ametzagaiña taldeko Josu Landa ikertzailearekin mintzatu gara. Indexatzaile, bilatzaile eta lematizatzaile propioa lortu ditu talde honek. Industria sailean hiru urteren buruan memorietan oinarrituriko Ametra izeneko itzulpenerako laguntzaile bat lantzen dihardutela jakinarazi digu. "Hizkuntza idatziaren azterketan dagoen teknologia eta teknologia horrek ematen duen maila nahiko eskasa da». Hori gainditzeko eman beharko litzatekeen urrats kualitatiboa nahiko urrun ikusten du Josu Landak, baina bere aburuz horrek ez du esan nahi bitartean gauza interesgarriak eta baliagarriak egin ezin direnik. «Kalitatezko itzultzaile automatiko aplikaziorik ez dago egun. Jendea oso zorrotza da eta itzultzaile automatiko bati itzulpen onak egitea eskatzen dio. Horrek ordea zapuzketa dakar, ondorioz jendeak horretan sinesteari uzten dio. Horixe bera gertatu zen duela hamar bat urte ahotsaren ezagupenarekin. Jendea produktu horrekiko zapuztu egin zen, uste baino emaitza kaxkarragoak eman baitzituen. Egun, oso diktatu programa onak daude baina ez dira erabiltzen". Horretaz gain, jendearen beharrak zeintzuk diren jakitea oso zaila dela jakinarazi digu Landak. Hori dela-eta, garapen eta produktuak euren ustez interesgarria izango litzatekeenaren bila egiten dituztela adierazi digu.

Garapen eta tratamendu egokiak lortzeko beraz, gai honetan ikerle eta aditu direnek gizarte eskariari begiratu behar zaiola diote. Sistema eta aplikazio horiek lantzeko eta helburu hori lortzeko ordea, ikerketa taldeek, industriak eta erakunde ofizialek koordinatu egin behar dute. Noiz izango dugu posible teknologia guztiak lengoaia naturalaren bitartez maneiatzea? Finantziazioak eta dedikazioak izango dute horren erantzuna. Hori da euskarak teknologien munduan bere lekua izateko eta gure hizkuntzari esparru honetan etorkizun bat ziurtatzeko modu bakarra.


Xabier Telletxea

[Lagun bati bidali] [Inprimatu] [Iradokizunak]


Sareko Argia
ARGIA. Industrialdea, 15. 20160 Lasarte-Oria (Gipuzkoa)
Tel: (943) 371545 / Faxa: (943) 373403