Euskara eta Ingeniaritza linguistikoa
Zientzia eta
Teknologiaren Astean, asteazkena
informazioaren eta komunikazioaren teknologien eguna izan zen.
Orduan Kepa Sarasola doktore eta EHUko irakasleak euskara eta
informazioaren eta komunikazioaren teknologiak (TICS) izan zituen
mintzagai. Berak emandako hitzaldiaren laburpena igorri digu eta
eskerrak eman nahi dizkiogu hemendik.
Hizkuntza-industria antolatzeko urratsak
Epe ertainean
pertsona eta makinen arteko komunikazioa geure hizkuntzan egin ahal
izango dugu, ez makinen hizkuntzan. Ez dago zalantzarik lengoaia
naturala gure eguneroko bizitzaren giltzarria dela. Ez eta esaten
dugunean honen tratamendu konputazionala geroz eta garrantzitsuagoa
bihurtzen ari dela. Egunetik egunera, datu-base dokumentalak
handitzen doaz, ordenagailuekin harremanak izateko erak aldatzen eta
multimedia sistema guztiak digitalizatzen. Horren ondorioz,
ezinbestekoa bihurtzen zaigu lengoaia naturala ere informatikoki
lantzeko bideak aztertzea. Zalantzarik gabe, hizkuntza-teknologiak
funtsezkoak dira informazio eta komunikazioaren gizartea esaten
diogun horretan.
Tresna horiek
mugatuak izango dira, eta beti errore-maila batekin lan egingo dute,
baina, hala ere, laguntza ederra emango digute. Alde batetik,
ekonomikoki errentagarriak izango dira; merkeago da erroreak dituen
itzulpen zirriborro bat zuzentzea, testu osoa itzultzea baino. Beste
alde batetik, tresna horiei esker gizakien arteko komunikazioa
hobetu ahal izango da (adibidez, beste hizkuntza darabilen pertsona
batekin telefonoz hitz egitea, hitzak banan-banan sistema batek
itzultzen baditu).
Gaur egun badira
zenbait hizkuntza-aplikazio eskuragarri: ortografia- eta
estilo-zuzentzaileak, hiztegi-kontsultak on-line,
itzulpen-laguntzak, Interneterako bilatzaileak, hizketa testu
bihurtzen duten sistemak, testuak irakurtzen dituztenak, bigarren
hizkuntza ikasteko sistemak eta abar.
Baina horrelako
sistema gehienek ingeleserako balio dute, ez beste hizkuntzetarako.
Beste hizkuntzek ahalegin handia egin behar dute atzean ez
gelditzeko, are gehiago euskarak eta gainerako hizkuntza txikiek.
Natural Language
Software Registry zerbitzuak Interneten duen orriari
begiratzen badiogu, egun hizkuntzak lantzeko erabilgarri diren 167
programaren berri jasoko dugu (ikus 1. irudia). Horietatik % 75
ingeleserako erabilgarri dira, eta % 30 bakarrik erabil daitezke
edozein hizkuntzarekin. Merkatuan aurki daitezkeen aplikazio
gehienek hizkuntza "handiak" dituzte helburu —ingelesa, batik bat—
baina baita, bigarren mailan bada ere, frantsesa, alemana eta
espainiera ere.
 |
1.irudia. |
Ingeniaritza linguistikoaren aplikazioa
LNParen ia 50
urteko historian gorabehera handiak izan dira. Helburu liluragarriak
lortzear zeudela uste zen une euforikoei, belarriak jaitsi eta
helburu apal baina eskuragarriagoetara mugatzeko une pragmatikoak
jarraitu zaizkie behin baino gehiagotan. Konputagailuek hizkuntza
pertsonok ulertzen dugun moduan ulertuko duten eguna urrun da
oraindik, baina horrek ez du esan nahi aplikazio interesgarri eta
oso baliagarriak egin ezin direnik.
Aplikazio horien
garapenerako, ordea, oinarri sendo batetik abiatu beharra dago. Oro
har, hizkuntza-teknologien egitura, piramide moduko batez irudika
dezakegu.

Piramide horren
oinarrian ingeniaritza linguistikoan lan egiteko beharko ditugun
oinarrizko baliabideak egongo dira. Baliabide horiei esker, tresnak
garatzeko moduan izango gara, eta behin horiek garatuta,
ingeniaritza linguistikoaren hainbat arlotan lan egiteko moduko
produktu komertzialak kaleratu ahal izango ditugu. Kontutan izan
behar da, ordea, alderantzizko bidea ezin dela egin, etxea
teilatutik eraiki nahi ez badugu.
Aplikazioak garatuko badira, zer-nolako azpiegitura behar
da?
Aplikazioak
ditugu helburu, noski. Gizarte eleanitz batean bizi gara, eta
eleaniztasun horretan lagungarri izango zaizkigun tresnekin egiten
dugu ametsa: euskararako itzulpen automatikoa, hizketaren ezagutza,
estilo-zuzentzaileak ere nahi ditugu. Baina horiek sortzera
helduko bagara, oinarri sendo bat beharko dugu lehenik. Esaterako,
itzultzaileentzat lagungarri izan daitekeen tresna semi-automatiko
baten garapenerako, hainbat baliabide eta tresna garatu beharko
ditugu lehenik.

Euskararen
kasuan, hauek dira orain artean garatu ditugun oinarrizko tresna eta
baliabide nagusiak:
Tresnak
- Ahozkoa
testu idatzi bihurtuko digun tresna. Euskal Herrian badira gai
honetan diharduten bizpahiru ikertalde -Bilboko Ingeniaritza
Eskolan bat, Aholab izenekoa, Leioako Zientzia Fakultatean beste
bat.
- Analizatzaile morfologikoa. Hizkuntza guztietan
beharrezkoa eta euskaran ezinbestekoa, hizkuntza flexionatu eta
eranskaria baita. Analizatzaile (eta sintetizatzaile)
morfologikoaren zeregina
hitz-forma osatzen duten morfemak
ezagutzea (eta konposatzea) da, eta morfema bakoitzari dagokion
informazio morfologiko-lexikala ematea. Erreminta hau oinarri da
hainbat aplikaziotan, hala nola, zuzentzaile ortografiko,
karaktere-ezagutzaile optiko (OCR) eta aplikazio sofistikatuago
guztietan —itzulpen automatikoa, adib.—. Euskararako
analizatzaile/sintetizatzaile morfologiko orokorra egina dago, eta
Xuxen euskarazko zuzentzaile ortografikoaren funtsa
da.
- Lematizatzaile/etiketatzailea.
Lematizatzaile/etiketatzailea analizatzaile morfologikotik
eratortzen da, eta hitz-forma baten lema eta kategoria ematen
ditu, anbiguotasuna saihestu edo gutxitzearren testuingurua
aintzat hartuz.
Zeregin nagusia desanbiguazioa bada
ere, beste egitekorik ere badu halako tresna batek, esate
baterako, hitz anitzeko unitate lexikalen identifikazioa
(lokuzioak, hitz-elkarketak, pertsona-izenak, etab.). Oso
aplikazio interesgarriak dituzte lematizatzaileek: indexazioa
—Interneteko bilatzaileetan, adib.—, terminologia eta
lexikografia, etab. Euskarako lematizatzaile orokorrari
EusLem izena eman diogu, eta ezarrita dago jadanik
Interneteko hainbat bilatzailetan.
- Analizatzaile sintaktikoa. Analizatzaile
sintaktikoen zeregina testuetako osagai sintaktikoak ezagutzea da:
perpausak,
izen-sintagmak, izen-lagunak, etab. Analisiaren
oinarria lexikoa eta gramatika izango dira, hitzen ezaugarriak eta
egitura sintaktikoen osaketa posibleak definituko dituztenak. Hau
ere ezinbesteko tresna dugu hizkuntza-aplikazio askotan, itzulpen
automatikoan, esate baterako. Euskararen kasuan, azaleko
analizatzaile sintaktiko orokorra egina dugu —EusMG—, eta
zuhaitz sintaktiko osoa emango digunaren ikerbideak nahiko
aurreratuta daude.
Hizkuntza-baliabideak eta -oinarriak
Aplikazioak
garatzeko tresnak behar ditugu lehenik, baina horien oinarria
baliabideak dira. Hona nagusiak:
- Datu-base
lexikala eta morfologiaren deskribapena. EDBL,
euskararen datu-base lexikalak 75.000 sarrera inguru biltzen ditu
egun.
- Hiztegi
elektronikoak. Hizkuntzaren datu-base lexikal orokorra oinarri
dela, horren inguruan biltzen ahal dira beste zenbait tresna
lexikal ere: definizio-hiztegiak, hiztegi terminologiko
berezituak, hiztegi elebidunak, eta beste.
- Gramatika
konputazionalak: sintaxiaren deskribapenak. Euskararen kasuan,
gainera, morfologia eta sintaxiaren arteko lotura estua hartu
behar da kontuan. Horrek eraman gaitu tratamendu morfosintaktikoa
analizatzaile morfologikoan integratzera; Morfeus izeneko
analizatzaile morfosintaktiko orokorra da emaitza.
- Taxonomia
semantikoak. Hizkuntza ulertzea xede denean, baina, ez da aski
morfologia eta sintaxiarekin, semantikaz ere jakin behar izaten
baitu programak. Erlazio lexiko-semantiko horiek sare semantiko
moduko batean adierazten dira esplizituki. Ingelesezko sare
semantikoen artean ezagunena-edo WordNet izenekoa dugu, eta
haren euskararako egokitzapenari Euskal WordNet deitzen
diogu.
- Testu-corpusak. Testu-corpusak
testu-masa handiak dira, informazio linguistikoaren iturri
nagusia, eta gorago aipatu aplikazio, tresna eta oinarrietarako
probaleku ezinbestekoak
Lehen esan
bezala, oinarrizko baliabide eta tresna hauek gabe ez gara izango
gai helburu ditugun aplikazioak garatzeko.
Euskararen
kasuan, baditugu hainbat tresna eta baliabide, baina
hizkuntza-teknologiak ingelesaren pare ikusi nahi baditugu, badugu
oraindik egin beharreko bide luze bat.
Ondorioak
Badira hainbat
produktu euskara eta softwarea uztartzen dituztenak. Euskararen Software
Katalogoan 105 bildu dira. Horietarik 26 lotuta daude
hizkuntzaren industriarekin. Hori ez da hutsaren hurrengoa, baina
bai oso gutxi; ahalegin handia egin behar dugu informazioaren
gizarteko mundu honetan euskara atzean ez gelditzeko.
Gure bide
horretan sortuko dugun oinarri linguistiko bakoitza, tresna eta
aplikazio bakoitza ondo diseinatu beharko dugu ondorengo
produktuetan erabilgarria izan dadin.
Ingeniaritza
linguistikoaren ikerketan eta garapenean lan egiteko eta nazioartean
puntako mailan ibiliko den industria sendoa sortzeko, epe erdirako
estrategia diseinatu dugu IXA taldearen 15 urteko eskarmentuan
oinarritua.
Ikerketa-taldeek, industriak eta erakunde ofizialek
koordinatu egin behar dute helburu hori lortzeko.
|