Hizkuntza baliabideak
Hizkuntza-teknologiako produktuak eta aplikazioak garatzeko, beharrezkoa da oinarrizko hizkuntza-baliabideak (testu-corpusak -idatzizkoak zein ahozkoak-, lexikoak eta ezagutza-baseak) eta garapen-tresnak (analizatzaile morfosintaktikoak, adiera-desanbiguatzaileak, corpusak tratatzeko tresnak, lematizatzaileak, tresnak integratzeko inguruneak, etab.) izatea.
25 urte baino gehiagoko eskarmentua dugu oinarrizko baliabide linguistikoak sortzen, eta erreferentziazko corpusak, lexikoak eta ezagutza-base lexiko-semantikoak ditugu. Baliabide horiei esker gai gara azaleko analisiaz haratago doazen tresnak garatzeko eta esaldiaren analisi sakonera, hau da, esanahira hurbiltzeko.
Erreferentziazko corpusei dagokienez, gure baliabide nagusia EPEC corpusa da (Euskaren Prozesamendurako Erreferentziazko Corpusa). Corpus horrek 300.000 hitz ditu eta hizkuntza maila desberdinetan dago etiketatuta: morfologikoa, sintaktikoa eta semantikoa. Bestelako corpus berezituak ere baditugu: Garaterm, 18 milioi hitzeko terminologia corpusa; EusTimeBank, denbora-egiturak etiketatuta dituen corpusa; Parseme, hitz anitzeko aditz-esapideak markatuta dituena; eta azkenik, RST Treebank, diskurtso unitateak eta erlazioak biltzen dituen corpusa.
Ezagutza-baseei eta datu-base lexikalei dagokienez, ondokoak dauzkagu: EDBL, euskarazko testuak prozesatzeko datu-base lexikal orokorra; Euskal WordNet, ingelesezko WordNet-a hedatuz sortutako ezagutza-basea; BVI, aditzen argumentu egitura eta rol semantikoak biltzen dituen lexikoia; eta Konbitzul, euskarazko eta gaztelaniazko aditz-izen motako unitate fraseologikoak biltzen dituen datu-basea.
Ahozko datu-baseei eta lanabesei buruz, azken urteotan ahotsean oinarritutako hainbat baliabide garatu ditugu, helburu desberdinetarako: alde batetik, ahots-sintesi emozionalerako datu-baseak (EmodB_EU1, 2 eta 3), ahots-sintesi eta ahots-bihurketarako (AhoSpeaker), ahots-sintesi elebidunerako (Ahosyn), Speechdat modukoak (MDB600-EU eta FDB1060-EU), laringerik gabeko ahotsen grabaketak, eta baita datu-base etnografiko bat ere (Bizkaifon); beste aldetik, ahotsaren prozesaketarako lanabesak: ahots-detekziorako algoritmoa edo pitch-a hautematekoa, ahots sintetizadoreak Windows, Android edo web sistematarako, euskara batuaz edo euskalkiekin (Iparrahotsa), euskarazko ahots-ezagutzailea eta ahots-banku publikoa (ZureTTS).