Informazioaren Erauzketa eta Berreskurapena

Azken urteetan, sarean dauden egituratu gabeko testu-baliabideen kopuruak eta testu horiek baliatzen dituzten ezagutzaren erauzketa automatikoa egiten duten aplikazioek bultzatuta, informazioaren berreskurapena (IB) eta erauzketa (IE) ikerketa-arloak nabarmen igo dira. Oraintsu arte adituek testuak eskuz etiketatu izan dituzte, baina jakina da ataza hori ekonomikoki zein giza baliabideen aldetik oso garestia dela. Horregatik azken hamarkadan teknika berriak garatu dira etiketatze-lanak (erdi)automatikoki egiteko, eta, ondorioz, eskuz etiketatu beharreko datu kopurua murrizteko. Bestalde, indizeen, bilatzaileen eta oinarrizko IB sistemen erabilerak hainbat gabezia ditu. Gaur egun, helburua ez da informazioa hitz-segida huts gisa ikustea, baizik eta dokumentuan inplizitu dagoen esanahi semantikoa ulertzen saiatzea, bai eta testuak idazteko erabiltzen diren hizkera desberdinak lantzea ere. Zehazki, IBn eta IEn lan hauek egiten ditugu:

1. Izendun entitateen ezagutza: pertsonak, erakundeak, lekuak, denbora eta zenbakizko adierazpenak.
2. Terminologiaren erauzketa: corpusetatik kontzepturik garrantzitsuenak erauztea.
3. Entitateen eta kontzeptuen arteko erlazioen erauzketa.
4. Gertaeren erauzketa eta gertaera-sekuentzien erauzketa testu barnean eta testuen artean.
5. Testu genero eta domeinu ezberdinei aplikatutako iritzien erauzketa.
6. Testuen antzekotasun semantikoa.
7. Multimedia edukien sailkapen automatikoa.

Arloaren egoerako emaitzak lortu ditugu informazioaren berreskurapen eta erauzketa eleaniztunean, eta emaitza horiek Hizkuntzaren Prozesamenduko kongresu eta aldizkari nagusietan (ACL, EMNLP, Artificial Intelligence Journal, Knowledge Based Systems...) argitaratu ditugu. Horretaz gain, Europako (NEWSREADER, LoCloud, OpeNER, PATHS, KYOTO, MEANING) zein estatuko (CROSSTEXT, TUNER, SKATER, KNOW) proiektuetan parte hartu dugu, eta zenbaitetan koordinatzaile lanak ere egin ditugu. Google Research Award bat (Eneko Agirre) lortu dugu eta enpresekin harreman estua dugu transferentzia teknologikoa sustatzeko.

Pages