Medikuntza arloko eta arlo juridikoko hizkuntzaren prozesamendua

Osasunaren eta legearen domeinuak

Hizkuntza prozesatzeko teknikak domeinu zehatzetara eramaten direnean, osasunaren eta legearen domeinuetara adibidez, hainbat egokitzapen behar izaten dira testu horien berezitasunak modu egokian jasotzeko.

Osasunaren domeinuan Galdakaoko-Usansoloko Ospitalearekin 2010ean hasi ginen elkarlanean Gaixotasunen Nazioarteko Sailkapenaren (GNS) kodeketa automatikoa hobetzen. Orduz geroztik, eta beti ere pazienteari ematen zaion arreta hobetzeko asmoz, hainbat atazetan egin dugu lan: botiken aurkako erreakzioak detektatzen, osasunaren alorreko entitate izendunak ezagutzen (botika-izenak, gaixotasunak, gorputz-egiturak e.a.) eta azken aldian, osasun-txostenen itzulpen automatikoan. Lan gehienak gaztelerazko osasun-txostenekin egin baditugu ere, ingeleseko corpusak ere erabili ditugu, eta guretzat oso garrantzitsua dena, euskara osasun-zerbitzuetara eramateko urrats garrantzitsuak eman ditugu. Ildo honetan, SNOMED CT medikuntzako lexikoi erraldoia automatikoki euskaratu dugu eta euskara eta gaztelera arteko itzulpen automatiko neuronalarekin lehen emaitzak lortu ditugu.

Osakidetzako hainbat ospitalekin batera eskatu ditugu OSAKU, DETEAMI, EXTRECM eta PROSAMED proiektuak, eta Osakidetzako Euskara Zerbitzuaren enkarguz GNS-10 sailkapenaren itzulpen automatikoa egin dugu.

 

Domainu legalaren alorrean 2018an Minsait enpresarentzat lanean aritu ginen Prótagoras izeneko barne proiektu batean laguntzen. Proiektuak Hizkuntza Naturalaren Ulermena du helburu eta  lehen pausu bezala, domeinu legaleko dokumentatze-prozesuan zentratu ginen. Jakin badakigu dokumentu multzo izugarri handiak sortzen direla eta berebiziko garrantzia duela datu andana horien antolaketa eta biltegiratze azkarrak egitea erabakiak era efikazean hartzeko.

Proiektuaren emaitza bezala kasu erreal bateko informazio erauzketa egiteko soluzioa aurkeztu genuen. Notaritzako eskrituretatik informazio erauzteko gai den sistema garatu genuen. Balio erantsi bezala, gure sistemak ez du inolako datu anotaturik erabiltzen patroiak ikasteko, horrela, dokumentu horietatik deskribatutako ondasunen ezaugarri nagusiak (eraikinaren helbidea, balioa eta abar) antzemateaz gain jabeen informazioa  (izen-abizenak, jabetza mota, eta abar) modu merkean erauzteko gai da.

Pages