Recursos lingüísticos
Para el desarrollo de productos y aplicaciones en Tecnología Lingüística es necesario disponer de recursos lingüísticos básicos (corpus textual y oral, léxicos y bases de conocimiento) y herramientas de desarrollo (analizadores morfológicos y sintácticos, desambiguadores, herramientas de tratamiento de corpus, lematizadores, entornos integrados de herramientas, etc.).
Tenemos más de 25 años de experiencia en la creación de este tipo de recursos lingüísticos básicos y disponemos de diferentes corpus de referencia, léxicos y bases de conocimiento que son la base para el desarrollo de herramientas que no sólo realizan un análisis superficial, sino que abordan el conocimiento profundo de la frase, su significado.
En cuanto a corpus de referencia, nuestro principal recurso es el corpus EPEC (Euskaren Prozesamendurako Erreferentziazko Corpusa-Corpus de Referencia para el Procesamiento del Euskera), que cuenta con 300.000 palabras etiquetadas en diferentes niveles lingüísticos: morfológico, sintáctico y semántico. También tenemos un corpus terminológico de alrededor de 18 millones de palabras (Garaterm), un corpus etiquetado con expresiones temporales (EusTimeBank), un corpus etiquetado con expresiones verbales multipalabra (Parseme), y finalmente, un corpus etiquetado con unidades y relaciones discursivas (RST Treebank).
En lo que se refiere a bases de datos de conocimiento y léxicos, tenemos EDBL, la base de datos léxica general para el euskera; Basque WordNet, que ha sido construida con el enfoque expandido de English WordNet; BVI, un léxico verbal donde se recogen la estructura argumental y roles semánticos de los verbos en euskera y, finalmente, Konbitzul, una base de datos en línea que contiene expresiones multipalabra (MWE) en castellano y euskera.
Por último, en cuanto a bases de datos y herramientas de voz, en los últimos años hemos desarrollado muchos recursos basados en la voz para diferentes propósitos: por un lado, bases de datos para síntesis del habla emocional (EmodB_EU1, 2 y 3), síntesis y conversión de voz (AhoSpeaker), síntesis bilingüe del habla (Ahosyn), Speechdat-like (MDB600-EU y FDB1060-EU), grabaciones alaríngeas del habla, e incluso una base de datos etnográfica (Bizkaifon); por otro lado, herramientas de procesamiento de voz como un algoritmo de detección de voz o un algoritmo de detección de tono; herramientas de síntesis de voz para sistemas Windows, android y web, utilizando variaciones estándar vascas o locales (Iparrahotsa); un reconocedor de voz vasco y un banco público de voz (ZureTTS).