Extracción y recuperación de la información

La disponibilidad cada vez mayor de recursos textuales no estructurados en la Web, y su potencial para ser utilizados en aplicaciones para la adquisición automática de conocimiento, han provocado un aumento espectacular en la investigación relacionada con la Extracción de la Información (EI) y la Recuperación de la Información (RI). Tradicionalmente, la extracción de contenido estructurado para alimentar bases de datos se hacía manualmente, en un proceso extremadamente costoso. En la última década se han desarrollado nuevas técnicas para (semi) automatizar los procesos de extracción, minimizando el trabajo manual y el coste asociado. Por otro lado, los buscadores actuales muestran varías deficiencias de cara a la recuperación de la información. Hoy en día, es posible ir más allá de ver la información como una mera secuencia de palabras, y se trata de recuperar el significado semántico implícito en un documento, así como abordar la gran variedad de idiomas en que se pueden escribir. Específicamente, nuestro trabajo hasta ahora se ha centrado en los siguientes temas:

1. Reconocimiento de entidades nombradas en documentos, incluyendo personas, organizaciones, ubicaciones, expresiones temporales y numéricas.

2. Extracción de terminología de dominio, para obtener los conceptos más relevantes de un corpus dado.

3. Extracción de relaciones entre entidades y conceptos, para rellenar bases de datos automáticamente.

4. Extracción de eventos y secuencias de eventos tanto a nivel interno como cruzado de documentos.

5. Minería de opiniones aplicada a una variedad de géneros de texto y dominios.

6. Similitud textual semántica.

7. Clasificación automática de contenidos multimedia.

El gurpo ha obtenido resultados de vanguardia tanto en la extracción de información multilingüe y la recuperación de información las tareas mencionadas, tal y como se puede ver en nuestra lista de publicaciones en las principales conferencias y revistas de Procesamiento de Lenguaje Natural. Además, hemos coordinado y participado en varios proyectos nacionales (CROSSTEXT, TUNER, SKATER, KNOW) y europeos (NEWSREADER, LoCloud, OpeNER, PATHS, KYOTO, SIGNIFICADO). Asimismo hemos obtenido un prestigioso premio de investigación de Google (Eneko Agirre) y mantenemos una estrecha relación con numerosas empresas, transfeririendo la última tecnología investigadora a la industria.

Pages