Análisis de texto
Las herramientas de análisis de texto son módulos que realizan análisis lingüísticos de los textos a diferentes niveles. Estas herramientas son componentes esenciales de cualquier aplicación de Procesamiento de Lenguaje Natural (PLN) o minería de textos, ya que cualquier aplicación PLN compleja consiste en una combinación de herramientas básicas, típicamente en forma de pipeline.
El centro HiTZ tiene una larga tradición construyendo herramientas de análisis para varias lenguas, que varían desde módulos básicos tal como tokenizadores, analizadores morfosintácticos o reconocedores de entidades nombradas, hasta herramientas complejas como analizadores de sentimientos o detectores de eventos en noticias. Además, el grupo ha estudiado y desarrollado arquitecturas distribuidas y paralelas que permiten desplegar pipelines complejos en clusters de ordenadores, pudiendo así procesar las cantidades masivas de texto que se producen hoy en día por diversos canales tales como periódicos o medios sociales.
HiTZ ha desarrollado las llamadas herramientas IXA-pipes, un conjunto de herramientas listas para usar que anotan lingüísticamente textos en varios idiomas. IXA-pipes proporcionan un acceso rápido y sencillo a tecnologías PLN a investigadores del área así como a pequeñas y medianas empresas, aliviando así la barrera tecnológica que dificulta el avance en el sector.
El Euskara tiene una gran importancia para HiTZ, y producir herramientas de texto para el Euskara que sean robustas y escalables es una de los objetivos estratégicos del centro. HiTZ ha desarrollado el mayor conjunto de herramientas PLN para el Euskara disponibles en la actualidad, permitiendo así el análisis automático y facilita la construcción de herramientas de minería de textos para esta lengua.