Analyse de textes [FR]

Les outils d'analyse du langage naturel sont des modules logiciels qui effectuent des analyses linguistiques sur des textes à différents niveaux. Ces outils sont des composants essentiels de tout logiciel de traitement du langage naturel (TLN) qui analyse du texte, et tout logiciel de text mining est généralement construit en combinant des modules linguistiques de base formant des pipelines complexes.

Le centre HiTZ a une grande tradition dans la construction d'outils d'analyse pour de nombreuses langues, qui vont des processeurs linguistiques de base tels que les tokenisateurs, les étiquetteurs de catégorie grammaticale ou les systèmes de reconnaissance d'entités nommées, aux modules complexes qui effectuent l'analyse de sentiments ou la détection d'événements sur les flux de nouvelles. Le centre a également développé des architectures distribuées pour déployer des pipelines complexes dans des grappes de machines, permettant ainsi le traitement de la vaste quantité d'informations textuelles produites chaque jour par divers canaux tels que les journaux traditionnels et les sites de médias sociaux.

HiTZ a développé les outils IXA-pipes, un ensemble d'outils TLN prêts à l'emploi qui permettent un accès facile à la technologie de traitement pour plusieurs langues. Il offre une annotation linguistique robuste et efficace dans le but de réduire les obstacles à l'utilisation de la technologie de TLN, soit à des fins de recherche, soit pour les petits développeurs industriels et les PME.

La langue basque est d'un grand intérêt pour HiTZ, et la construction d'outils de traitement robustes et évolutifs pour le basque est l'un des objectifs stratégiques du centre. HiTZ a développé le plus grand nombre de processeurs linguistiques pour le basque disponibles à ce jour, ce qui permet une analyse automatique et facilite la création d'outils de text mining pour la langue.

 

 

Pages