Extraction et recherche d'information [FR]
La disponibilité sans cesse croissante de ressources textuelles non structurées sur le Web et leur potentiel d'utilisation dans des applications d'acquisition automatique de connaissances ont entraîné une augmentation spectaculaire de la recherche liée à l'extraction et à la recherche d'information (EI et RI). Traditionnellement, le contenu textuel requis était produit au moyen d'annotations manuelles par des experts humains sur la tâche à accomplir, ce qui est trop coûteux en termes de ressources économiques et humaines. Au cours de la dernière décennie, de nouvelles techniques ont été mises au point afin de (semi)automatiser les processus d'annotation et de minimiser le besoin de données annotées manuellement. En outre, l'utilisation d'index, de chercheurs et d'autres outils basiques de recherche d'information présente plusieurs lacunes. De nos jours, l'objectif est de considérer l'information non plus comme une simple séquence de mots, en essayant de comprendre le sens sémantique caché dans un document et en abordant la grande variété de langues dans lesquelles elles peuvent être écrites. Plus précisément, notre travail jusqu'à présent s'est concentré sur les sujets suivants :
1. Reconnaissance d'entités nommées, y comprises celles des personnes, des organisations, des lieux et les expressions temporelles et numériques.
2. Extraction terminologique, afin d'obtenir les concepts les plus pertinents à partir d'un corpus donné.
3. Extraction de relations entre entités et concepts.
4. Extraction d'événements et de séquences d'événements soit aux niveaux intra- et inter-documentaires.
5. Extraction d'opinion (opinion mining) appliquée à une variété de genres de textes et de domaines.
6. Similarité sémantique textuelle.
7. Classification automatique du contenu multimédia.
Nous avons obtenu des résultats à la pointe de la technologie pour l'extraction et la recherche d'information multilingue dans chacune des tâches mentionnées, comme en témoigne notre liste de publications dans toutes les grandes conférences et revues sur le traitement du langage naturel (ACL, EMNLP, Artificial Intelligence Journal, Knowledge Based Systems...). De plus, nous avons coordonné et participé à plusieurs projets européens (NEWSREADER, LoCloud, OpeNER, PATHS, KYOTO, MEANING) et nationaux (CROSSTEXT, TUNER, SKATER, KNOW). De plus, nous avons obtenu un prestigieux prix (Google Research Award, Eneko Agirre) et nous entretenons des relations étroites avec de nombreuses entreprises pour faciliter le transfert de technologie de l'université vers l'industrie.