Ressources vocales et langagières

Pour développer des produits et des applications en technologie linguistique, il est nécessaire de disposer de ressources linguistiques de base (corpus textuel et oral, lexiques et bases de connaissances) et d'outils de développement (analyseurs morphologiques et syntaxiques, désambiguiseurs, outils de traitement de corpus, lemmatiseurs, environnements intégrés des outils, etc.)

Nous avons plus de 25 ans d'expérience dans la création de ce type de ressources linguistiques de base et nous disposons de différents corpus de référence, lexiques et bases de connaissances qui sont à la base du développement d'outils qui non seulement effectuent une analyse superficielle, mais qui traitent aussi de la connaissance profonde de la phrase, de sa signification.

En termes de corpus de référence, notre principale ressource est le corpus EPEC (Euskaren Prozesamendurako Erreferentziazko Corpusa-Corpus de Référence pour le Traitement de la Langue Basque), qui contient 300.000 mots étiquetés à différents niveaux linguistiques : morphologique, syntactique et sémantique. Nous disposons également d'un corpus terminologique d'environ 18 millions de mots (Garaterm), d'un corpus d'expressions temporelles (EusTimeBank), d'un corpus d'expressions verbales multi-mot (Parseme), et enfin, d'un corpus d'unités et relations discursives (RST Treebank).

En ce qui concerne les bases de données lexicales et de connaissances, nous avons EDBL, la base de données lexicale générale pour l'euskara ; WordNet en basque, qui a été construite avec l'approche élargie de WordNet en anglais ; BVI, un lexique verbal où la structure argumentaire et les rôles sémantiques des verbes en euskara sont recueillis et, enfin, Konbitzul, une base de données en ligne contenant les expressions multi-mots (MWE) en espagnol et euskara.

Enfin, en termes de bases de données et d'outils vocaux, nous avons développé ces dernières années de nombreuses ressources vocales à des fins diverses. D'une part, des bases de données pour la synthèse vocale émotionnelle (EmodB_EU1, 2 et 3), la synthèse et la conversion de la voix (AhoSpeaker), la synthèse vocale bilingue (Ahosyn), Speechdat-like (MDB600-EU et FDB1060-EU), les enregistrements vocaux alaryngiens et même une base ethnographique (Bizkaifon). D'autre part, des outils de traitement de la voix tels qu'un algorithme de détection vocale ou un algorithme de détection de tonalité ; des outils de synthèse vocale pour les systèmes Windows, Android et Web, utilisant des variations standard basques ou locales (Iparrahotsa) ; un système de reconnaissance vocale basque et une banque vocale publique (ZureTTS).

 

 

Pages