proyectos de investigación

DeepMinor: Language Models for Multilingual and Multidomain Text Processing in Low Resource Scenarios


Language Models for Multilingual and Multidomain Text Processing in Low Resource Scenarios

(2024 - 2026)

Gracias a los avances en grandes modelos de lenguaje, el campo de investigación del PLN está inmerso en un cambio de paradigma centrado en la producción y explotación de estos grandes modelos de lenguaje. De hecho, los resultados están mejorando tanto que los sistemas afirman obtener un rendimiento a nivel humano en benchmarks de investigación. Como resultado, muchos en la industria los han comenzado a integrar en producción.

A pesar de sus impresionantes resultados, estos LLMs se han desarrollado principalmente para inglés, no son públicos y han sido
evaluados casi exclusivamente benchmarks de evaluación únicamente para el inglés. Estas benchmarks son fundamentales para
comprender las limitaciones y posibilidades del uso de estos LLMs para mejorar el estado del arte en el PLN. Por lo tanto, para la gran
mayoría de idiomas y dominios, el rendimiento de los LLMs sigue siendo una incógnita. Esto se debe al hecho de que no han sido
entrenados previamente para idiomas como el euskera o el español o debido a la falta de benchmarks públicamente disponibles que
permitan evaluar las capacidades los modelos para la comprensión y generación de lenguaje natural para esos idiomas.

Este proyecto tiene como objetivo investigar y desarrollar técnicas para generar y adaptar LLMs monolingües y multilingües a nuevos
idiomas, géneros de texto y dominios. En concreto, este proyecto se centrará en la adaptación y generación de modelos especialmente
adaptados al euskera y al castellano (además del inglés), tanto para tareas de clasificación como de generación. También trabajaremos
para llenar el vacío actual con respecto a las benchmarks de evaluación para tareas específicas en dominios como la salud o géneros
como las redes sociales, para los cuales hay pocos o ningún dato anotado manualmente para esas tareas e idiomas.
Organización:  Ministerio de Ciencia, Innovación y Universidades
Investigador principal: Rodrigo Agerri
Participantes


Más proyectos