proyectos de investigación


TRAIN (PID2021-123988OB-C31) financiado por MCIN/ AEI /10.13039/501100011033 y por FEDER Una manera de hacer Europa

(2022 - 2025)

En los últimos años, la traducción automática no supervisada ha demostrado que es posible desarrollar sistemas de traducción automática incluso en contextos en los que no se dispone de información bilingüe (ni diccionarios bilingües ni corpus paralelos). Pero en la práctica siempre hay alguna información bilingüe accesible. Enfoques recientes como [Conneau, 2020] han empezado a combinar datos monolingües y paralelos con buenos resultados.
Dentro del presente proyecto, planeamos explorar métodos novedosos sobre técnicas de aprendizaje de transferencia multilingüe y combinar técnicas supervisadas y no supervisadas, respetando las restricciones de eficiencia y modularidad, para que la traducción de idiomas con muy pocos recursos pueda beneficiarse de estas técnicas. Nuestra hipótesis es que las técnicas desarrolladas para la traducción automática no supervisada pueden adaptarse de forma eficiente para incorporar la información bilingüe presente para un par de lenguas determinado y obtener así sistemas de traducción utilizables incluso cuando se dispone de pocos recursos paralelos, y también en el caso de la traducción multimodal que implica una lengua de signos, como el LSE.
Aunque ya se han empezado a combinar con éxito datos paralelos y monolingües, esta hipótesis no se ha puesto a prueba en el caso de lenguas con muy pocos recursos paralelos como las lenguas objetivo del proyecto y, lo que es aún más difícil, en el caso de lenguas no verbales que no suelen expresarse en forma codificada escrita, por lo que hay un número extremadamente bajo de corpus paralelos y muy pequeños.
Para comprobar la hipótesis planteada, el proyecto desarrollará sistemas de traducción entre el español y lenguas específicas con escasos recursos que abarcan lenguas de migrantes (amazigh, pastún y wolof) y de minorías étnicas (romaní), así como la lengua de signos española. Contribuiremos de este modo a la inclusión de estos grupos vulnerables (migrantes, refugiados y personas sordas o con problemas de audición).
Página web: https://ixa2.si.ehu.eus/train
Organización:  Ministerio de Ciencia e Innovación
Investigador principal: Gorka Labaka eta Eneko Agirre
Participantes
Ander Corral, Eneko Agirre, Nora Aranberri, Maxux Aranzabe, Xabier Arregi, Kepa Bengoetxea, Gorka Labaka, Mikel Lersundi, Olatz Perez de Viñaspre, Ander Soraluze, Ruben Urizar


Más proyectos