Títol: Traducción automática neuronal para las lenguas románicas de la península Ibérica
Objectius: El proyecto "Traducción automática neuronal para las lenguas románicas de la península Ibérica" (TAN-IBE) pretende explorar las técnicas para el entrenamiento de sistemas de traducción automática neuronal aplicadas a las siguientes lenguas románicas de la Península ibérica: español, portugués, catalán, gallego, asturiano, aragonés y aranés. Este grupo de lenguas presenta dos particularidades importantes: son similares entre ellas por pertenecer a la misma familia lingüística y difieren muchísimo en lo que respecta a la cantidad de recursos lingüísticos existentes para ellas. Entre estas lenguas hay dos con muchos recursos (español y portugués) y tres con muy pocos recursos (asturiano, aragonés y aranés). El proyecto tiene los siguientes objetivos: (1) Compilar corpus paralelos y monolingües para las lenguas incluidas en la propuesta. (2) Explorar nuevas técnicas para el entrenamiento de sistemas de traducción automática neuronal. Tenemos previsto explorar las siguientes técnicas: aprendizaje por transferencia, traducción automática multilingüe, traducción automática autosupervisada y traducción automática no supervisada. (3) Entrenar sistemas de traducción automática neuronal entre el español y el resto de lenguas del proyecto, en las dos direcciones. (4) Entrenar sistemas multilingües capaces de traducir desde y hasta todas las lenguas del proyecto. (5) Evaluar todos los sistemas entrenados mediante medidas automáticas y compararlos, cuando sea posible, con sistemas existentes. (6) Llevar a cabo una evaluación manual de los siguientes sistemas resultantes: español-asturiano, español-aragonés y español-aranés. Esta evaluación manual se realizará mediante la medida del esfuerzo de postedición. (7) Crear guías y scripts que faciliten el entrenamiento de sistemas de traducción automática neuronal en general, y más específicamente para los pares de lenguas del proyecto.(8) Publicar los resultados del proyecto bajo licencias libres. Esto incluye los corpus compilados, los modelos y motores de traducción automática y las guías y scripts.
Investigador Principal: Oliver Gonzàlez, Antoni
Equip de projecte: Alvarez Vidal, Sergi; Aventín Boya, Claudio; Coll-Florit, Marta; Vàzquez Garcia, Mercè; Suàrez Piñero, Víctor; Pardos Calvo, Alejandro
Grup de Recerca: Grup de Recerca Interuniversitari en Aplicacions Lingüístiques
Data d'inici: 01/09/2022
Data fi: 31/08/2025
Entitat finançadora: MINISTERIO DE CIENCIA, INNOVACIÓN Y UNIVERSIDADES
Convocatòria: 2021/00032/001/001