Department of Software and Computing Systems

News

El grupo Transducens del DLSI coordina un proyecto europeo

El grupo Transducens del DLSI coordina un proyecto europeo
La Universitat d'Alacant, a través del grupo Transducens del Departamento de Lenguajes y Sistemas
Informáticos, será la coordinadora de la acción 2020-EU-IA-0078 "Massive collection
and curation of monolingual and bilingual data: focus on underresourced languages",
concedida en el marco de la convocatoria CEF-TC-2020-1 – eTranslation. La Agencia Ejecutiva
de Innovación y Redes de la Comisión Europea invertirá más de 680.000 euros en esta acción,
una de las cinco propuestas aceptadas en el ámbito de las tecnologías de la traducción. En esta
acción, que será coordinada por el Dr. Miquel Esplà Gomis, la Universitat d'Alacant continúa,
reenfoca, y pasa a liderar el trabajo realizado durante los últimos años como socio de las
acciones 2016-EU-IA-0114 "Provision of web-scale parallel corpora for official European
languages", iniciada el 15 de septiembre de 2017, finalizada el 14 de marzo de 2019,
y 2017-EU-IA-0178 "Broader provision of web-scale parallel corpora for official European
languages", iniciada el 15 de septiembre de 2018, finalizada el 14 de septiembre de 2020,
y la acción 2018-EU-IA-0063 "Continued Web-Scale Provision of Parallel Corpora for European
Languages", actualmente vigente.

El nuevo proyecto, que se espera que comience en la primavera del 2021, durará veinticuatro
meses y tiene como socios el Instituto Jožef Stefan de Liubliana (Eslovenia) y la Universidad
de Groningen (Países Bajos), además de Prompsit Language Engineering, empresa surgida del grupo
Transducens. Se da la circunstancia que las personas de contacto del proyecto, Miquel Esplà Gomis,
coordinador, Antonio Toral, doctorado en nuestro Departamento e investigador principal a Groningen,
Gema Ramírez, CEO e investigadora principal por parte de Prompsit y Nikola Ljubešic, investigador
principal en el Instituto Jožef Stefan, ya trabajaron conjuntamente en una acción Marie Curie,
“Abu-Matran, Automatic building of Machine Translation” (2013–2016) de temática muy similar.

El componente Automated Translation de la Connecting Europe Facility (CEF) provee de servicios de
traducción automática en las lenguas oficiales de Europa a un amplio conjunto de instituciones
y empresas europeas. Los recursos más importantes para construir un servicio de traducción
automática son los corpus paralelos, es decir, las colecciones de textos traducidos. El presente
proyecto continúa el esfuerzo de los anteriores en dos frentes: mejorar la herramienta libre/de
código abierto Bitextor para recoger textos paralelos masivamente a partir de los dominios de
Internet de nivel superior, en particular los de Islandia, Bulgaria, Malta, Croacia, Eslovenia y
Turquía, y hacerlo seleccionando los que son relevantes para las infraestructuras de servicios
digitales europeas. Los corpus resultantes serán automáticamente enriquecidos con información
sobre su calidad, la variante lingüística, su procedencia (texto original o traducido), y con
marcas para facilitar la protección de datos personales, y evaluados tanto automáticamente como
por expertos. El software y los datos se diseminarán efectivamente  porque sean adoptados por
los actores económicos y sociales; en particular, se suministrarán al servicio eTranslation.
[ Close ]