Noticia - Departamento de Lenguajes y Sistemas Informáticos

Nuevo proyecto europeo: Broader provision of web-scale parallel corpora for official European languages

La Universitat d'Alacant, a través del grupo Transducens de nuestro Departamento, será uno de
los socios de la acción 2017-EU-IA-0178 "Broader provision of web-scale parallel corpora
for official European languages", concedida en el marco de la convocatoria CEF-TC-2017-3 –
eTranslation. Esta acción es la continuación de la acción vigente 2016-EU-IA-0114 "Provision
of web-scale parallel corpora for official European languages", iniciada el 15 de septiembre
de 2017 y que finalizará el 14 de marzo de 2019.

El nuevo proyecto durará 24 meses y está coordinado por la Universidad de Edimburgo y tiene
también como socios las empresese TAUS y Omniscien Technologies, además de Prompsit Language
Engineering, empresa surgida del grupo Transducens.

Se espera que el componente Automated Translation de la Connecting Europe Facility (CEF) provea
de servicios de traducción automática en las lenguas oficiales de Europa a un amplio conjunto de
instituciones europeas. Los recursos más importantes para construir un servicio de traducción
automática son los corpus paralelos, es decir, las colecciones de textos traducidos. Hasta el
momento, recursos de este tipo solamente están disponibles a gran escala para determinados
lugares web como el Parlamento Europeo, las Naciones Unidas, o para algunas iniciativas
voluntarias como las traducciones de las charlas TED o de Open Subtitles, y sólo para algunas
lenguas de Europa. Sin embargo, la traducción automática privada (Google, Microsoft) se basa
en corpus basados en los textos de millones de lugares web y que tratan con un rango más amplio
de géneros, temáticas y estilos.

En este proyecto, aplicaremos las últimas tecnologías disponibles para la cadena de procesamiento
completa, desde la identificación de los lugares web con texto traducido hasta la obtención de
corpus paralelos limpios masivos para todas las lenguas de Europa, además de para el catalán. Estos
textos, que cubrirán una amplia variedad de estilos, géneros y temáticas, estarán disponibles
tanto para ser usados como datos de entrenamiento en el CEF Automated Translation cómo para
servir de memorias de traducción para la DG de Traducción. Las herramientas serán publicadas
con licencias de código fuente abierto para que puedan ser usadas tanto por CEF Automated
Translation cómo por terceros interesados.
[ Cerrar ]