Nuevo proyecto europeo: Broader provision of web-scale parallel corpora for official European languagesLa Universitat d'Alacant, a través del grupo Transducens de nuestro Departamento, será uno de los socios de la acción 2017-EU-IA-0178 "Broader provision of web-scale parallel corpora for official European languages", concedida en el marco de la convocatoria CEF-TC-2017-3 – eTranslation. Esta acción es la continuación de la acción vigente 2016-EU-IA-0114 "Provision of web-scale parallel corpora for official European languages", iniciada el 15 de septiembre de 2017 y que finalizará el 14 de marzo de 2019. El nuevo proyecto durará 24 meses y está coordinado por la Universidad de Edimburgo y tiene también como socios las empresese TAUS y Omniscien Technologies, además de Prompsit Language Engineering, empresa surgida del grupo Transducens. Se espera que el componente Automated Translation de la Connecting Europe Facility (CEF) provea de servicios de traducción automática en las lenguas oficiales de Europa a un amplio conjunto de instituciones europeas. Los recursos más importantes para construir un servicio de traducción automática son los corpus paralelos, es decir, las colecciones de textos traducidos. Hasta el momento, recursos de este tipo solamente están disponibles a gran escala para determinados lugares web como el Parlamento Europeo, las Naciones Unidas, o para algunas iniciativas voluntarias como las traducciones de las charlas TED o de Open Subtitles, y sólo para algunas lenguas de Europa. Sin embargo, la traducción automática privada (Google, Microsoft) se basa en corpus basados en los textos de millones de lugares web y que tratan con un rango más amplio de géneros, temáticas y estilos. En este proyecto, aplicaremos las últimas tecnologías disponibles para la cadena de procesamiento completa, desde la identificación de los lugares web con texto traducido hasta la obtención de corpus paralelos limpios masivos para todas las lenguas de Europa, además de para el catalán. Estos textos, que cubrirán una amplia variedad de estilos, géneros y temáticas, estarán disponibles tanto para ser usados como datos de entrenamiento en el CEF Automated Translation cómo para servir de memorias de traducción para la DG de Traducción. Las herramientas serán publicadas con licencias de código fuente abierto para que puedan ser usadas tanto por CEF Automated Translation cómo por terceros interesados. |
[ Cerrar ]