Departamento de Lenguajes y Sistemas Informáticos

Noticia

Título:Nuevo proyecto europeo: Provision of web-scale parallel corpora for official European languages
Resumen:
La Universidad de Alicante, a través del grupo Transducens
de nuestro Departamento, será uno de los socios de la
acción 2016-EU-IA-0114 "Provision of web-scale
parallel corpora for official European languages",
concedida en el marco de la convocatoria CEF-TC-2016-3 –
Automated Translation.

El proyecto durará 18 meses y está coordinado por la
Universidad de Edimburgo y tiene también como socios la
empresa TAUS y Prompsit Language Engineering, empresa
surgida del grupo Transducens.

Se espera que el componente Automated Translation de la
Connecting Europe Facility (CEF) provea de servicios de
traducción automática en las lenguas oficiales de Europa
a un amplio conjunto de instituciones europeas. Los
recursos más importantes para construir un servicio de
traducción automática son los corpus paralelos, es decir,
las colecciones de textos traducidos. Hasta el momento,
recursos de este tipo solo están disponibles a gran
escala para determinados sitios web como el Parlamento
Europeo, las Naciones Unidas, o para algunas iniciativas
voluntarias como las traducciones de las charlas TED
o de Open Subtitles, y sólo para algunas lenguas de
Europa. Sin embargo, la traducción automática privada
(Google, Microsoft) se basa en corpus basados en los textos
de millones de sitios web y que tratan con un rango más
amplio de géneros, temáticas y estilos.

En este proyecto, aplicaremos las últimas tecnologías
disponibles para la cadena de procesamiento completa, desde
la identificación de los sitios web con texto traducido
hasta la obtención de corpus paralelos limpios masivos para
todas las lenguas de Europa. Estos textos, que cubrirán una
amplia variedad de estilos, géneros y temáticas, estarán
listos tanto para ser usados como datos de entrenamiento en
el CEF Automated Translation como para servir de memorias
de traducción para la DG de Traducción. Las herramientas
serán publicadas con licencias de código fuente abierto
para que puedan ser usadas tanto por CEF Automated
Translation como por terceros interesados.
[ Cerrar ]