Departament de Llenguatges i Sistemes Informàtics

Notícia

Títol:Nou projecte europeu: Provision of web-scale parallel corpora for official European languages
Resum:
La Universitat d'Alacant, a través del grup Transducens
del nostre Departament, serà un dels socis de l'acció
2016-EU-IA-0114 "Provision of web-scale parallel
corpora for official European languages", concedida
en el marc de la convocatòria CEF-TC-2016-3 – Automated
Translation.

El projecte durarà 18 mesos i està coordinat per la
Universitat d'Edimburg i té també com a socis l'empresa
TAUS i Prompsit Language Engineering, empresa sorgida del
grup Transducens.

S'espera que el component Automated Translation de la
Connecting Europe Facility (CEF) proveïsca de serveis de
traducció automàtica en les llengües oficials d'Europa a
un ampli conjunt d'institucions europees. Els recursos
més importants per a construir un servei de traducció
automàtica són els corpus paral·lels, és a dir, les
col·leccions de textos traduïts. Fins al moment, recursos
d'aquest tipus solament estan disponibles a gran escala
para determinats llocs web com el Parlament Europeu, les
Nacions Unides, o per a algunes iniciatives voluntàries com
les traduccions de les xarrades TED o d'Open Subtitles,
i només per a algunes llengües d'Europa. No obstant açò,
la traducció automàtica privada (Google, Microsoft) es basa
en corpus basats en els textos de milions de llocs web i
que tracten amb un rang més ampli de gèneres, temàtiques
i estils.

En este projecte, aplicarem les últimes tecnologies
disponibles per a la cadena de processament completa,
des de la identificació dels llocs web amb text traduït
fins a l'obtenció de corpus paral·lels nets massius per
a totes les llengües d'Europa. Estos textos, que cobriran
una àmplia varietat d'estils, gèneres i temàtiques, estaran
disponibles tant per a ser usats com a dades d'entrenament
en el CEF Automated Translation com per a servir de
memòries de traducció per a la DG de Traducció. Les eines
seran publicades amb llicències de codi font obert perquè
puguen ser usades tant per CEF Automated Translation com
per tercers interessats.

[ Tancar ]