Departament de Llenguatges i Sistemes Informàtics

Notícia

Nou projecte europeu: Broader provision of web-scale parallel corpora for official European languages

La Universitat d'Alacant, a través del grup Transducens del nostre Departament, serà un dels
socis de l'acció 2017-EU-IA-0178 "Broader provision of web-scale parallel corpora for
official European languages", concedida en el marc de la convocatòria CEF-TC-2017-3 –
eTranslation. Aquesta acció és la continuació de l'acció vigent 2016-EU-IA-0114 "Provision
of web-scale parallel corpora for official European languages", iniciada el 15 de setembre
de 2017 i que finalitzarà el 14 de març de 2019.

El nou projecte durarà 24 mesos i està coordinat per la Universitat d'Edimburg i té també com
a socis les empreses TAUS i Omniscien Technologies, a més de Prompsit Language Engineering,
empresa sorgida del grup Transducens.

S'espera que el component Automated Translation de la Connecting Europe Facility (CEF) proveïsca de
serveis de traducció automàtica en les llengües oficials d'Europa a un ampli conjunt d'institucions
europees. Els recursos més importants per a construir un servei de traducció automàtica són
els corpus paral·lels, és a dir, les col·leccions de textos traduïts. Fins al moment, recursos
d'aquest tipus solament estan disponibles a gran escala para determinats llocs web com el Parlament
Europeu, les Nacions Unides, o per a algunes iniciatives voluntàries com les traduccions de
les xarrades TED o d'Open Subtitles, i només per a algunes llengües d'Europa. No obstant açò,
la traducció automàtica privada (Google, Microsoft) es basa en corpus basats en els textos de
milions de llocs web i que tracten amb un rang més ampli de gèneres, temàtiques i estils.

En este projecte, aplicarem les últimes tecnologies disponibles per a la cadena de processament
completa, des de la identificació dels llocs web amb text traduït fins a l'obtenció de corpus
paral·lels nets massius per a totes les llengües d'Europa, a més de per al català. Estos textos,
que cobriran una àmplia varietat d'estils, gèneres i temàtiques, estaran disponibles tant per a
ser usats com a dades d'entrenament en el CEF Automated Translation com per a servir de memòries
de traducció per a la DG de Traducció. Les eines seran publicades amb llicències de codi font
obert perquè puguen ser usades tant per CEF Automated Translation com per tercers interessats.
[ Tancar ]