Nou projecte europeu: Broader provision of web-scale parallel corpora for official European languagesLa Universitat d'Alacant, a través del grup Transducens del nostre Departament, serà un dels socis de l'acció 2017-EU-IA-0178 "Broader provision of web-scale parallel corpora for official European languages", concedida en el marc de la convocatòria CEF-TC-2017-3 – eTranslation. Aquesta acció és la continuació de l'acció vigent 2016-EU-IA-0114 "Provision of web-scale parallel corpora for official European languages", iniciada el 15 de setembre de 2017 i que finalitzarà el 14 de març de 2019. El nou projecte durarà 24 mesos i està coordinat per la Universitat d'Edimburg i té també com a socis les empreses TAUS i Omniscien Technologies, a més de Prompsit Language Engineering, empresa sorgida del grup Transducens. S'espera que el component Automated Translation de la Connecting Europe Facility (CEF) proveïsca de serveis de traducció automàtica en les llengües oficials d'Europa a un ampli conjunt d'institucions europees. Els recursos més importants per a construir un servei de traducció automàtica són els corpus paral·lels, és a dir, les col·leccions de textos traduïts. Fins al moment, recursos d'aquest tipus solament estan disponibles a gran escala para determinats llocs web com el Parlament Europeu, les Nacions Unides, o per a algunes iniciatives voluntàries com les traduccions de les xarrades TED o d'Open Subtitles, i només per a algunes llengües d'Europa. No obstant açò, la traducció automàtica privada (Google, Microsoft) es basa en corpus basats en els textos de milions de llocs web i que tracten amb un rang més ampli de gèneres, temàtiques i estils. En este projecte, aplicarem les últimes tecnologies disponibles per a la cadena de processament completa, des de la identificació dels llocs web amb text traduït fins a l'obtenció de corpus paral·lels nets massius per a totes les llengües d'Europa, a més de per al català. Estos textos, que cobriran una àmplia varietat d'estils, gèneres i temàtiques, estaran disponibles tant per a ser usats com a dades d'entrenament en el CEF Automated Translation com per a servir de memòries de traducció per a la DG de Traducció. Les eines seran publicades amb llicències de codi font obert perquè puguen ser usades tant per CEF Automated Translation com per tercers interessats. |
[ Tancar ]