Departament de Llenguatges i Sistemes Informàtics

Notícia

El grup Transducens del DLSI coordina un projecte europeu

El grup Transducens del DLSI coordina un projecte europeu
La Universitat d'Alacant, a través del grup Transducens del Departament de Llenguatges i Sistemes
Informàtics, serà la coordinadora de l'acció 2020-EU-IA-0078 "Massive collection and
curation of monolingual and bilingual data: focus on underresourced languages", concedida
en el marc de la convocatòria CEF-TC-2020-1 – eTranslation. L’Agència Executiva d’Innovació i
Xarxes de la Comissió Europea invertirà més de 680.000 euros en aquesta acció, una de les cinc
propostes acceptades en l’àmbit de les tecnologies de la traducció. En aquesta acció, que serà
coordinada pel Dr. Miquel Esplà Gomis, la Universitat d’Alacant continua, reenfoca, i passa a
liderar el treball realitzat durant els darrers anys com a soci de les accions 2016-EU-IA-0114
"Provision of web-scale parallel corpora for official European languages", iniciada
el 15 de setembre de 2017, finalitzada el 14 de març de 2019, 2017-EU-IA-0178 "Broader
provision of web-scale parallel corpora for official European languages", iniciada el 15 de
setembre de 2018, finalitzada el 14 de setembre de 2020, i l’acció 2018-EU-IA-0063 "Continued
Web-Scale Provision of Parallel Corpora for European Languages", actualment vigent.

El nou projecte, que s’espera que comence en la primavera del 2021, durarà vint-i-quatre mesos
i té com a socis l’Institut Jožef Stefan de Ljubljana (Eslovènia) i la Universitat de Groningen
(Països Baixos), a més de Prompsit Language Engineering, empresa sorgida del grup Transducens. Es
dóna la circumstància que les persones de contacte del projecte, Miquel Esplà Gomis, coordinador,
Antonio Toral, doctorat al nostre Departament i investigador principal a Groningen, Gema Ramírez,
CEO i investigadora principal per part de Prompsit i Nikola Ljubešic, investigador principal a
l’Institut Jožef Stefan,  ja van treballar conjuntament en una acció Marie Curie, “Abu-Matran,
Automatic building of Machine Translation” (2013–2016) de temàtica molt similar.

El component Automated Translation de la Connecting Europe Facility (CEF) proveeix de serveis
de traducció automàtica en les llengües oficials d'Europa a un ampli conjunt d'institucions i
empreses europees. Els recursos més importants per a construir un servei de traducció automàtica
són els corpus paral·lels, és a dir, les col·leccions de textos traduïts. El present projecte
continua l'esforç dels anteriors en dos fronts: millorar l'eina lliure/de codi obert Bitextor per
a recollir textos paral·lels massivament a partir dels dominis d’Internet de nivell superior, en
particular els d’Islàndia, Bulgària, Malta, Croàcia, Eslovènia i Turquia, i fer-ho seleccionant
els que són rellevants per a les infraestructures de serveis digitals europees. Els corpus
resultants seran automàticament enriquits amb informació sobre la seua qualitat, la variant
lingüística, la seua procedència (text original o traduït), i amb marques per a facilitar la
protecció de dades personals, i avaluats tant automàticament com per experts. El programari i
les dades es disseminaran efectivament  perquè siguen adoptats pels actors econòmics i socials;
en particular, se subministraran al servei eTranslation.
[ Tancar ]