Departament de Llenguatges i Sistemes Informàtics

Comunicació

Títol:Controlabilidad e integración de conocimiento externo como factores clave en el desarrollo de modelos eficientes de generación de lenguaje natural Importa'l al teu calendari:
[CSV]
Tipus:Defensa de tesi doctoral
Per:Iván Martínez Murillo
Lloc:Sala d'actes EPS IV
Dia/hora:11.00 30/01/2026
Duració aproximada:2:00 hores
Més informació:https://cvnet.cpd.ua.es/AgendaUA/V/229494?agenda=31510&idioma=es
Persona de contacte:

Lloret Pastor, Elena (elloret[Perdone'm]dlsi.ua.es)
Resum:
La generación de lenguaje natural (GLN) es un área fundamental dentro del
procesamiento de lenguaje natural (NLP) que busca permitir a las máquinas
producir textos coherentes, contextualmente adecuados y comprensibles para
los humanos. Para que un sistema de GLN sea exitoso, no solo debe generar
oraciones gramaticalmente correctas, sino que también debe incorporar
sentido común, es decir, el conocimiento básico y el razonamiento intuitivo
sobre el mundo que las personas usamos para entender y comunicar ideas con
sentido. El sentido común es crucial en esta tarea porque permite que los
modelos no solo imiten patrones lingüísticos, sino que produzcan contenido
con coherencia lógica y factual, evitando errores que son comunes cuando
los sistemas generan información sin una comprensión real del contexto o
del conocimiento implícito. 

Esta tesis doctoral aborda precisamente ese desafío, centrándose en cómo
mejorar las capacidades de razonamiento por sentido común en los modelos de
generación de lenguaje natural. En particular, el trabajo de investigación
realizado en esta tesis doctoral realiza varias contribuciones importantes
dentro del ámbito de la generación de lenguaje natural con sentido común,
enfocándose especialmente en el contexto multilingüe. En primer lugar, se
desarrollaron dos recursos fundamentales para la  comunidad investigadora:
los datasets COCOTEROS y MULTICOM. COCOTEROS es un corpus en español diseñado
específicamente para la generación de texto con sentido común que incluye
información contextual para mejorar la coherencia y adecuación pragmática
del lenguaje generado. Este dataset fue creado mediante
una metodología semiautomática que incluye generación de contextos con modelos
de lenguaje grande y validación tanto manual como automática para asegurar
la calidad lingüística y minimizar sesgos de género. Por otro lado, MULTICOM
amplía esta perspectiva a un contexto multilingüe, permitiendo evaluar
y comparar las capacidades de razonamiento de sentido común en diferentes
idiomas, lo que facilita entender las limitaciones y peculiaridades que
presentan los modelos en diversas lenguas. Además, la tesis aporta un análisis
detallado sobre el desempeño de los modelos de lenguaje grande (LLMs) en
tareas de razonamiento con sentido común en varios idiomas. Este estudio
revela cómo las diferencias lingüísticas pueden afectar significativamente
la capacidad de los modelos para generar textos con sentido común adecuado,
lo que subraya la necesidad de desarrollar métodos específicos y recursos
multilingües para mejorar la generación de texto más allá del inglés.

El aporte central de la investigación es el método KRAIG (Knowledge Retrieval
and Injection Generation), una estrategia para recuperar conocimiento
pertinente y luego integrarlo durante el proceso de generación de texto en los
modelos NLG. KRAIG permite superar limitaciones comunes en los modelos actuales
relacionados con la producción de textos sin sentido común o incoherentes,
conectando el conocimiento externo relevante con el contexto y las necesidades
específicas de la tarea. Este método se valida a través de experimentos
en diferentes dominios, incluyendo escenarios de generación narrativa,
demostrando su eficacia y versatilidad para mejorar la fidelidad, coherencia y
capacidad de razonamiento en sistemas de generación automática de texto. En
conjunto, estas contribuciones ofrecen un avance sustancial para la GLN
con sentido común, proporcionando tanto herramientas prácticas como marcos
teóricos para enriquecer y evaluar los modelos multilingües, y estableciendo un
camino para integrar conocimiento externo de manera efectiva en los sistemas
de generación de texto.

[ Tancar ]