Desarrollo de un etiquetador semántico para textos en castellano, inglés y valenciano.

CTIDIB/2002/151

Financiado por la Oficina de Ciencia y Tecnología (OCYT) de la Generalitat Valenciana

OBJETIVO.. 4

DESCRIPCIÓN DEL PROYECTO.. 5

PLAN DE TRABAJO.. 11

PLANIFICACIÓN DE LAS TAREAS. 14

NOVEDAD TECNOLÓGICA EN EL PROYECTO.. 15

PATENTES Y PUBLICACIONES PREVISTAS. 15

ESTADO DE LA TÉCNICA.. 15

BIBLIOGRAFÍA.. 16

MEMORIA DESCRIPTIVA Y TÉCNICA

OBJETIVO

El objetivo principal de este proyecto es construir un etiquetador semántico para el español, inglés y valenciano. Este etiquetador realizará automáticamente una anotación del sentido para cada una de las palabras de los texto en cada lengua. Para ello, se anotará el sentido suministrado por WordNet según la lengua que se esté tratando (http://www.cogsci.princeton.edu/~wn/w3wn.html).

Este etiquetador pretende mejorar la anotación de grandes conjuntos de datos mediante la asignación automática de una etiqueta semántica con su sentido apropiado. Esto supone un beneficio importante tanto en tiempo como en costes, ya que según estimó Ng en su trabajo [1], un hombre con dedicación exclusiva tardaría 16 años para construir un corpus etiquetado semánticamente para el inglés. Otro factor a tener en cuenta es la diversidad de lenguas, por lo que se debería realizar la anotación de los corpus para cada una de las lenguas. Este etiquetador permitirá mejorar la calidad de aquellas aplicaciones que precisen conocer el significado semántico dentro del campo de investigación de la Lingüística Computacional, concretamente en el del Procesamiento del Lenguaje Natural (PLN).

El objetivo principal científico y tecnológico del proyecto se centra en el campo de investigación denominado Desambiguación del sentido de las palabras (conocido en inglés, Word Sense Disambiguation (WSD)). En términos generales, la desambiguación del sentido de las palabras consiste en asociar una palabra dada de un texto con una definición de un sentido o significado, lo que permite distinguirla de otros significados atribuibles a esa palabra. Entrando más en detalle, WSD consistiría en preprocesar un texto no restringido en cualquier lengua con el fin de extraer un conjunto de características (pistas o indicios), para posteriormente usarlas para asignar a cada palabra del texto el sentido más probable, adecuado y eficiente. La mayoría de los sistemas de WSD, para solucionar este problema, lo que hacen es determinar los diferentes sentidos de cada palabra del texto de entrada utilizando una lista cerrada de sentidos (como los que hay en un diccionario), un grupo de categorías (como las de un tesauro) o un diccionario multilingüe para traducirla a otro lenguaje. Para posteriormente mediante el uso del contexto de la palabra a ser desambiguada asignar un sentido apropiado. Para realizar la asignación del sentido a cada palabra, se utilizan dos recursos de información:

El contexto de la palabra a ser desambiguada, el cual se obtiene con la información contenida dentro del texto en el que la palabra aparece, junto con la información lingüística sobre el texto, como la colocación, etc.
Recursos de conocimiento externo como son los recursos léxicos, enciclopédicos, así como recursos de conocimiento léxico (WordNet) desarrollados manualmente, que proporcionan datos valiosos para asociar palabras con sentidos.

Así, el objetivo de este proyecto es anotar el sentido de las palabras de textos no restringidos con la finalidad de ayudar a mejorar otras aplicaciones del PLN que necesitan conocer el sentido de las palabras, como Traducción Automática (TA), Recuperación de la Información (RI), Clasificación de Textos, Análisis del Discurso, Extracción de Información (EI), etc. Además, otro de los objetivos científicos de este proyecto se centra en la anotación de textos multilingües, tanto en español, inglés y valenciano, aportando la posibilidad de ayudar a las tareas anteriores comentadas de PLN pero para estas lenguas concretas.

El campo de aplicación sobre el que se trabajará será no restringido, aunque se prevé la posterior especialización a dominios restringidos, en los que es fácil pensar que se mejoraría la precisión del sistema. En definitiva, se tomará como el conjunto de datos de entrada sobre los que se anotará el sentido de cada una de las palabras, como documentos heterogéneos y no estructurados, es decir, en lenguaje natural, añadiendo la capacidad multilingüe descrita anteriormente.

En cuanto al carácter estratégico de este tipo de proyectos, está claro que se ha despertado un gran interés con el tratamiento de los textos, debido a la generalización de la mensajería y edición electrónica, que ha originado un incremento de la información de forma textual. Para manejar y acceder de forma eficiente a la información disponible, es necesario contar con herramientas que faciliten el trabajo con esos textos sin ninguna manipulación. A consecuencia de este interés por el tratamiento de textos, la desambiguación del sentido de las palabras es una de las tareas intermedias más importantes del PLN. Así, una de las ventajas presentadas al anotar el sentido a las palabras sería reducir considerablemente el esfuerzo que tienen que hacer los lexicógrafos cuando deben clasificar grandes corpus en relación al uso de las palabras por sus distintos sentidos.

DESCRIPCIÓN DEL PROYECTO

DESCRIPCIÓN TÉCNICA Y ESPECIFICACIONES FUNCIONALES

Tal como se ha descrito anteriormente, se propone construir un etiquetador semántico para las lenguas español, inglés y valenciano. Para este sistema, la entrada siempre será la misma, es decir, texto en lenguaje natural que podrá estar en diferentes lenguas (concretamente español, inglés y valenciano). A partir de estos textos se aplicarán las técnicas propuestas en este proyecto con el objetivo de anotar semánticamente el sentido de las palabras de los textos de entrada. En cuanto a la salida, se devolverán cada una de las palabras de los textos de entrada con sus correspondientes sentidos (synset) de WordNet para español, inglés y valenciano

A continuación se describe el plan de trabajo propuesto para llevar a cabo el proyecto. Este está detallado en módulos que a la vez se descomponen en actividades. Posteriormente, se detalla el estado de la técnica en España y las líneas de trabajo que se están llevando a cabo por los grupos de investigación.

PLAN DE TRABAJO

Módulo 1: Coordinación del proyecto

Este módulo consiste en la propia coordinación del proyecto. Una toma de contacto inicial entre los investigadores participantes del proyecto permitirá establecer las bases y protocolos de actuación para los módulos definidos a continuación. Esta fase se realizará a lo largo de todo el proyecto, en la que se realizarán reuniones periódicas entre los investigadores.

Módulo 2: DEFINICIÓN DE LA ARQUITECTURA ADECUADa.

En esta fase se tomarán decisiones en cuanto a la arquitectura modular del etiquetador propuesto para un funcionamiento óptimo. A continuación se describen brevemente los recursos y herramientas propuestos para dicho sistema PLN.

· Etiquetador léxico-morfológico: genera las categorías gramaticales de cada palabra junto con su información morfológica, y proporciona al sistema independencia en la entrada de ficheros de texto o documentos.

· WordNet: proporciona información correspondiente a la taxonomía de nombres (Hiperonimia/hiponimia) así como todos los posibles sentidos de las palabras que forman el contexto en una oración de los textos de entrada.

· Método WSD basado en conocimiento: resolverá la ambigüedad léxica y se basará en el enfoque de cotejar el contexto de la palabra a desambiguar con información de un recurso de conocimiento externo. Por lo comentado anteriormente interesa tener un recurso que tenga las palabras y los conceptos organizados alrededor de clases (jerarquías), de tal forma que describan todas sus características semánticas. El método que se pretende desarrollar debe diseñarse para explotar las relaciones jerárquicas de hiperonimia y hiponimia que proporciona la base de conocimiento léxica denominada WordNet.

· Método WSD basado en corpus: El objetivo de este método será obtener clasificadores de sentidos de las palabras mediante un modelo de probabilidad basado en el principio de Máxima Entropía. El propósito del método será aplicar estos modelos a la desambiguación léxica de nombres, verbos y adjetivos.

· Corpus etiquetados semánticamente: Se parte de un conjunto de ejemplos de aprendizaje que nos servirá para construir el clasificador. En nuestro caso, estos ejemplos son frases etiquetadas sintácticamente donde la palabra objetivo está etiquetada con su sentido correcto en cada una de los lenguas propuestas.

Módulo 3: ESTUDIO Y SELECCIÓN DE HERRAMIENTAS Y RECURSOS LINGÜÍSTICOS APROPIADOS PARA DESARROLLAR LA TAREA.

En función de la arquitectura decidida en el módulo anterior y teniendo en cuenta los recursos y herramientas que se proponen para el desarrollo del etiquetador semántico, se realizará una búsqueda de aquellas herramientas y recursos ya desarrollados que puedan servir para el objetivo del proyecto. De este modo se determinará el grupo de herramientas o módulos a construir por los investigadores que participan en el proyecto. También se determinará la colección de textos multilingües sobre los que trabajará el prototipo.

Módulo 4: cONSTRUCCIÓN DEL ETIQUETADOR.

Actividad 4.1: Estudio, mejora y adecuación del método basado en conocimiento

Este método consistirá en desambiguar automáticamente el sentido de las palabras que aparecen dentro del contexto de una oración (micro-contexto ó contexto local) mediante la utilización de la taxonomía de nombres de la base de conocimiento léxico WordNet. Este método estará basado en la hipótesis de que las palabras que aparecen en un mismo contexto tienen sus sentidos relacionados entre sí. Por lo tanto, se deduce que el contexto juega un papel muy importante a la hora de identificar el significado de una palabra polisémica. Así, en el método que se propondrá el contexto es observado como el grupo de palabras que se encuentran en una ventana circundante (oración) a la ocurrencia de la palabra a desambiguar en la oración, sin considerar la aplicación a dichas palabras de las técnicas de distancia entre términos, preferencias de selección, relaciones gramaticales, colocación de los sintagmas, etc.

Este método para resolver la ambigüedad léxica cotejará el contexto de la palabra a desambiguar con información de un recurso de conocimiento externo. Por lo comentado anteriormente y con motivo de resolver el problema, interesa tener un recurso que tenga las palabras y los conceptos organizados alrededor de clases (jerarquías), de tal forma que describan todas sus características semánticas. Así el método propuesto se diseñará para obtener las ventajas comentadas en la sección anterior, por eso se usarán las relaciones jerárquicas de hiperonimia y hiponimia que proporciona la base de conocimiento léxica denominada WordNet.

Actividad 4.2: Estudio, mejora y adecuación del método basado en corpus

Este método se inscribe dentro del conjunto de métodos de aprendizaje supervisado basados en corpus. El objetivo es obtener clasificadores de sentidos de las palabras mediante un modelo de probabilidad basado en el principio de Máxima Entropía. Los modelos de Máxima Entropía buscan la óptima distribución de probabilidad asumiendo la máxima ignorancia sobre los datos, esto es, no se asume ningún conocimiento que no se encuentre reflejado en el conjunto de entrenamiento. Su principal ventaja reside en su capacidad de representación de fuentes de información de contexto heterogéneas.

El propósito del método será aplicar estos modelos a la desambiguación léxica de nombres, verbos y adjetivos. Se parte de un conjunto de ejemplos de aprendizaje que nos servirá para construir el clasificador. En nuestro caso, estos ejemplos son frases etiquetadas sintácticamente donde la palabra objetivo está etiquetada con su sentido correcto. Para representar la evidencia, los modelos de Máxima Entropía utilizan funciones binarias que indican la presencia o no de una cierta característica dentro de un contexto que acompaña al ejemplo utilizado en el aprendizaje. Definidas estas funciones y obtenido su valor al aplicarlas a todos los ejemplos de entrenamiento, se obtiene el modelo de probabilidad óptimo que maximiza la entropía. Esto se consigue mediante la estimación de unos parámetros que nos indican el peso o la importancia de cada función en el proceso de clasificación. Al final, el modelo obtenido tiene la misma distribución de probabilidad que la observada en el conjunto de entrenamiento.

Actividad 4.3: Integración de los métodos anteriores en un único sistema híbrido que dé la máxima cobertura para la mejor precisión.

Se trata de estudiar la mejor manera de que cada método supla las carencias del otro, es decir, que ambos métodos se ayuden mutuamente. La principal ventaja de los métodos basados en corpus, aparte de su mayor tasa de acierto experimental, reside en la posibilidad de construir clasificadores especializados en cierto tipo de contextos con lo que se pueden utilizar estos y los métodos basados en conocimiento, por ejemplo, en un sistema de votación. Además, los métodos basados en el conocimiento pueden resolver casos en que el método basado en corpus no esté entrenado, obteniendo una mayor tasa de acierto. Por lo tanto, se trata de estudiar los diferentes clasificadores más eficaces y la forma de combinarlos entre sí y con el método basado en conocimiento.

Actividad 4.4: Adecuación del sistema desarrollado para las tres lenguas aplicadas.

Esta actividad consistirá en adecuar el sistema desarrollado en las actividades anteriores para que funcione correctamente en las tres lenguas aplicadas en este proyecto, que concretamente son español, inglés y valenciano. Para ello se realizarán los estudios e investigaciones oportunas y por lo tanto el desarrollo de las correspondientes adecuaciones. Además de buscar y evaluar los recursos necesarios (corpus, analizadores, etc).

Actividad 4.5: Construcción de una interfaz Web.

Se trata de implementar una interfaz Web para que los usuarios tenga la facilidad de que cuando introduzcan textos en distintos formatos, esta devuelva a dichos textos con sus sentidos anotados para cada una de las palabras que lo componen. Además esta interfaz debe detectar los formatos de los textos de entrada y la lengua en que están escritos para activar los procesos automáticos correspondientes a dichas entradas y producir la salida correcta a esos textos. En esta actividad se estudiarán los procesos necesarios para su desarrollo, así como el lenguaje de programación óptimo para su realización.

Módulo 5: Evaluación y diseminación de los resultados

Este módulo consistirá en la evaluación cuantitativa y cualitativa de los resultados que se vayan obteniendo, así como la diseminación periódica de los resultados. Para ello se realizarán comparaciones con otros sistemas para medir posibles mejoras. Es decir, durante la ejecución de este módulo, se procederá a realizar distintas publicaciones en los foros de investigación más importantes. Asimismo se harán públicos en el servidor Web del proyecto diferentes informes o reportes, que den cuenta del estado de ejecución del proyecto.

Módulo 6: cONSTRUCCIÓN DE UN PAQUETE DE LIBRE DISTRIBUCIÓN.

Este proyecto se pondrá a libre distribución para todo personal investigador que esté interesado en él. Para ello se realizará la construcción de un paquete de libre distribución que se podrá obtener en el portal Web del proyecto.

PLANIFICACIÓN DE LAS TAREAS

A continuación se muestra la planificación prevista del proyecto propuesto. Esto nos permitirá realizar un adecuado seguimiento y control de dicho proyecto. A continuación se muestra gráficamente esta planificación.

												MES
	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24
Módulo 1
Módulo 2
Módulo 3
Módulo 4
Act. 4.1
Act. 4.2
Act. 4.3
Act. 4.4
Act. 4.5
Módulo 5
Módulo 6

NOVEDAD TECNOLÓGICA EN EL PROYECTO

La aplicación de las nuevas tecnologías a los sistemas de información actuales ha provocado una revolución que está cambiando a la gente su forma de trabajar, de comunicarse con los demás, de comprar cosas, de usar los servicios e incluso en el modo de como se educan y se entretienen. Uno de los resultados de dicha revolución es que se está incrementando el uso y tratamiento de grandes cantidades de información con un formato más natural para los usuarios que los utilizados por los antiguos formatos típicos de las computadoras. Es decir, se están incrementando las actividades que utilizan y tratan el lenguaje natural como por ejemplo la redacción y corrección de documentos, consultas a distancia de fuentes de información, traducción automática, uso de diccionarios y enciclopedias, etc.

Por todos estos motivos, las investigaciones en la comprensión y en el uso de forma automática de los lenguajes naturales se han incrementado considerablemente en los últimos años. En esta área, denominada Procesamiento del Lenguaje Natural (PLN), se estudian los diferentes problemas que genera el lenguaje en su tratamiento automático, tanto en conversaciones habladas como escritas.

Para diseñar un sistema de PLN se requiere conocimiento abundante sobre las estructuras del lenguaje, como son el morfológico, sintáctico, semántico y pragmático. Todas estas formas de conocimiento lingüístico tienen asociado un problema común difícil de resolver, sus diferentes ambigüedades. Por este motivo, cuando se diseña un sistema de PLN, uno de los objetivos fundamentales es resolver sus múltiples ambigüedades (estructural, léxica, ámbito de cuantificación, función contextual y referencial) mediante la definición de procedimientos específicos para cada una de estas.

En concreto en esta proyecto nos centraremos en la resolución de la ambigüedad léxica para textos en distintas lenguas, la cual se presenta cuando, al asociar a cada una de las palabras del texto la información léxico-morfológica, hay palabras que tienen más de un sentido o significado. Ya que este tipo de ambigüedad es un obstáculo en aquellas aplicaciones que precisan conocer el significado semántico, por tal motivo, la resolución de esta ambigüedad mejora la calidad de algunos campos de la investigación como Traducción Automática (TA), Recuperación de la Información (RI), Clasificación de Textos, Análisis del Discurso, Extracción de Información (EI), etc.

Finalmente, dada la diversidad de lenguas en el ámbito europeo, en este proyecto se resolverá la ambigüedad léxica en tres lenguas diferentes como son español, inglés y valenciano aportando un valor multilingüe a las aplicaciones anteriormente comentadas.

PATENTES Y PUBLICACIONES PREVISTAS

Uno de los foros más importantes de este tipo de aplicaciones de desambiguación léxica para diferentes lenguas es el SENSEVAL. SENSEVAL es una competición científica sobre WSD que se han celebrado al estilo de la agencia norteamericana ARPA o MUC. Actualmente hay muchos programas para determinar automáticamente el sentido de una

palabra en un contexto. El propósito de SENSEVAL es evaluar la potencia y la debilidad de tales programas con respecto a diferentes palabras, diferentes variedades de lengua y diferentes lenguas. El primer SENSEVAL, denominado SENSEVAL-1, se realizó en el verano de 1998 para el inglés, francés e italiano. El segundo SENSEVAL, denominado SENSEVAL-2, se realizó en Julio de 2001 sobre 12 lenguajes: checo, holandés, inglés, estonio, vasco, chino, danés, italiano, japonés, coreano, español y suizo. Finalmente, toda la información referente a la competición SENSEVAL-2 será publicada en las actas del Second International Workshop on Evaluating Word Sense Disambiguation Systems, que se realizó conjuntamente con el 39th Annual Meeting of the Association for Computational Linguistic ACL-2001. Además, actualmente todos los datos, resultados de la evaluación, descripción de tareas, descripción de sistemas y clasificaciones de sistemas son de dominio público en la dirección http://www.sle.sharp.co.uk/senseval2/.

La idea es, que al realizar en este proyecto el etiquetador semántico para el valenciano, añadir a estas 12 lenguas, el valenciano para así poder comparar sistemas WSD entre investigadores de la Comunidad Autónoma y expandir la investigación de esta lengua en el campo del PLN.

Las expectativas de publicación no se ceñirán únicamente a estos foros, en los cuales los participantes de este proyecto ya tienen experiencia previa (ver las publicaciones al final de esta memoria), sino que también se prevé la publicación en foros especializados en WSD y en congresos relacionados con la Lingüística computacional.

ESTADO DE LA TÉCNICA

Como ya se ha comentado anteriormente, este proyecto se centra en el campo de investigación denominado: Desambiguación del sentido de las palabras (en inglés, Word Sense Disambiguation (WSD)). A continuación se realizará una importante aclaración sobre la dificultad que tiene la automatización del proceso WSD, debido a los problemas que conlleva el grado de granularidad tan fina que proporcionan los diccionarios en la división de los sentidos, a que el diccionario no contenga el sentido apropiado, a que el sentido del diccionario se demasiado particular, a que puedan aplicarse varios sentidos, etc. Así, algunos autores como Slator y Wilks han afirmado que la división de los sentidos que proporcionan los diccionarios es normalmente muy fina para las tareas de PLN. Esto es un problema muy grave para la tarea de WSD. Y la consecuencia de esto es que se requiere realizar una elección de sentidos extremadamente dificultosa incluso para lexicógrafos expertos, debido a que distinción de los sentidos realizada en algunos diccionarios es difícil de hacer incluso por parte de los lexicógrafos expertos. Para solucionar el problema de la automatización de WSD se han propuesto distintos enfoques, pero el problema sigue sin solucionarse definitivamente.

Los métodos, que se utilizan para desambiguar el sentido de las palabras automáticamente, se pueden clasificar de distintas formas: supervisados, no-supervisados, basados en ejemplos de corpus, basados en bases de conocimiento, métodos mixtos, etc. En este proyecto concretamente se pretende aplicar un método basado en el conocimiento, otro basado en el corpus y además estudiar la mejor manera de integrar estos dos para obtener un buen rendimiento.

Los métodos basados en ejemplos de corpus (en inglés, WSD Corpus-Based) utilizan ejemplos de usos de las palabras (``bancos de datos''), que previamente han sido anotados semánticamente, para la desambiguación del sentido de las palabras. A partir de esta información y aplicando alguna aproximación obtienen el sentido de las palabras, por lo tanto estos métodos dependen de la disponibilidad de los corpus anotados semánticamente y su dependencia de los datos utilizados en la fase de entrenamiento.

Los métodos basados en bases de conocimiento (en inglés, WSD Knowledge-Driven) se caracterizan porque su trabajo de desambiguación consiste en emparejar la palabra a ser desambiguada con cualquier información de un recurso de conocimiento externo (diccionario, base de conocimiento, etc). Estos métodos utilizan recursos de conocimiento léxico preexistentes, por lo que evitan la necesidad de utilizar grandes cantidades de información de entrenamiento para desambiguar el sentido de las palabras.

La investigación en este campo se desarrolla en grupos de investigación o Universidades. En España esta investigación principalmente se centra en la Universidad de País Vasco, la Universidad Politécnica de Cataluña, la Universidad de Barcelona, la Universidad Politécnica de Valencia, la Universidad Nacional de Educación a Distancia, la Universidad de Jaén y la Universidad de Alicante, las cuales están especializadas en Procesamiento del Lenguaje Natural, tal y como muestran algunas de sus publicaciones que se listan al final de esta memoria.

Respecto al estado de la técnica en el extranjero, destacan las Universidades de Sussex Universidad de Maryland, la Universidad de Sains Malaysia, el Instituto Trentino di Cultura, la Universidad de Sheffield, la Universidad de Manitoba, la Universidad de Ottawa, la Univeridad de California, la Universidad de Antwerp y el Laboratorio de Informática de Avignon.

Hasta el momento, no se dispone de ningún etiquetador semántico para anotar el sentido de las palabras de textos en valenciano.

BIBLIOGRAFÍA

A continuación se describirán las publicaciones más destacadas relacionadas con el proyecto:

Agirre E. and Rigau G. (1996) Word Sense Disambiguation using Conceptual Density. Proc. 16^th International Conference on COLING. Copenhagen.

Berger A., Della Pietra S. and Della Pietra V. (1996). A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics vol.22(1).

Cowie J., Guthrie J. and Guthrie L. (1992) Lexical disambiguation using simulated annealing. Proc. DARPA Workshop on Speech and Natural Language. 238-242. New York.

Escudero G., Márquez L. and Rigau G. (2000). Boosting Applied to Word Sense Disambiguation. European Conference on Machine Learning, 129-141.

Ide N. and Véronis J. (1998) Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art. Computational Linguistics. 24 (1), 1-40.

Karov Y. and Edelman S. (1996) Learning Similarity-Based Word Sense Disambiguation from Sparce Data. Research Report CS-TR-96-05. The Weizmann Institute of Science, Rehovot, Israel.

Landes, S., Leacock C., and Tengi, R. (1998). Building a Semantic Concordance of English. In C. Fellbaum, editor, WordNet: An electronic lexical Database and Some Applications. MIT Press, Cambridge, MA.

Lesk, M. (1986) Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone. Proc. 1986 SIGDOC Conference, ACM 24-26, New York.

Manning, C. D. and Schütze, H. (1999) Foundations of Statistical Language Processing. The MIT Press, Cambridge, Massachusets, ISBN 0-262-13360-1.

Martínez D. and Agirre E. (2000). One Sense per Collocation and Genre/Topic Variations. Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. Hong Kong.

Mihalcea R. and Moldovan D. 1999. A Method for word sense disambiguation of unrestricted text. Proc. 37th Annual Meeting of the ACL 152-158, Maryland, Usa.

Miller G. A., Beckwith R., Fellbaum C., Gross D., and Miller K. J. (1990) WordNet: An on-line lexical database. International Journal of Lexicography, 3(4): 235-244.

Montoyo, A. and Palomar M. (2000). Word Sense Disambiguation with Specification Marks in Unrestricted Texts. In Proceedings 11th International Workshop on Database and Expert Systems Applications (DEXA 2000), pages 103-108. Greenwich, (London).

Montoyo, A. and Palomar, M. (2001). Specification Marks for Word Sense Disambiguation: New Development. 2^nd International conference on Intelligent Text Processing and Computational Linguistics (CICLing-2001). México D.F. (México).

Montoyo A., Palomar, M. and Rigau, G. (2001) WordNet Enrichment with Classification Systems. WordNet and Other Lexical Resources: Applications, Extensions and Customisations Workshop. The Second Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-01). Carnegie Mellon University. Pittsburgh, PA, USA.

Montoyo A., Suarez A. (2001) The University of Alicante Word Sense Disambiguation System. Proceedings of SENSEVAL-2: Second International Workshop on Evaluating Word Sense Disambiguation Systems. Toulouse. France.

Ng, H.T. and Lee, H.B. (1996). Integrating Multiple Knowledge Sources to Disambiguate Word Senses: An Exemplar-Based Approach. In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics, ACL.

Palomar M., Saiz-Noeda M., Muñoz, R., Suárez, A., Martínez-Barco, P., and Montoyo, A. (2000). PHORA: NLP System for Spanish. In Proceedings 2nd International conference on Intelligent Text Processing and Computational Linguistics (CICLing-2001). México D.F. (México).

Pla F. 2000. Etiquetado Léxico y Análisis Sintáctico Superficial basado en Modelos Estadísticos. PhD Thesis. Departamento de Sistemas Informáticos y Computación. Universidad de Politécnica de Valencia.

Ratnaparkhi, A. (1998). Maximum Entropy Models for Natural Language Ambiguity Resolution. Ph.D. Dissertation. University of Pennsylvania.

Resnik P. (1995) Disambiguating noun groupings with respect to WordNet senses. Proceedings of Third Workshop on Very Large Corpora. 54-68.Cambridge, MA.

Resnik P. and Yarowsky D. (1997) A perspective on word sense disambiguation methods and their evaluation. Proc. ACL Siglex Wordshop on Tagging Text with Lexical Semantics, why, what and how?, Washington DC.

Resnik P. (1999) Semantic similarity in a taxonomy: an information-based measure and its application to problems of ambiguity in natural lenguage. In Journal of Artificial Intelligence Research 11. 95-130.

Rigau G., Atserias J. and Agirre E. (1997) Combining Unsupervised Lexical Knowledge Methods for Word Sense Disambiguation. Proceedings 35th Annual Meeting of the ACL, 48-55, Madrid, Spain.

Rigau G., Rodríguez H.. and Agirre E. (1998) Building Accurate Semantic Taxonomies from Monolingual MRD´s. Proceedings 17^th International Conference on Computational Linguistics and 36^th Annual Meeting (COLING-ACL´98), Montreal, Canada.

Soler, S. and Montoyo, A. (2002). A Proposal for WSD using Semantic Similarity. In Proceedings Third International conference on Intelligent Text Processing and Computational Linguistics (CICLing-2002). México D.F. (México).

Stetina J., Kurohashi S. and Nagao M. (1998) General word sense disambiguation method based on full sentencial context. In Usage of WordNet in Natural Language Processing. COLING-ACL Workshop, Montreal, Canada.

Saiz-Noeda M., Suárez A. y Palomar M. (2001) Semantic Pattern Learning Through Maximum Entropy based WSD technique. Proceedings of CoNLL-2001. Toulouse, France.

Suarez A., y M. Palomar (2002) Feature Selection Analysis for Maximum Entropy-based WSD. Third International conference on Intelligent Text Processing and Computational Linguistics (CICLing-2001). Computational Linguistics and Intelligent Text Processing, Mexico City.

Ureña A. 1998. Resolución de la ambigüedad léxica en tareas de clasificación automática de documentos. PhD Thesis. Universidad de Jaen.

Vossen, P. (1996). EuroWordNet: building a multilingual wordnet database with semantic relations between words. Technical and Financial Annex, EC funded project LE #4003.

Wilks Y. And Stevenson M. (1996) The grammar of sense: Is word sense tagging much more than part-of-speech tagging? Technical Report CS-96-05, University of Sheffield, UK.

Yarowsky D. (1992) Word Sense disambiguation using statistical models of Roget´s categories trainined on large corpora. Proceedings of 14^th COLING, 454-460, Nantes, France.

Yarowsky, D. (1995) Unsupervised word Sense disambiguation rivaling supervised methods. Proceedings of 32nd Annual Meeting of the ACL.