17 de Abril de 2009
Resumen:
Se presenta una revisión del tema de la desambiguación del sentido de las palabras, una tarea que se contextualiza en el conjunto de técnicas conocido como Procesamiento de Lenguaje Natural, que trata los fenómenos lingüísticos de diversa índole de forma automatizada mediante computadoras. La interpretación automática de un enunciado implica la correcta desambiguación de la palabra. La ambigüedad surge cuando una estructura gramatical puede ser interpretada de varias maneras o admitir distintas interpretaciones y dar, por consiguiente, motivo a confusión en el sentido de la oración.
La Desambiguación del Sentido de las Palabras (WSD: Word Sense Disambiguation), es una tarea que podemos contextualizar en un conjunto más amplio de técnicas llamado Procesamiento de Lenguaje Natural (PLN), que básicamente trata los fenómenos lingüísticos de diversa índole de forma automatizada mediante computadoras.
WSD es una fase necesaria para la consecución de acciones como son el análisis sintáctico o la interpretación semántica en tareas del PLN, así como para el desarrollo de aplicaciones finales, tanto de recuperación de información, como de clasificación de textos, análisis de discurso, traducción automática o análisis gramatical, entre otras (Ide and Veronis, 1998). WSD es considerada como una 'tarea intermedia' en algunas actividades de PLN (Wilks and Stevenson, 1996), pero indispensable para lograr la mayoría de ellas.
Una de las tareas más difíciles en el PLN es la resolución de la ambigüedad de las palabras. Esta resolución es necesaria en la medida en que una palabra pueda ser interpretada de diferentes formas, es decir, posea más de un significado o sentido (fenómeno lingüístico conocido como polisemia). Lo que persigue la WSD es la asignación automática de sentidos a las palabras de un texto.
Determinar el sentido correcto de una palabra en un texto o en una conversación es una tarea cotidiana en la comunicación humana que rara vez causa problemas. En cambio, para una computadora se convierte en una tarea de enorme dificultad. Esto se debe a que las computadoras procesan los textos como un conjunto de palabras sin significado y/o valor. Para lograr la comprensión e interpretación adecuada de la información, es necesario analizar a fondo cada una de las palabras y así obtener la interpretación o sentido más apropiado.
El contexto de la palabra es considerado como un conjunto de palabras que la acompañan, junto con las relaciones sintácticas y categorías semánticas (Vázquez et al., 2003). Es precisamente este contexto, el que parece haberse demostrado como el medio más eficaz para identificar el sentido de una palabra polisémica.
Actualmente existen dos categorías principales para la clasificación de los métodos empleados para la WSD: métodos basados en conocimiento y métodos basados en corpus.
Estos métodos utilizan un conocimiento lingüístico previamente adquirido. La idea básica consiste en utilizar recursos externos para desambiguar las palabras, tales como diccionarios, tesauros (vocabularios controlados que representan las relaciones semánticas con otros palabras y sus significados), textos sin ningún tipo de etiquetado e incluso recursos de la Web (Agirre et al., 2000). Los recursos utilizados por estos métodos son los conocidos como diccionarios MRD (Machine Readable Dictionaries) (Ide and Véronis, 1998). Algunos diccionarios MRD son:
Estos métodos se basan en el uso de técnicas estadísticas y de aprendizaje automático para inducir modelos del lenguaje a partir de grandes conjuntos de ejemplos textuales (Pedersen, 2001). Por corpus se entiende una colección de textos, ya sean sobre un mismo tema o varios. El propósito de un corpus es servir de fuente de datos, proporcionando ejemplos de oraciones y ejemplos de uso de varias palabras para ser utilizados en algoritmos de aprendizaje automático.
Los métodos basados en corpus pueden subdividirse en: métodos supervisados (corpus etiquetado) y métodos no supervisados (corpus no etiquetado). Es decir, en el aprendizaje supervisado se conoce la clase de cada elemento dentro del conjunto de aprendizaje (etiqueta de sentido) mientras que en el no supervisado la clasificación de los datos de entrenamiento no es conocida (Raghavan et al.,2008).
En este enfoque, la WSD se reduce a un problema de clasificación donde se asigna a una palabra objetivo el sentido más apropiado dado un conjunto de posibles combinaciones de las palabras de su contexto (Mihalcea and Pedersen, 2004). Es decir, estos métodos utilizan clasificadores o algoritmos de aprendizaje para llevar a cabo la desambiguación. Generalmente el proceso se divide en dos fases: el entrenamiento y la desambiguación de los sentidos (o clasificación en términos de aprendizaje automático).
Al contrario que los métodos supervisados y los basados en conocimiento, los métodos no supervisados identifican patrones en los conjuntos de datos sin el beneficio de los datos etiquetados o de otros recursos como son los MRD (Stevenson, 2003) (Mihalcea and Pedersen, 2004). Estos patrones se utilizan para dividir los datos en grupos, donde cada uno de los miembros de un grupo posee varias características comunes con el resto de los miembros del mismo grupo. Este enfoque se basa en la hipótesis de que las palabras con significados similares tienden a tener contextos similares. El procedimiento general de este enfoque normalmente se basa en la selección de aquellas palabras que se desean discriminar con su respectivo contexto. A partir de estas palabras seleccionadas se realizan las agrupaciones basándose en el contexto de las palabras seleccionadas.
Como hemos visto, los diccionarios electrónicos, tesauros y corpus son los principales recursos léxicos utilizados en PLN para la resolución de la ambigüedad. Los diccionarios electrónicos son bases de datos léxicas que agrupan grandes cantidades de palabras, proporcionando definiciones y almacenando las relaciones semánticas entre los conjuntos de palabras. A continuación se describen algunos recursos léxicos disponibles para la WSD.
Es uno de los diccionarios más ampliamente utilizados en esta área. Tiene aproximadamente 50,000 definiciones de palabras. Una de las características de LDOCE (http://www.ldoceonline.com) es la inclusión de etiquetas por área, las cuales pueden ser equivalentes a las etiquetas de dominio utilizadas para cada sentido de la palabra. Cuenta con una versión especialmente desarrollada para PLN, llamada LDOCE3 NLP database, muy utilizada en experimentos de WSD.
WordNet (http://wordnet.princeton.edu/) es un MRD para el idioma inglés (Miller et al., 1990), (Fellbaum, 1998), (Harabagui et al., 1999), que se ha convertido en uno de los recursos más valiosos para el PLN.
Este recurso posee una base de datos que agrupa las palabras en conjuntos de sinónimos llamados synsets y provee definiciones, comentarios y ejemplos de uso de estas palabras y sus sentidos. De esta manera, combina los elementos de un diccionario (definiciones y algunos ejemplos) y los de un tesauro (sinónimos). Actualmente, el tesauro WordNet contiene alrededor de 155,000 palabras organizadas en más de 117,000 synsets formando un total de más de 206,000 definiciones y sentidos. WordNet maneja 4 categorías léxicas (o tipos de partes de la oración) en sus synsets: sustantivos, verbos, adjetivos y adverbios.
Con el paso del tiempo se han ido generando diversos recursos para el Procesamiento del Lenguaje Natural (PLN) en forma de corpus anotados semánticamente, etiquetas de dominio, concordancias, etc.
WordNet Domains (http://wndomains.itc.it/) (Magnini and Strapparava, 2000) es un conjunto de etiquetas de dominio que catalogan sentidos de nombres de WordNet versión 1.6 (WN1.6). Algunos investigadores (Magnini and Strapparava, 2000), (Montoyo et al., 2001) proponen la utilización de etiquetas de dominio, que sin ser tan minuciosas como los synsets, no son tan generales como las categorías lexicográficas. Las etiquetas son listas de descriptores utilizados para clasificar noticias de prensa o para la catalogación bibliográfica. Actualmente, ciertas tareas de búsqueda y clasificación automatizada de documentos parecen más abordables desde el punto de vista de estos lexicones, e incluso más eficaces. Los desarrolladores de WordNet Domains (Magnini et al., 2001) tienen la intención de que éste sea útil tanto para WSD como para toda tarea a la que se quiera incorporar semántica.
EuroWordNet (http://www.illc.uva.nl/EuroWordNet) es una base de datos léxica multilingüe con relaciones semánticas entre las palabras de varios idiomas de la comunidad europea: inglés, holandés, español, italiano, alemán, francés, checo y estonio (Vossen, 1998). Esta base de datos se estructura en forma de redes semánticas formadas por unidades denominadas synsets. El carácter multilingüe de EuroWordNet requiere una estructura adicional que permita interconectar los synsets de idiomas diferentes. Esta estructura es un Inter-Lingual-Index (ILI) (Vossen et al., 1999) que representa una lista no estructurada de conceptos (ILI-records) independiente del idioma. Estos conceptos constituyen un superconjunto de los conceptos que aparecen en las distintas redes de cada idioma.
Como hemos visto, en el procesamiento del lenguaje natural los ejemplos son representados por colecciones de textos en lenguaje natural que adoptan el nombre de corpus, que pueden estar anotados o etiquetados con información adicional. El corpus SemCor (http://multisemcor.itc.it/) (Miller et al., 1994), contiene aproximadamente 700,000 palabras, cada una etiquetada con un concepto de WordNet.
En SemCor todas las palabras están etiquetas gramaticalmente y más de 200,000 están también lematizadas y etiquetadas por su sentido de acuerdo a WordNet 1.6. SemCor está compuesto por 352 textos, de los cuales 186 textos contienen palabras de clase abierta (sustantivos, verbos, adjetivos y adverbios) y están anotados gramaticalmente, lematizados y con su sentido. En los 166 textos restantes, solamente los verbos han sido anotados con lemas y sentidos. Ha sido adaptado y usado para evaluar tareas de Recuperación de Información (Gonzalo et al., 1998), y para evaluar la categorización de textos (Petridis et al., 2001). No existe otra colección etiquetada con información conceptual con tanto detalle, por lo que resulta un recurso muy valioso en tareas de desambiguación mediante corpus.
Los congresos de Senseval (http://www.senseval.org/) tienen como principal objetivo la organización de tareas de evaluación y validación de sistemas de WSD con respecto a la desambiguación de determinadas palabras, diferentes aspectos de un idioma, distintos idiomas y diferentes aplicaciones. Senseval pone a disposición de los investigadores un conjunto de datos (corpus) para el entrenamiento y prueba de los sistemas.
Por ejemplo en Senseval-3 el conjunto de datos English all words contiene aproximadamente 5000 palabras de textos que se han extraído de dos artículos de Wall Street Journal y un extracto de The Brown Corpus (Snyder and Palmer, 2004), etiquetadas de acuerdo a Penn Treebank II (Marcus et al., 1993) y coherentes con los sentidos de WordNet 1.7.1. El conjunto de datos para la tarea English lexical sample proporciona, tanto para entrenamiento y prueba, alrededor de 60 sustantivos, adjetivos y verbos ambiguos. Los ejemplos son extraídos del British National Corpus (http://www.natcorp.ox.ac.uk/). El diccionario utilizado para el inventario de los sentidos para sustantivos y adjetivos fue WordNet 1.7.1, y para los sentidos de los verbos se usó el diccionario Wordsmyth (www.wordsmyth.net/) (Mihalcea et al., 2004).
En este artículo se ha presentado una revisión del tema de Desambiguación del Sentido de las Palabras, en el que se ha descrito la problemática de la ambigüedad de las palabras en los textos, las ventajas de su resolución, la clasificación de los métodos utilizados para la resolución de la WSD, así como los principales recursos léxicos disponibles para realizar la tarea de WSD dentro del Procesamiento del Lenguaje Natural.
Cabe mencionar que la mayoría de los recursos léxicos solo están disponibles para el idioma inglés.
Agirre, E., O. Ansa, E. Hovy, and D. Martínez. (2000). "Enriching very large ontologies using the WWW". In Proceedings of the Ontology Learning Workshop. Berlin: ECAI, 2000.
Fellbaum, C. (1998). "WordNet: an Electronic Lexical Database". USA: The MIT Press, 1998.
Gonzalo, J., F. Verdejo, I. Chugur, and J. Cigarran. (1998). "Indexing with wordnet synsets can improve text retrieval". In Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems. Canada: ACL, 1998.
Harabagui, S., G. Miller, and D. Moldovan. (1999). "Wordnet: A morphologically and semantically enhanced resource". In Proceedings of the SIGLEX Workshop. USA: ACL, 1999.
Ide, N. and J. Véronis. (1998). "Word sense disambiguation: The state of the art". Computational Linguistics, 24(1998): 1–40.
Magnini, B. and C. Strapparava. (2000). "Experiments in word domain disambiguation for parallel texts". In Proceedings of the ACL Workshop on Word Senses and Multilinguality. Hong Kong, China: ACL, 2000.
Magnini, B., C. Strapparava, G. Pezzulo, and A. Gliozzo. (2001). "Using domain information for word sense disambiguation". In Proceedings of the 2nd International Workshop on Evaluating Word Sense Disambiguation Systems (SENSEVAL-2). France: ACL, 2001.
Marcus, M. P., B. Santorini, and M. A. Marcinkiewicz. (1993). "Building a large annotated corpus of english: The penn Treebank". Computational Linguistics, 2-19(1993): 313–330.
Mihalcea, R. and T. Pedersen. (2004). "Advances on word sense disambiguation". In IX Ibero-American Conference on Artificial Intelligence (IBERAMIA) 2004. Puebla, México: Springer, 2004.
Mihalcea, R., T. Chklovski, and A. Kilgarriff. (2004). "The senseval-3 english lexical sample task." In Rada Mihalcea and Phil Edmonds, editors: Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona, Spain: ACL, 2004.
Miller, G.A., M. Chodorow, S. Landes, C. Leacock, and R. Thomas. (1994). "Using a semantic concordance for sense identification". In Proceedings of the ARPA Workshop on Human Language Technology. Plainsboro, NJ: ACL, 1994.
Miller, G.A., R. Beckwith, C. Fellbaum, D. Gross, and K. Miller. (1990). "Introduction to wordnet: An on-line lexical database". International Journal of Lexicography, 4-3(1990): 235–244.
Montoyo, A., M. Palomar, and G. Rigau. (2001). "Wordnet enrichment with classification systems". In Proceedings of WordNet and Other Lexical Resources: Applications, Extensions and Customisations Workshop (NAACL-01). Pittsburgh, USA: ACL, 2001.
Pedersen, T. (2001). "A decision tree of bigrams is an accurate predictor of word sense". In Proceedings of the Second Annual Meeting of the North American Chapter of the Association for Computational Linguistics. Pittsburgh, USA: ACL, 2001.
Petridis, V., V. Kaburlasos, P. Fragkou, and A. Kehagias. (2001). "Text classification using the sigma-flnmap neural network". In Proceedings of the 2001 International Joint Conference on Neural Networks, 2001.
Raghavan, P., C. Manning, and H. Schütze. (2008). "Introduction to Information Retrieval". New York: Cambridge University Press, 2008.
Snyder, B. and M. Palmer. (2004). "The english all-words task". In Rada Mihalcea and Phil Edmonds, editors: Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona, Spain: Association for Computational Linguistics, 2004.
Stevenson, M. (2003). "Word sense disambiguation: The case for combinations of knowledge sources". Cambridge, UK: CSLI Publications-Cambridge Universit Press, 2003.
Suárez, A. and M. Palomar. (2002). "Desambiguación del sentido y del dominio de las palabras con modelos de probabilidad de máxima entropía". Procesamiento del Lenguaje Natural, 28(2002): 45–53.
Vázquez, S., A. Montoyo, and G. Rigau. (2003). "Método de desambiguación léxica basada en el recurso léxico : dominios relevantes". Procesamiento del Lenguaje Natural, 31(2003): 141-148.
Vossen, P. (1998). "Introduction to EuroWordNet". Kluwer Academic Publishers, Norwell, MA, USA. 1998.
Vossen, P., W. Peters, and J. Gonzalo. (1999). "Towards a universal index of meaning". In Proceedings of ACL/SIGLEX'99: Standarizing Lexical Resources. USA: ACL, 1999.
Wilks, Y. and M. Stevenson. (1996). "The grammar of sense: Is word-sense tagging much more than part-of-speech tagging?". CoRR, cmp-lg/9607028, 1996.
Autor/a:
Edgar Tello Leal
Profesor de Tiempo Completo del programa educativo de Ingeniería en Sistemas Computacionales en la Unidad Académica de Ciencias de la Salud y Tecnología de la Universidad Autónoma de Tamaulipas en México.
Licenciado en Computación Administrativa (TI) por la Facultad de Comercio y Administración-Victoria de la Universidad Autónoma de Tamaulipas, México (UAT). Microsoft Certified Systems Administrator (MCSA) y Cisco Certified Network Associate (CCNA). Master en Docencia por la Universidad Autónoma de Tamaulipas, aspirante al Doctorado en Ciencias Computacionales y actualmente realiza una estancia de investigación en el Laboratorio de Tecnologías de Información del CINVESTAV-Unidad Tamaulipas. Ha dictado cursos de gestión de redes de cómputo y seguridad en redes de cómputo. Los principales temas de investigación son seguridad en redes inalámbricas, protocolos de seguridad, desambiguación del sentido de las palabras y la brecha digital en México.
email:etello@uat.edu.mx
Citación recomendada:
Tello Leal, Edgar; (2009). La Desambiguación del Sentido de las Palabras: revisión metodológica. En: No Solo Usabilidad, nš 8, 2009. <nosolousabilidad.com>. ISSN 1886-8592