Biblioteca de medidas de similitud para textos

Cargando...
Miniatura

Autores

Ulacia Villavicencio, Pablo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La detección de paráfrasis en textos es un área de investigación actual en computación. La complejidad de las lenguas naturales y las modificaciones que se pueden hacer a una oración sencilla dando lugar a una nueva de igual significado ha originado clasificaciones diversas para este problema. Los experimentos además utilizan medidas de similitud que aprovechan distintos elementos morfológicos, sintácticos, semánticos, etc. En la actualidad las tecnologías informáticas no integran estos elementos expuestos haciendo difícil la investigación. El problema es peor cuando se experimenta con textos en idioma español. Para facilitar el trabajo de los investigadores cubanos en el área de la detección de similitud de textos en español; se propuso la construcción de una biblioteca de medidas de similitud, diseñada teniendo en cuenta las más populares y recientes reportadas en la literatura y su frecuencia de aparición en proyectos similares que integran pocas medidas. Considerando su uso en sistemas reales se utilizó el lenguaje Python por sus posibilidades de optimización utilizando conversores a C++, su alta productividad y fácil mantenimiento. El resultado es una biblioteca que contiene medidas en cuatro niveles: caracteres, términos, corpus y basadas en conocimiento. Se validaron los resultados utilizando casos reales de paráfrasis. Los experimentos demuestran que varias medidas implementadas influyen positivamente en la detección de paráfrasis. Y se comprueba que la utilización de tecnologías de Python a C++ mejoran los tiempos de corrida hasta en un factor de 13x, sustentando la propuesta para usarse en entornos reales.
The detection of paraphrase in texts is a current research area of computing. The complexity of natural languages and the modifications that can be made to a simple sentence giving rise to a new one having the same meaning, have originated several classifications for this problem. Experiments also use similarity measures that make good use of distinct morphological, syntactic, semantic elements, etc. Nowadays computer technologies do not integrate these elements mentioned above, which makes research difficult. The situation gets worse while experimenting with texts in Spanish. In order to facilitate the work of Cuban researchers in the field of similarity detection in Spanish texts, it was proposed the elaboration of a library of similarity measures. The library was designed taking into account the most popular measures, the most recent ones reported by literature and their frequency of occurrence in similar projects that integrate a few measures. Taking into account its use in real systems, it was utilized the Python language due to its optimization possibilities by using C ++ converters, its high productivity and easy maintenance. After being proved by using real cases of paraphrases, the outcome is a library containing measures at four levels: characters, terms, corpus and based-on-knowledge. Experiments show that several of the implemented measures influence positively in detection. It is also included an example of mixed measures that improves results. And it is confirmed that the use of Python to C ++ technologies improves running times by up to a 13x factor, supporting the proposal for being used in real environments.

Descripción

Citación

Aprobación

Revisión

Complementado por

Referenciado por