Biblioteca de medidas de similitud para textos

dc.contributor.advisorMeneses Abad, Abel
dc.contributor.authorUlacia Villavicencio, Pablo
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-04-23T16:20:15Z
dc.date.available2018-04-23T16:20:15Z
dc.date.issued2016-06-28
dc.description.abstractLa detección de paráfrasis en textos es un área de investigación actual en computación. La complejidad de las lenguas naturales y las modificaciones que se pueden hacer a una oración sencilla dando lugar a una nueva de igual significado ha originado clasificaciones diversas para este problema. Los experimentos además utilizan medidas de similitud que aprovechan distintos elementos morfológicos, sintácticos, semánticos, etc. En la actualidad las tecnologías informáticas no integran estos elementos expuestos haciendo difícil la investigación. El problema es peor cuando se experimenta con textos en idioma español. Para facilitar el trabajo de los investigadores cubanos en el área de la detección de similitud de textos en español; se propuso la construcción de una biblioteca de medidas de similitud, diseñada teniendo en cuenta las más populares y recientes reportadas en la literatura y su frecuencia de aparición en proyectos similares que integran pocas medidas. Considerando su uso en sistemas reales se utilizó el lenguaje Python por sus posibilidades de optimización utilizando conversores a C++, su alta productividad y fácil mantenimiento. El resultado es una biblioteca que contiene medidas en cuatro niveles: caracteres, términos, corpus y basadas en conocimiento. Se validaron los resultados utilizando casos reales de paráfrasis. Los experimentos demuestran que varias medidas implementadas influyen positivamente en la detección de paráfrasis. Y se comprueba que la utilización de tecnologías de Python a C++ mejoran los tiempos de corrida hasta en un factor de 13x, sustentando la propuesta para usarse en entornos reales.en_US
dc.description.abstractThe detection of paraphrase in texts is a current research area of computing. The complexity of natural languages and the modifications that can be made to a simple sentence giving rise to a new one having the same meaning, have originated several classifications for this problem. Experiments also use similarity measures that make good use of distinct morphological, syntactic, semantic elements, etc. Nowadays computer technologies do not integrate these elements mentioned above, which makes research difficult. The situation gets worse while experimenting with texts in Spanish. In order to facilitate the work of Cuban researchers in the field of similarity detection in Spanish texts, it was proposed the elaboration of a library of similarity measures. The library was designed taking into account the most popular measures, the most recent ones reported by literature and their frequency of occurrence in similar projects that integrate a few measures. Taking into account its use in real systems, it was utilized the Python language due to its optimization possibilities by using C ++ converters, its high productivity and easy maintenance. After being proved by using real cases of paraphrases, the outcome is a library containing measures at four levels: characters, terms, corpus and based-on-knowledge. Experiments show that several of the implemented measures influence positively in detection. It is also included an example of mixed measures that improves results. And it is confirmed that the use of Python to C ++ technologies improves running times by up to a 13x factor, supporting the proposal for being used in real environments.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9269
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectBibliotecaen_US
dc.subjectMedidas de Similituden_US
dc.subjectDetección de Paráfrasisen_US
dc.subjectTextos en Españolen_US
dc.subjectPythonen_US
dc.subjectC++en_US
dc.subject.otherMedidas de Similituden_US
dc.subject.otherParáfrasisen_US
dc.subject.otherMétodos de Detecciónen_US
dc.subject.otherTextosen_US
dc.subject.otherLingüística Computacionalen_US
dc.subject.otherDesarrollo de Herramientasen_US
dc.titleBiblioteca de medidas de similitud para textosen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Pablo Ulacia Villavicencio.pdf
Tamaño:
1.72 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: