Extensión de una metodología para el agrupamiento de documentos no estructurados
| dc.contributor.advisor | Magdaleno Guevara, Damny | |
| dc.contributor.advisor | García Lorenzo, María Matilde | |
| dc.contributor.author | Rodríguez Dosina, Adrián | |
| dc.coverage.spatial | Santa Clara | en_US |
| dc.date.accessioned | 2018-03-07T23:47:49Z | |
| dc.date.available | 2018-03-07T23:47:49Z | |
| dc.date.issued | 2015-06-26 | |
| dc.description.abstract | En la actualidad existe gran cantidad de información disponible que cada día se incrementa con el avance científico-técnico. Una de las tareas fundamentales que se plantean los investigadores del área de la recuperación de información es crear mecanismos que permitan la utilización de dicha información para la toma de decisiones futuras y la obtención de nuevo conocimiento basado en experiencias pasadas. En el presente trabajo se implementó el sistema Scientific Solr que soporta un esquema de agrupamiento de documentos. El esquema soportado fue concebido inicialmente para agrupar colecciones de documentos semiestructurados con formato XML, sin embargo en esta investigación ha sido extendido, incorporándole un nuevo módulo que permite agrupar documentos no estructurados. La extensión realizada se basa en una técnica de procesamiento de textos conocida como segmentación por tópicos. Específicamente se implementó una variante del algoritmo de segmentación por tópicos TextLec que se ajusta al modelo propuesto y reporta buen desempeño procesando documentos con estructura lineal, como es el caso de los artículos científicos. Los resultados obtenidos fueron satisfactorios luego de aplicar los experimentos, pues se obtuvieron mejores resultados con el nuevo método que con el método clásico de representación global. En el proceso de validación se utilizaron varios corpus de documentos de carácter científico y se aplicaron algunas medidas internas y externas para evaluar la calidad del agrupamiento. | en_US |
| dc.description.abstract | The amount of electronic data with semi-structured format available on the World Wide Web, intranets, and other media increases every day. In consequence, the Information Retrieval investigators have a very important goal. This goal consist of create mechanisms to use the stored information for Knowledge Management. In this thesis an Information Retrieval System named Scientific Solr was implemented. This software contains a clustering documents model that is based on the content and structure existing in documents. The model was originally designed to cluster semi-structured documents, especially XML documents. The present work adds a new module that permits cluster not-structured documents. The module that was added uses a text processing technique named Text Segmentation by Topics. The applied tests showed successful results because the new method had a better behavior compared to the classic method that uses global representation. In validation process were used different scientific document collections and were applied some internal and external measures to evaluate the quality of clustering. | en_US |
| dc.description.sponsorship | Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación | en_US |
| dc.description.status | non-published | en_US |
| dc.identifier.uri | https://dspace.uclv.edu.cu/handle/123456789/8855 | |
| dc.language.iso | es | en_US |
| dc.publisher | Universidad Central “Marta Abreu” de Las Villas | en_US |
| dc.rights | Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License | en_US |
| dc.subject | Sistema Scientific Solr | en_US |
| dc.subject | Agrupamiento | en_US |
| dc.subject | Documentos no Estructurados | en_US |
| dc.subject | Formato XMl | en_US |
| dc.subject | Segmentación | en_US |
| dc.subject | Procesamiento de Textos | en_US |
| dc.subject | Artículos Científicos | en_US |
| dc.subject | Metodología | en_US |
| dc.subject.other | Sistema de Almacenamiento y Recuperación de la Información | en_US |
| dc.subject.other | Algoritmo de Agrupamiento | en_US |
| dc.subject.other | Segmentación por Tópicos | en_US |
| dc.subject.other | Documentos | en_US |
| dc.subject.other | Procesamiento de Texto | en_US |
| dc.subject.other | Artículos Científicos | en_US |
| dc.subject.other | Metodologías Computacionales | en_US |
| dc.title | Extensión de una metodología para el agrupamiento de documentos no estructurados | en_US |
| dc.type | Thesis | en_US |
| dc.type.thesis | bachelor | en_US |