Extensión de una metodología para el agrupamiento de documentos no estructurados

Rodríguez Dosina, Adrián

Extensión de una metodología para el agrupamiento de documentos no estructurados

dc.contributor.advisor	Magdaleno Guevara, Damny
dc.contributor.advisor	García Lorenzo, María Matilde
dc.contributor.author	Rodríguez Dosina, Adrián
dc.coverage.spatial	Santa Clara	en_US
dc.date.accessioned	2018-03-07T23:47:49Z
dc.date.available	2018-03-07T23:47:49Z
dc.date.issued	2015-06-26
dc.description.abstract	En la actualidad existe gran cantidad de información disponible que cada día se incrementa con el avance científico-técnico. Una de las tareas fundamentales que se plantean los investigadores del área de la recuperación de información es crear mecanismos que permitan la utilización de dicha información para la toma de decisiones futuras y la obtención de nuevo conocimiento basado en experiencias pasadas. En el presente trabajo se implementó el sistema Scientific Solr que soporta un esquema de agrupamiento de documentos. El esquema soportado fue concebido inicialmente para agrupar colecciones de documentos semiestructurados con formato XML, sin embargo en esta investigación ha sido extendido, incorporándole un nuevo módulo que permite agrupar documentos no estructurados. La extensión realizada se basa en una técnica de procesamiento de textos conocida como segmentación por tópicos. Específicamente se implementó una variante del algoritmo de segmentación por tópicos TextLec que se ajusta al modelo propuesto y reporta buen desempeño procesando documentos con estructura lineal, como es el caso de los artículos científicos. Los resultados obtenidos fueron satisfactorios luego de aplicar los experimentos, pues se obtuvieron mejores resultados con el nuevo método que con el método clásico de representación global. En el proceso de validación se utilizaron varios corpus de documentos de carácter científico y se aplicaron algunas medidas internas y externas para evaluar la calidad del agrupamiento.	en_US
dc.description.abstract	The amount of electronic data with semi-structured format available on the World Wide Web, intranets, and other media increases every day. In consequence, the Information Retrieval investigators have a very important goal. This goal consist of create mechanisms to use the stored information for Knowledge Management. In this thesis an Information Retrieval System named Scientific Solr was implemented. This software contains a clustering documents model that is based on the content and structure existing in documents. The model was originally designed to cluster semi-structured documents, especially XML documents. The present work adds a new module that permits cluster not-structured documents. The module that was added uses a text processing technique named Text Segmentation by Topics. The applied tests showed successful results because the new method had a better behavior compared to the classic method that uses global representation. In validation process were used different scientific document collections and were applied some internal and external measures to evaluate the quality of clustering.	en_US
dc.description.sponsorship	Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación	en_US
dc.description.status	non-published	en_US
dc.identifier.uri	https://dspace.uclv.edu.cu/handle/123456789/8855
dc.language.iso	es	en_US
dc.publisher	Universidad Central “Marta Abreu” de Las Villas	en_US
dc.rights	Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License	en_US
dc.subject	Sistema Scientific Solr	en_US
dc.subject	Agrupamiento	en_US
dc.subject	Documentos no Estructurados	en_US
dc.subject	Formato XMl	en_US
dc.subject	Segmentación	en_US
dc.subject	Procesamiento de Textos	en_US
dc.subject	Artículos Científicos	en_US
dc.subject	Metodología	en_US
dc.subject.other	Sistema de Almacenamiento y Recuperación de la Información	en_US
dc.subject.other	Algoritmo de Agrupamiento	en_US
dc.subject.other	Segmentación por Tópicos	en_US
dc.subject.other	Documentos	en_US
dc.subject.other	Procesamiento de Texto	en_US
dc.subject.other	Artículos Científicos	en_US
dc.subject.other	Metodologías Computacionales	en_US
dc.title	Extensión de una metodología para el agrupamiento de documentos no estructurados	en_US
dc.type	Thesis	en_US
dc.type.thesis	bachelor	en_US

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Tesis_Adrian_2015.pdf
Tamaño:: 2.77 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.33 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Tesis de Pregrado - Licenciatura en Ciencias de la Computación