Extensión de una metodología para el agrupamiento de documentos no estructurados

dc.contributor.advisorMagdaleno Guevara, Damny
dc.contributor.advisorGarcía Lorenzo, María Matilde
dc.contributor.authorRodríguez Dosina, Adrián
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-03-07T23:47:49Z
dc.date.available2018-03-07T23:47:49Z
dc.date.issued2015-06-26
dc.description.abstractEn la actualidad existe gran cantidad de información disponible que cada día se incrementa con el avance científico-técnico. Una de las tareas fundamentales que se plantean los investigadores del área de la recuperación de información es crear mecanismos que permitan la utilización de dicha información para la toma de decisiones futuras y la obtención de nuevo conocimiento basado en experiencias pasadas. En el presente trabajo se implementó el sistema Scientific Solr que soporta un esquema de agrupamiento de documentos. El esquema soportado fue concebido inicialmente para agrupar colecciones de documentos semiestructurados con formato XML, sin embargo en esta investigación ha sido extendido, incorporándole un nuevo módulo que permite agrupar documentos no estructurados. La extensión realizada se basa en una técnica de procesamiento de textos conocida como segmentación por tópicos. Específicamente se implementó una variante del algoritmo de segmentación por tópicos TextLec que se ajusta al modelo propuesto y reporta buen desempeño procesando documentos con estructura lineal, como es el caso de los artículos científicos. Los resultados obtenidos fueron satisfactorios luego de aplicar los experimentos, pues se obtuvieron mejores resultados con el nuevo método que con el método clásico de representación global. En el proceso de validación se utilizaron varios corpus de documentos de carácter científico y se aplicaron algunas medidas internas y externas para evaluar la calidad del agrupamiento.en_US
dc.description.abstractThe amount of electronic data with semi-structured format available on the World Wide Web, intranets, and other media increases every day. In consequence, the Information Retrieval investigators have a very important goal. This goal consist of create mechanisms to use the stored information for Knowledge Management. In this thesis an Information Retrieval System named Scientific Solr was implemented. This software contains a clustering documents model that is based on the content and structure existing in documents. The model was originally designed to cluster semi-structured documents, especially XML documents. The present work adds a new module that permits cluster not-structured documents. The module that was added uses a text processing technique named Text Segmentation by Topics. The applied tests showed successful results because the new method had a better behavior compared to the classic method that uses global representation. In validation process were used different scientific document collections and were applied some internal and external measures to evaluate the quality of clustering.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/8855
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectSistema Scientific Solren_US
dc.subjectAgrupamientoen_US
dc.subjectDocumentos no Estructuradosen_US
dc.subjectFormato XMlen_US
dc.subjectSegmentaciónen_US
dc.subjectProcesamiento de Textosen_US
dc.subjectArtículos Científicosen_US
dc.subjectMetodologíaen_US
dc.subject.otherSistema de Almacenamiento y Recuperación de la Informaciónen_US
dc.subject.otherAlgoritmo de Agrupamientoen_US
dc.subject.otherSegmentación por Tópicosen_US
dc.subject.otherDocumentosen_US
dc.subject.otherProcesamiento de Textoen_US
dc.subject.otherArtículos Científicosen_US
dc.subject.otherMetodologías Computacionalesen_US
dc.titleExtensión de una metodología para el agrupamiento de documentos no estructuradosen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis_Adrian_2015.pdf
Tamaño:
2.77 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: