Metodología para el agrupamiento de documentos semiestructurados

dc.contributor.advisorGarcía Lorenzo, María Matilde
dc.contributor.authorMagdaleno Guevara, Damny
dc.coverage.spatial1016432en_US
dc.date.accessioned2016-12-06T23:42:33Z
dc.date.available2016-12-06T23:42:33Z
dc.date.issued2015-12-14
dc.description.abstractLos documentos con formato semiestructurado –destacándose el XML– juegan un papel fundamental a nivel mundial dado el crecimiento exponencial de las publicaciones científicas en Internet y la necesidad de almacenar los artículos científicos en formatos que permitan una mejor manipulación de los mismos y aumentar de esta manera la eficacia de los sistemas de recuperación de información. La gestión de información científica se vuelve cada vez más compleja y desafiante, sobre todo porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En este trabajo se propone una metodología para el agrupamiento de documentos científicos en formato semiestructurado utilizando el contenido y la estructura de los mismos. Los principales resultados son: la metodología para el agrupamiento; la función de similitud OverallSimSUX, que permite capturar eficientemente la semejanza entre los documentos; las aplicaciones: trabajo con documentos científicos en formato XML; aplicación WEB, incorporando documentos científicos en diferentes formatos y una aplicación en el área de la Salud. Al evaluar las propuestas con datos representativos se obtuvieron resultados favorables con la utilización de la metodología y su extensión.en_US
dc.description.abstractThe semi-structured format documents - highlighting the XML - play a major global role given the exponential growth of scientific publications on the Internet and the need to store scientific articles in formats that enable better handling of them and thus increase the effectiveness of information retrieval systems. Scientific information management becomes increasingly complex and challenging, especially since document collections are generally heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists better conditions to manage the time required to process scientific information. In this work a methodology for the clustering of scientific documents in semi-structured format using their content and structure is proposed. The main results are: the methodology for the grouping; OverallSimSUX similarity function, which allows efficiently capture the similarity between documents; applications: working with scientific documents in XML format; WEB application, incorporating scientific documents in different formats and an application in the area of Health. In assessing the proposals with representative data, favorable results were obtained with the use of the methodology and its extension.en_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/7211
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computaciónen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectMetodología de Agrupamientoen_US
dc.subjectDocumentos Científicosen_US
dc.subjectFormato Semiestructuradoen_US
dc.subjectXMLen_US
dc.subjectAplicación Weben_US
dc.titleMetodología para el agrupamiento de documentos semiestructuradosen_US
dc.typeThesisen_US
dc.type.thesisphden_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
151014Informe.pdf
Tamaño:
1.78 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: