Metodología para el agrupamiento de documentos semiestructurados

Fecha

2015-12-14

Autores

Magdaleno Guevara, Damny

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computación

Resumen

Los documentos con formato semiestructurado –destacándose el XML– juegan un papel fundamental a nivel mundial dado el crecimiento exponencial de las publicaciones científicas en Internet y la necesidad de almacenar los artículos científicos en formatos que permitan una mejor manipulación de los mismos y aumentar de esta manera la eficacia de los sistemas de recuperación de información. La gestión de información científica se vuelve cada vez más compleja y desafiante, sobre todo porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En este trabajo se propone una metodología para el agrupamiento de documentos científicos en formato semiestructurado utilizando el contenido y la estructura de los mismos. Los principales resultados son: la metodología para el agrupamiento; la función de similitud OverallSimSUX, que permite capturar eficientemente la semejanza entre los documentos; las aplicaciones: trabajo con documentos científicos en formato XML; aplicación WEB, incorporando documentos científicos en diferentes formatos y una aplicación en el área de la Salud. Al evaluar las propuestas con datos representativos se obtuvieron resultados favorables con la utilización de la metodología y su extensión.
The semi-structured format documents - highlighting the XML - play a major global role given the exponential growth of scientific publications on the Internet and the need to store scientific articles in formats that enable better handling of them and thus increase the effectiveness of information retrieval systems. Scientific information management becomes increasingly complex and challenging, especially since document collections are generally heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists better conditions to manage the time required to process scientific information. In this work a methodology for the clustering of scientific documents in semi-structured format using their content and structure is proposed. The main results are: the methodology for the grouping; OverallSimSUX similarity function, which allows efficiently capture the similarity between documents; applications: working with scientific documents in XML format; WEB application, incorporating scientific documents in different formats and an application in the area of Health. In assessing the proposals with representative data, favorable results were obtained with the use of the methodology and its extension.

Descripción

Palabras clave

Metodología de Agrupamiento, Documentos Científicos, Formato Semiestructurado, XML, Aplicación Web

Citación