Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido

Fuentes Herrera, Ivett Elena

Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido

Archivos

Tesis de Diploma (Ivett E. Fuentes Herrera).pdf (2.16 MB)

Fecha

2013-07-04

Autores

Fuentes Herrera, Ivett Elena

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

Cada día más datos electrónicos en formato semiestructurado se encuentran disponibles en el World Wide Web, intranets corporativas, y otros medios de comunicación. Gestionar el conocimiento a partir de la información encontrada es fundamental en el trabajo científico. La gestión de información científica se vuelve cada vez más compleja y desafiante, sobre todo porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En este trabajo se implementó el sistema LucXML, con un nuevo método de agrupamiento automático de documentos XML a partir del contenido y la estructura existente en los mismos, sustentado en un sistema para la gestión de la información existente en los artículos científicos, que contribuye al descubrimiento de conocimiento relevante. Se definió la función de similitud OverallSimSUX que facilita capturar el grado de semejanza entre los documentos tomando como génesis la relación existente entre la colección como un todo y las sub-colecciones resultantes de las unidades estructurales. La evaluación a través los experimentos y los casos de estudios definidos arrojaron mejores resultados con la metodología propuesta, que con otras variantes existentes en la literatura.
The amount of electronic data with semistructured format available on the World Wide Web, intranets, and other media increases every day. Knowledge Management from the information found is essential in scientific papers. The management of scientific information becomes increasingly complex and challenging, especially since document collections are usually heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists a better position to manage the time needed to process scientific information. In this thesis a system named LucXML was implemented, with a new method of automatic clustering for XML documents based on the content and structure existing in them and supported by a system for information management in scientific papers, which contributes to relevant knowledge discovery. The similarity function OverallSimSUX was defined, which facilitates to capture the degree of similarity between documents using as genesis the entire collection and the relationship between the structural units, when handled as independent collections. The evaluation through defined experiments and data sets achieves better results with the proposed methodology than with other variants of the literature.