Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido
Fecha
2013-07-04
Autores
Fuentes Herrera, Ivett Elena
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Central “Marta Abreu” de Las Villas
Resumen
Cada día más datos electrónicos en formato semiestructurado se encuentran disponibles en el
World Wide Web, intranets corporativas, y otros medios de comunicación. Gestionar el
conocimiento a partir de la información encontrada es fundamental en el trabajo científico. La
gestión de información científica se vuelve cada vez más compleja y desafiante, sobre todo
porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y
dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de
administrar el tiempo necesario para procesar la información científica.
En este trabajo se implementó el sistema LucXML, con un nuevo método de agrupamiento
automático de documentos XML a partir del contenido y la estructura existente en los mismos,
sustentado en un sistema para la gestión de la información existente en los artículos
científicos, que contribuye al descubrimiento de conocimiento relevante.
Se definió la función de similitud OverallSimSUX que facilita capturar el grado de semejanza
entre los documentos tomando como génesis la relación existente entre la colección como un
todo y las sub-colecciones resultantes de las unidades estructurales. La evaluación a través los
experimentos y los casos de estudios definidos arrojaron mejores resultados con la
metodología propuesta, que con otras variantes existentes en la literatura.
The amount of electronic data with semistructured format available on the World Wide Web, intranets, and other media increases every day. Knowledge Management from the information found is essential in scientific papers. The management of scientific information becomes increasingly complex and challenging, especially since document collections are usually heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists a better position to manage the time needed to process scientific information. In this thesis a system named LucXML was implemented, with a new method of automatic clustering for XML documents based on the content and structure existing in them and supported by a system for information management in scientific papers, which contributes to relevant knowledge discovery. The similarity function OverallSimSUX was defined, which facilitates to capture the degree of similarity between documents using as genesis the entire collection and the relationship between the structural units, when handled as independent collections. The evaluation through defined experiments and data sets achieves better results with the proposed methodology than with other variants of the literature.
The amount of electronic data with semistructured format available on the World Wide Web, intranets, and other media increases every day. Knowledge Management from the information found is essential in scientific papers. The management of scientific information becomes increasingly complex and challenging, especially since document collections are usually heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists a better position to manage the time needed to process scientific information. In this thesis a system named LucXML was implemented, with a new method of automatic clustering for XML documents based on the content and structure existing in them and supported by a system for information management in scientific papers, which contributes to relevant knowledge discovery. The similarity function OverallSimSUX was defined, which facilitates to capture the degree of similarity between documents using as genesis the entire collection and the relationship between the structural units, when handled as independent collections. The evaluation through defined experiments and data sets achieves better results with the proposed methodology than with other variants of the literature.
Descripción
Palabras clave
Gestión de Información Científica, Algoritmo de Agrupamiento, Documentos XML, Medidas de Similitud, Sistema LucXML