Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido
Resumen
Cada día más datos electrónicos en formato semiestructurado se encuentran disponibles en el
World Wide Web, intranets corporativas, y otros medios de comunicación. Gestionar el
conocimiento a partir de la información encontrada es fundamental en el trabajo científico. La
gestión de información científica se vuelve cada vez más compleja y desafiante, sobre todo
porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y
dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de
administrar el tiempo necesario para procesar la información científica.
En este trabajo se implementó el sistema LucXML, con un nuevo método de agrupamiento
automático de documentos XML a partir del contenido y la estructura existente en los mismos,
sustentado en un sistema para la gestión de la información existente en los artículos
científicos, que contribuye al descubrimiento de conocimiento relevante.
Se definió la función de similitud OverallSimSUX que facilita capturar el grado de semejanza
entre los documentos tomando como génesis la relación existente entre la colección como un
todo y las sub-colecciones resultantes de las unidades estructurales. La evaluación a través los
experimentos y los casos de estudios definidos arrojaron mejores resultados con la
metodología propuesta, que con otras variantes existentes en la literatura. The amount of electronic data with semistructured format available on the World Wide Web,
intranets, and other media increases every day. Knowledge Management from the information
found is essential in scientific papers. The management of scientific information becomes
increasingly complex and challenging, especially since document collections are usually
heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give
scientists a better position to manage the time needed to process scientific information.
In this thesis a system named LucXML was implemented, with a new method of automatic
clustering for XML documents based on the content and structure existing in them and
supported by a system for information management in scientific papers, which contributes to
relevant knowledge discovery.
The similarity function OverallSimSUX was defined, which facilitates to capture the degree of
similarity between documents using as genesis the entire collection and the relationship
between the structural units, when handled as independent collections. The evaluation through
defined experiments and data sets achieves better results with the proposed methodology than
with other variants of the literature.
xmlui.dri2xhtml.METS-1.0.item-rights
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia:
Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License