Agrupamiento de artículos científicos con formato semiestructurado basado en las referencias bibliográficas

Cargando...
Miniatura

Autores

Amador Penichet, Lisvandy

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La cantidad de información científica en formato semiestructurado que se encuentra disponibles en Internet, intranets corporativas, y otros medios de comunicación está creciendo vertiginosamente. Gestionar el conocimiento a partir de la información que se puede encontrar en las publicaciones científicas es fundamental para cualquier investigador. La gestión de la información científica cada vez resulta más compleja y desafiante, debido a que las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En este trabajo se implementó un nuevo método de agrupamiento de artículos científicos en formato XML basado en la información brindada por las referencias bibliográficas de los mismos. La utilización de este método contribuye de manera significativa al descubrimiento de conocimiento relevante. Se definió la función de similitud SimRefBib que facilita capturar el grado de semejanza entre los documentos tomando como base la información contenida en sus referencias bibliográficas. Se propone el uso del algoritmo de agrupamiento SemClustDML para la obtención de los grupos de documentos afines. La evaluación a través de los experimentos y los casos de estudios definidos arrojaron resultados relevantes en el agrupamiento de artículos científicos en formato XML.
The amount of scientific information in semi-structured format available in the internet, corporative intranets and other communication means, is growing at a very fast speed. The knowledge management from scientific publications is fundamental to any researcher today. The management of scientific knowledge becomes more complicated and challenging as days go by, given the fact that documents collections are generally heterogeneous, large, diverse and dynamic. Overcoming these difficulties becomes essential to provide the scientists with the necessary time administration to process scientific information. In this Major Paper a new method to clustering scientific articles in XML format has been implemented, based on the information provided by their own bibliographic references. The use of this method significantly contributes to the discovery of relevant knowledge. This Paper also defined the SimRefBib similarities facilitating the capture of the degree of similarities among the documents taking as a base the information contained within their bibliographic references. There is the proposal of a clustering algorithm SemClustDML to obtain groups of alike documents. The evaluation through experiments and definite case studies showed encouraging results in the clustering of scientific articles in XML format.

Descripción

Citación

Aprobación

Revisión

Complementado por

Referenciado por