Agrupamiento de artículos científicos basado en la extracción de frases relevantes

Fecha

2018-07-09

Autores

Amador Penichet, Lisvandy

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La gestión del conocimiento a partir de la información recogida en la bibliografía científica resulta imprescindible para los investigadores en función de optimizar el tiempo de que disponen. El agrupamiento automático de datos se perfila como una de las técnicas que facilitan este proceso. Este permite formar grupos de documentos afines a partir de una colección obtenida mediante un proceso de recuperación de información. Este trabajo tuvo como objetivo: desarrollar un método de agrupamiento de artículos científicos a través de la extracción de frases relevantes obtenidas de los títulos y de las referencias bibliográficas para mejorar la gestión del conocimiento a partir de la literatura científica. Para formar los grupos se tomaron como centroides las frases relevantes contenidas en la intersección de los títulos de los artículos con los títulos de las referencias. Además, se creó un grafo de conexiones de los artículos basado en las frases relevantes que comparten. Mediante este grafo se eliminó el solapamiento entre grupos y se asignaron a los grupos los documentos que no contenían las palabras centroides. Para evaluar los resultados del método propuesto se utilizaron siete medidas externas de calidad del agrupamiento. Como casos de estudios fueron usados artículos científicos provenientes de diferentes áreas del conocimiento. Los experimentos realizados demostraron la factibilidad del método propuesto en el agrupamiento de artículos científicos.
The knowledge’s management from the information collected in the scientific literature is essential for researchers in order to optimize the available time. The automatic data clustering is emerging as a technique that facilitate this process. This allows forming groups of related documents from a collection obtained through a process of information retrieval. The objective of this work was, to develop a method of scientific articles clustering through the extraction of relevant phrases, obtained from titles and bibliographic references to improve knowledge management based on scientific literature. To form the groups, the relevant phrases contained in the intersection of the articles’ titles with the titles of the references were taken as centroids. In addition, a connection graph of the articles was created based on the relevant phrases they share. Through this graph the overlap between groups was eliminated and the documents that did not contain the centroid words were assigned to the groups. To evaluate the results of the proposed method, seven external measures of clustering quality were used. As case studies were used scientific articles from different knowledge’s areas. The experiments carried out demonstrated the feasibility of the proposed method in the clustering of scientific articles.

Descripción

Palabras clave

Agrupamiento, Artículos Científicos, Frases Relevantes, Grafo de Conexiones

Citación