Sistema para la gestión de información científico-técnica

Fecha

2008-06-27

Autores

Artiles Egüe, Michel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En este trabajo se diseñó e implementó el sistema GARLucene para la gestión de información científica, a partir de los resultados de la recuperación de artículos científicos usando LIUS y Lucene. Los documentos se agrupan utilizando las propiedades estructurales de sus representaciones gráficas. Además los resultados del agrupamiento se valoran mediante la validación y el etiquetamiento de los grupos. La implementación del sistema se basa en la metodología de análisis y diseño orientada a objetos, éste es extensible y reutilizable. El sistema incluye métodos de agrupamientos jerárquicos divisivos que posibilitan organizar los resultados de procesos de recuperación de información, y por tanto, contribuir a una mejor gestión de los artículos científicos que los usuarios desean analizar. Además, se utiliza la teoría de los conjuntos aproximados para determinar los documentos más representativos por grupos y caracterizar los resultados de los agrupamientos lo que permite la validación de los grupos y agrupamientos en general. GARLucene permite la indexación de múltiples tipos de ficheros y fue desarrollado completamente en JAVA, característica que lo convierte en un sistema multiplataforma. Además, los códigos fuente de LIUS y Lucene se encuentran totalmente disponibles, por lo que se pudo interactuar con facilidad para indexar, recuperar y procesar los documentos.
This describes the design and implementation of the GARLucene system for management of scientific information, based upon the results of the gathering of scientific articles using LIUS and Lucene. Documents are clustered using the structural properties of its graphic representation. The results of the clustering are evaluated through the validation and labeling of the clustering groups. The system design was carried out following the guidelines of the analysis and design oriented to object methodology guaranteeing its extensibility and reusability. The system also includes two implementations of the hierarchic divisive clustering that enables the system to organize the result of the information retrieval and, therefore, to contribute to a better management of the scientific articles that users wish to analyze. Besides, Rough Sets theory is used to determine the most representative documents on each group and to characterize the results of the clustering, making possible the validation of the formed groups and the clustering in general. GARLucene allows the indexing of different file types. It was fully developed using Java, feature that makes this program multiplatform. Furthermore, the source codes are fully available, making it easy to interact with for indexing, retrieving and processing documents.

Descripción

Palabras clave

Agrupamiento, Recuperación de Información, Validación, Representación Textual, Lucene Index Updating Search (LIUS), Lucene

Citación