GARLucene 2.0: intermediación diferencial y estimación de los parámetros aplicando una metaheurística bioinspirada

Fecha

2010-07-02

Autores

Quesada Parets, Alier

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El sistema GARLucene incluye métodos de agrupamiento que posibilitan organizar los resultados de procesos de recuperación de información, y por tanto, contribuir a una mejor gestión de los artículos científicos que los usuarios desean analizar. Sin embargo, la variante de agrupamiento que proporciona los mejores resultados en GARLucene sigue un algoritmo que tiene una alta complejidad computacional, requiere el recálculo de la intermediación de las aristas y el conocimiento global del grafo que se conforma a partir de los documentos a agrupar; ya que el método que emplean se basa en el cálculo de la intermediación GN que utiliza la intermediación como medición de la centralidad y no es capaz de captar eficientemente las propiedades topológicas que codifican la estructura del problema. La intermediación diferencial, es otro método de agrupamiento que permite capturar mejor el grado de centralidad de las aristas y tiene menor complejidad computacional. Por lo que el objetivo general de este trabajo de diploma consiste en incorporar a GARLucene el agrupamiento basado en la intermediación diferencial, así como estimar los parámetros del mismo aplicando una metaheurística bioinspirada. Los principales resultados obtenidos son: el diseño e implementación del módulo que permite en GARLucene el agrupamiento basado en la intermediación diferencial, el diseño e implementación del software GARParameters que permite estimar los parámetros del método basado en la intermediación diferencial aplicando optimización basada en enjambres de partículas, y se ilustraron los resultados obtenidos a partir de la aplicación de los métodos implementados a cuatro corpus textuales reportados en la literatura.
GARLucene includes clustering methods which allow organizing the results of information retrieval processes and thus contribute to better management of scientific papers that users want to analyze. However, the clustering variant that provides the best results in GARLucene follows an algorithm that has a high computational complexity; this variant requires the recalculation of the edge betweenness and the global knowledge of the graph which is obtained from the documents to be clustering, because the method used is based on the calculation of the GN betweenness method that use a betweenness as a measure of the centrality and cannot efficiently capture the topological properties that encode the structure of the problem. The differential betweenness is another method of clustering which allows better capture the edge centrality and has less computational complexity. For that reason, the general objective of this thesis is to incorporate the differential betweenness based clustering to GARLucene, as well as to estimate its parameters using a bioinspired metaheuristic. The main results are: the design and implementation of the module that allows the clustering based on differential betweenness, the design and implementation of the GARParameters software to consider the parameters of the method based on differential betweenness applying optimization using particle’s swarm optimization, and the results have been illustrated from the application of the implemented methods in four corpora reported in the literature.

Descripción

Palabras clave

GARLucene 2.0, Métodos de Agrupamiento, Intermediación Diferencial, Enjambres de Partículas, Recuperación de Información, Artículos Científicos, Software GARParameters

Citación

Descargar Referencia Bibliográfica