Agrupamiento basado en la intermediación diferencial y su valoración utilizando la teoría de los conjuntos aproximados

Fecha

2008

Autores

Arco García, Leticia

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central "Marta Abreu" de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación

Resumen

En el agrupamiento sobre grafos existen métodos, basados en las relaciones de objetos, que tienen alto costo computacional porque utilizan medidas que no capturan eficientemente las propiedades topológicas. Además, las medidas de validación del agrupamiento no siempre dan criterios certeros. El objetivo de la investigación es diseñar medidas que capturen eficientemente la información topológica que codifica el problema, así como un método de agrupamiento que las utilice eficientemente, y validar el agrupamiento, utilizando una herramienta matemática que mida de manera no supervisada la calidad, precisión y consistencia de los grupos. Los resultados obtenidos son: la definición Intermediación Diferencial (DB) caracterizada por capturar eficiente y localmente la centralidad de aristas, no negociar valores de intermediación entre puentes paralelos, ser menos sensible al ruido, y comportarse como una medida de disimilitud topológica; el algoritmo para el agrupamiento basado en DB que no requiere el recálculo y tiene buen desempeño en dominios textuales; la aplicación de la Teoría de los Conjuntos Aproximados (RST) para la validación no supervisada y el etiquetamiento de grupos; el conjunto de medidas basadas en RST y el algoritmo para utilizarlas al validar agrupamientos; y los sistemas SATEX y GARLucene para manipular documentos y contribuir a la gestión de información y conocimiento.
When clustering over graphs, one can find methods which are based on the interrelationships between the objects and exhibit a high computational cost owing to the use of metrics which do not efficiently capture the underlying topological structures. Furthermore, clustering validation measures do not always provide true criteria. The aim of this research is to design measures which are able to capture in an efficient manner the topological information that codes the problem, along with a clustering method that uses them efficiently. The study also intends to assess the clustering outcome by means of a mathematical tool capable of measuring the quality, accuracy and consistency of every cluster in an unsupervised way. The main results are: the Differential Betweenness (DB) characterized by efficient local catching of the edges centrality, not negotiation of betweenness values between parallel bridges, less susceptibility to noise, and behavior as a topological dissimilarity measure; the DB-based clustering approach, which makes no use of recalculation and achieves a good performance in textual domains; the application of Rough Set Theory (RST) for unsupervised cluster validation and labeling; the set of RST-based metrics along with the associated clustering validity algorithm; and the systems SATEX and GARLucene for document handling, thus contributing to the information and knowledge management.

Descripción

Palabras clave

Agrupamiento en Grafos, Intermediación Diferencial, Validación, Teoría de los Conjuntos Aproximados, Manipulación de Documentos, Gestión de Información y Conocimiento, Inteligencia Artificial

Citación