Implementación de algoritmos para el agrupamiento documental utilizando OverallSimSUX

Fecha

2015-06-28

Autores

Cabrera González, Ernesto Julio

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En el Centro de Estudios de Informática (CEI) de la Universidad Central “Marta Abreu” de las Villas (UCLV) se ha propuesto una metodología para el agrupamiento de documentos XML combinando estructura y contenido, a través de la confección de una nueva función de similitud. Esta metodología está soportada en un procedimiento general implementado en un sistema para el agrupamiento de artículos científicos en formato XML. Aunque esta metodología muestra buen desempeño, avalado por experimentos con varios corpus textuales y pruebas estadísticas, al tener implícito una sola técnica de agrupamiento, K-Star; se desconoce el efecto que sufriría al remplazarla por otra con características disímiles. En este trabajo se implementaron varios algoritmos de agrupamiento documental, siguiendo la metodología para el cálculo de la función de similitud OverallSimSUX, para documentos XML. Se realizó la implementación de la herramienta OSSM Clustering, que incluye varias técnicas de agrupamiento de documentos, acopladas a la metodología mencionada y permite además, incorporarle otras técnicas de manera sencilla. Se comprobó que la metodología se comportó de manera similar, al variar los algoritmos y funciones de similitud, lo que demuestra la estabilidad de la misma.
At the Center for Informatic Studies (CEI) of Universidad Central "Marta Abreu" of Las Villas (UCLV) has proposed a methodology for clustering XML documents by combining structure and content, through the making of a new function similarity. Is methodology is supported by general procedure implemented in a system for clustering of scientific articles in XML format (LucXML) recovered. Although this method shows good performance, supported by experiments with various text corpora and statistical tests, having a single technique implicit clustering, K-Star; the effect would suffer to replace it by another with different characteristics is unknown. In this paper several documentary clustering algorithms were implemented following the methodology for calculating the similarity function OverallSimSUX for XML documents. OSSM Clustering implementing the tool, which includes various techniques for grouping of documents, coupled to the above methodology was performed.

Descripción

Palabras clave

Metodología, Algoritmos de Agrupamiento, Agrupamiento Documental, Artículos Científicos, XML, OverallSimSUX, OSSM Clustering, Aprendizaje Automático

Citación