Implementación de algoritmos para el agrupamiento documental utilizando OverallSimSUX

Fecha

2014-06-26

Autores

Miranda Dorta, Yadriel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En el Centro de Estudios de Informática (CEI) de la Universidad Central “Marta Abreu” de las Villas (UCLV) se ha propuesto una metodología para el agrupamiento de documentos XML combinando estructura y contenido, a través de la confección de una nueva función de similitud. Es metodología está soportada en un procedimiento general implementado en un sistema para para el agrupamiento de artículos científicos en formato XML (LucXML), recuperados. Aunque esta metodología muestra buen desempeño, avalado por experimentos con varios corpus textuales y pruebas estadísticas, al tener implícito una sola técnica de agrupamiento, K-Star; se desconoce el efecto que sufriría al remplazarla por otra con características disímiles. En este trabajo se implementaron varios algoritmos de agrupamiento documental, siguiendo la metodología para el cálculo de la función de similitud OverallSimSUX, para documentos XML. Se realizó la implementación de la herramienta XMLearning, que incluye varias técnicas de agrupamiento de documentos, acopladas a la metodología mencionada. La evaluación a través los experimentos y los casos de estudios definidos, mostró en uno de los experimentos que los resultados a pesar de presentar diferencias, presentaron igual comportamiento, en el otro experimento no se mostraron diferencias significativas entre los resultados.
At the Center for Informatic Studies (CEI) of Universidad Central "Marta Abreu" of Las Villas (UCLV) has proposed a methodology for clustering XML documents by combining structure and content, through the making of a new function similarity. Is methodology is supported by general procedure implemented in a system for clustering of scientific articles in XML format (LucXML) recovered. Although this method shows good performance, supported by experiments with various text corpora and statistical tests, having a single technique implicit clustering, K-Star; the effect would suffer to replace it by another with different characteristics is unknown. In this paper several documentary clustering algorithms were implemented following the methodology for calculating the similarity function OverallSimSUX for XML documents. XMLearning implementing the tool, which includes various techniques for grouping of documents, coupled to the above methodology was performed. The evaluation through experiments and case studies defined, showed in one experiment that the results despite having differences, showed the same behavior in another experiment, no significant differences between the results were.

Descripción

Palabras clave

Metodología, Algoritmos de Agrupamiento, Agrupamiento Documental, OverallSimSUX, Técnicas de Agrupamiento, Inteligencia Artificial

Citación

Descargar Referencia Bibliográfica