Estudio de métodos de agrupamiento en el contexto del resumen de corpus textuales

Fecha

2005-07-03

Autores

Pérez Olmos, Yoisy
Mederos Martínez, Juan

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En este trabajo se realizó el estudio de métodos que permiten el agrupamiento de documentos con el objetivo de obtener resúmenes extractos de un corpus textual. Para lograr estos propósitos nos insertamos en la herramienta CorpusMiner mediante el desarrollo de los módulos que permiten el agrupamiento y su evaluación, así como la obtención de resúmenes. Los algoritmos de agrupamiento implementados son: SKWIC (duro y determinista), Fuzzy SKWIC (borroso) y Extended Star (duro y con solapamiento). Permitimos, además, utilizar los resultados del agrupamiento del Extended Star para inicializar los dos antes mencionados y así obtener mejores resultados. Estos algoritmos parten de una representación VSM del corpus y devuelven una colección de clusters de documentos. Los métodos de agrupamiento implementados requieren calcular la similitud entre vectores, para ello incorporamos la similitud Coseno, distancias Jaccard binaria y pesada, y la distancia Euclidiana, aunque esta última no reporta buenos resultados en dominios textuales. En el módulo de evaluación implementamos las medidas Entropía, F-Measure (precision y recall) y Overall Similarity que permiten cuantificar la calidad del agrupamiento. El último módulo de CorpusMiner permite obtener un resumen extracto de cada uno de los clusters formados, extrayendo las oraciones que tienen la presencia de las palabras claves de cada cluster. La extracción de las oraciones por cada cluster puede realizarse solamente a partir del documento más representativo o de todos los documentos del cluster.
This work is concerned with the classification of documents to produce abstracts of related-document clusters in a text corpus. To achieve this aim we developed a series of modules in the CorpusMiner system to cluster documents, to assess the quality of a clusterization and to produce extractive abstracts from document clusters. The clustering algorithms implemented in the clustering module include: SKWIC (deterministic hard clustering), Fuzzy SKWIC (fuzzy clustering) y Extended Star (hard and overlapping clustering). We also implemented the possibility of using the results of Extended Star clustering to initialize the other two clustering methods and thus achieve better results. All the algorithms implemented are based on a VSM representation of the corpus and produce a collection of document clusters. The implemented clustering methods are based on similarity measures such as the cosine, binary Jackard’s distance and weighted Jackard’s distance and Euclidian distance (the results of this last similarity measure are not the best for textual domains). In the assessment module we implemented the measurement based on entropy, the F-Measure (precision and recall) and Overall Similarity which allow us to quantify the quality of the clustering results. This last module within CorpusMiner allows us to produce an extractive abstract of each of the clusters obtained by extracting the sentences in the document cluster that contain the keywords of each. The keyword extraction can be performed from all texts in the cluster or from the most representative text in each cluster.

Descripción

Palabras clave

Agrupamiento de Documentos, Resúmenes Extractos, Corpus Textual, Herramienta CorpusMiner, Minería de Textos, Inteligencia Artificial

Citación