Estudio de métodos de agrupamiento en el contexto del resumen de corpus textuales

Pérez Olmos, Yoisy; Mederos Martínez, Juan

Estudio de métodos de agrupamiento en el contexto del resumen de corpus textuales

dc.contributor.advisor	Arco García, Leticia
dc.contributor.advisor	Bello Pérez, Rafael Esteban
dc.contributor.author	Pérez Olmos, Yoisy
dc.contributor.author	Mederos Martínez, Juan
dc.coverage.spatial	Santa Clara	en_US
dc.date.accessioned	2018-04-27T22:18:06Z
dc.date.available	2018-04-27T22:18:06Z
dc.date.issued	2005-07-03
dc.description.abstract	En este trabajo se realizó el estudio de métodos que permiten el agrupamiento de documentos con el objetivo de obtener resúmenes extractos de un corpus textual. Para lograr estos propósitos nos insertamos en la herramienta CorpusMiner mediante el desarrollo de los módulos que permiten el agrupamiento y su evaluación, así como la obtención de resúmenes. Los algoritmos de agrupamiento implementados son: SKWIC (duro y determinista), Fuzzy SKWIC (borroso) y Extended Star (duro y con solapamiento). Permitimos, además, utilizar los resultados del agrupamiento del Extended Star para inicializar los dos antes mencionados y así obtener mejores resultados. Estos algoritmos parten de una representación VSM del corpus y devuelven una colección de clusters de documentos. Los métodos de agrupamiento implementados requieren calcular la similitud entre vectores, para ello incorporamos la similitud Coseno, distancias Jaccard binaria y pesada, y la distancia Euclidiana, aunque esta última no reporta buenos resultados en dominios textuales. En el módulo de evaluación implementamos las medidas Entropía, F-Measure (precision y recall) y Overall Similarity que permiten cuantificar la calidad del agrupamiento. El último módulo de CorpusMiner permite obtener un resumen extracto de cada uno de los clusters formados, extrayendo las oraciones que tienen la presencia de las palabras claves de cada cluster. La extracción de las oraciones por cada cluster puede realizarse solamente a partir del documento más representativo o de todos los documentos del cluster.	en_US
dc.description.abstract	This work is concerned with the classification of documents to produce abstracts of related-document clusters in a text corpus. To achieve this aim we developed a series of modules in the CorpusMiner system to cluster documents, to assess the quality of a clusterization and to produce extractive abstracts from document clusters. The clustering algorithms implemented in the clustering module include: SKWIC (deterministic hard clustering), Fuzzy SKWIC (fuzzy clustering) y Extended Star (hard and overlapping clustering). We also implemented the possibility of using the results of Extended Star clustering to initialize the other two clustering methods and thus achieve better results. All the algorithms implemented are based on a VSM representation of the corpus and produce a collection of document clusters. The implemented clustering methods are based on similarity measures such as the cosine, binary Jackard’s distance and weighted Jackard’s distance and Euclidian distance (the results of this last similarity measure are not the best for textual domains). In the assessment module we implemented the measurement based on entropy, the F-Measure (precision and recall) and Overall Similarity which allow us to quantify the quality of the clustering results. This last module within CorpusMiner allows us to produce an extractive abstract of each of the clusters obtained by extracting the sentences in the document cluster that contain the keywords of each. The keyword extraction can be performed from all texts in the cluster or from the most representative text in each cluster.	en_US
dc.description.sponsorship	Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación	en_US
dc.description.status	non-published	en_US
dc.identifier.uri	https://dspace.uclv.edu.cu/handle/123456789/9313
dc.language.iso	es	en_US
dc.publisher	Universidad Central “Marta Abreu” de Las Villas	en_US
dc.rights	Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License	en_US
dc.subject	Agrupamiento de Documentos	en_US
dc.subject	Resúmenes Extractos	en_US
dc.subject	Corpus Textual	en_US
dc.subject	Herramienta CorpusMiner	en_US
dc.subject	Minería de Textos	en_US
dc.subject	Inteligencia Artificial	en_US
dc.subject.other	Clasificación Documentos	en_US
dc.subject.other	Algoritmos de Agrupamiento	en_US
dc.subject.other	Resúmenes	en_US
dc.subject.other	Análisis de Clúster	en_US
dc.subject.other	Minería de Textos	en_US
dc.subject.other	Inteligencia Artificial	en_US
dc.title	Estudio de métodos de agrupamiento en el contexto del resumen de corpus textuales	en_US
dc.type	Thesis	en_US
dc.type.thesis	bachelor	en_US

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Tesis YJ 03-07-05.pdf
Tamaño:: 2.47 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.33 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Tesis de Pregrado - Licenciatura en Ciencias de la Computación