Estudio de métodos de agrupamiento en el contexto del resumen de corpus textuales

dc.contributor.advisorArco García, Leticia
dc.contributor.advisorBello Pérez, Rafael Esteban
dc.contributor.authorPérez Olmos, Yoisy
dc.contributor.authorMederos Martínez, Juan
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-04-27T22:18:06Z
dc.date.available2018-04-27T22:18:06Z
dc.date.issued2005-07-03
dc.description.abstractEn este trabajo se realizó el estudio de métodos que permiten el agrupamiento de documentos con el objetivo de obtener resúmenes extractos de un corpus textual. Para lograr estos propósitos nos insertamos en la herramienta CorpusMiner mediante el desarrollo de los módulos que permiten el agrupamiento y su evaluación, así como la obtención de resúmenes. Los algoritmos de agrupamiento implementados son: SKWIC (duro y determinista), Fuzzy SKWIC (borroso) y Extended Star (duro y con solapamiento). Permitimos, además, utilizar los resultados del agrupamiento del Extended Star para inicializar los dos antes mencionados y así obtener mejores resultados. Estos algoritmos parten de una representación VSM del corpus y devuelven una colección de clusters de documentos. Los métodos de agrupamiento implementados requieren calcular la similitud entre vectores, para ello incorporamos la similitud Coseno, distancias Jaccard binaria y pesada, y la distancia Euclidiana, aunque esta última no reporta buenos resultados en dominios textuales. En el módulo de evaluación implementamos las medidas Entropía, F-Measure (precision y recall) y Overall Similarity que permiten cuantificar la calidad del agrupamiento. El último módulo de CorpusMiner permite obtener un resumen extracto de cada uno de los clusters formados, extrayendo las oraciones que tienen la presencia de las palabras claves de cada cluster. La extracción de las oraciones por cada cluster puede realizarse solamente a partir del documento más representativo o de todos los documentos del cluster.en_US
dc.description.abstractThis work is concerned with the classification of documents to produce abstracts of related-document clusters in a text corpus. To achieve this aim we developed a series of modules in the CorpusMiner system to cluster documents, to assess the quality of a clusterization and to produce extractive abstracts from document clusters. The clustering algorithms implemented in the clustering module include: SKWIC (deterministic hard clustering), Fuzzy SKWIC (fuzzy clustering) y Extended Star (hard and overlapping clustering). We also implemented the possibility of using the results of Extended Star clustering to initialize the other two clustering methods and thus achieve better results. All the algorithms implemented are based on a VSM representation of the corpus and produce a collection of document clusters. The implemented clustering methods are based on similarity measures such as the cosine, binary Jackard’s distance and weighted Jackard’s distance and Euclidian distance (the results of this last similarity measure are not the best for textual domains). In the assessment module we implemented the measurement based on entropy, the F-Measure (precision and recall) and Overall Similarity which allow us to quantify the quality of the clustering results. This last module within CorpusMiner allows us to produce an extractive abstract of each of the clusters obtained by extracting the sentences in the document cluster that contain the keywords of each. The keyword extraction can be performed from all texts in the cluster or from the most representative text in each cluster.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9313
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectAgrupamiento de Documentosen_US
dc.subjectResúmenes Extractosen_US
dc.subjectCorpus Textualen_US
dc.subjectHerramienta CorpusMineren_US
dc.subjectMinería de Textosen_US
dc.subjectInteligencia Artificialen_US
dc.subject.otherClasificación Documentosen_US
dc.subject.otherAlgoritmos de Agrupamientoen_US
dc.subject.otherResúmenesen_US
dc.subject.otherAnálisis de Clústeren_US
dc.subject.otherMinería de Textosen_US
dc.subject.otherInteligencia Artificialen_US
dc.titleEstudio de métodos de agrupamiento en el contexto del resumen de corpus textualesen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis YJ 03-07-05.pdf
Tamaño:
2.47 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: