Representación de textos y su reducción de dimensionalidad

dc.contributor.advisorArco García, Leticia
dc.contributor.advisorBello Pérez, Rafael Esteban
dc.contributor.authorValdés Vera, Libernys
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-04-26T20:02:07Z
dc.date.available2018-04-26T20:02:07Z
dc.date.issued2005-06-28
dc.description.abstractEn este trabajo se realizó el diseñó del sistema CorpusMiner que permite el procesamiento de corpus textuales, desde su representación inicial hasta lograr obtener su resumen extracto. Este procesamiento requiere transitar por diferentes etapas. En esta investigación nos focalizamos en la representación del corpus y en la reducción de dimensionalidad como parte de la representación y como parte de otras etapas del procesamiento. La representación parte de un corpus textual en idioma Inglés y se transforma realizando lematización, homogeneización ortográfica y expandiendo las contracciones y abreviaturas. Luego, se genera la representación vector space model VSM de la forma término-documento o término-sentencia. Se permite eliminar o no las palabras gramaticales. La representación VSM puede ser pesada utilizando TF-IDF y normalizada utilizando la suma total de frecuencias por documentos. Calculamos la calidad de los términos utilizando las medidas de entropía, skewness, kurtossis, calidad de término I y II. Se puede reducir la dimensionalidad de la matriz VSM utilizando las medidas de calidad de términos. La reducción de dimensionalidad no sólo se aplica a la etapa de representación textual. En CorpusMiner hemos incorporado técnicas de selección de rasgos que permiten obtener las palabras claves que caracterizan a los grupos de documentos obtenidos como parte de un procesamiento intermedio que permitirá la futura extracción de las oraciones relevantes que conformarán el extracto. Las formas de identificar las palabras claves son: ID3, relevancia calculada en el agrupamiento, y las medidas de calidad de términos por grupos.en_US
dc.description.abstractThis work deals with the design of the CorpusMiner system which allows to process text corpora to obtain an extractive abstract of the contents of related texts. The process goes through several stages. In the current research Project we concentrated on corpus representation and dimensionality reduction both as part of representing the original corpus and also during further processing. The initial processing for corpus representation comprises transformation processes such as lemmatization, spelling homogenization and expansion of abbreviations and contractions. Then a vector space modeling VMS is applied in which the corpus is represented either as a term-document or term-sentence matrix. The values in the matrix may be weighted using TF-IDF or normalized (word frequency divided by word total for each document). Term quality can be calculated by using measures such as entropy, skewness, kurtosis, quality I and quality II. These measures of term quality can be used for further reducing dimensionality. CorpusMiner incorporates feature selection techniques which allow to enumerate the keywords that are characteristic of the document clusters that will be abstracted in the form of the cluster’s most representative sentences. Keyword identification may be achieved by means of ID3, calculated cluster’s relevance and cluster’s term quality.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9302
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectRepresentación de Textosen_US
dc.subjectReducción de Dimensionaldaden_US
dc.subjectCorpusMineren_US
dc.subjectMinería de Textosen_US
dc.subject.otherMinería de Textosen_US
dc.subject.otherProcesamiento de Textoen_US
dc.subject.otherDesarrollo de Herramientasen_US
dc.titleRepresentación de textos y su reducción de dimensionalidaden_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Libernys 04-07-05.pdf
Tamaño:
1.19 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: