Selección de rasgos a partir de grupos homogéneos de documentos

dc.contributor.advisorArco García, Leticia
dc.contributor.advisorBello Pérez, Rafael Esteban
dc.contributor.authorMagdaleno Guevara, Damny
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-06-08T20:38:50Z
dc.date.available2018-06-08T20:38:50Z
dc.date.issued2006-06-22
dc.description.abstractEl objetivo general de la investigación consiste en desarrollar un modelo para la aplicación de técnicas de selección de rasgos para la extracción de términos relevantes que caractericen los grupos de documentos afines, soportado por un módulo implementado en el software CorpusMiner, que ofrece a los investigadores y desarrolladores en el campo de la minería de textos una herramienta que posibilita la extracción de palabras claves que permiten caracterizar corpus textuales y discernir entre clases. En el contenido del trabajo se expone el marco teórico-referencial de la investigación, enfatizando en las técnicas más empleadas en la actualidad para la selección de rasgos, y su aplicación en la minería de textos, particularmente inducción de árboles de decisión en la selección de rasgos. Se desarrolla un modelo conceptual flexible que justifica la concepción y posterior aplicación de las etapas del procedimiento general propuesto: discretización de los rasgos que describen los documentos, construcción de las variables lingüísticas asociadas a cada término, aplicación de los algoritmos ID3 duro o ID3 borroso, y extracción de palabras claves de grupos textuales homogéneos. Finalmente, se muestra la viabilidad del modelo desarrollado a partir de su aplicación en dos casos de estudio utilizando la herramienta CorpusMiner. Se verificaron los resultados comparando con implementaciones en Weka y CorpusMiner del ID3 y C4.5. Se validaron los resultados a partir del análisis de las palabras claves obtenidas y su relación con los tópicos asociados a los grupos textuales que ellas caracterizan. Se demostró de esta forma la hipótesis de investigación planteada.en_US
dc.description.abstractAbstract The general aim of this research is to develop a conceptual model and a procedure supported in the software CorpusMiner, which offers researchers and developers in the field of the text mining a tool that makes possible the extraction of keywords that allow to characterize textual corpus and to discern between classes. In the content of the work the theoretical framework of the research is explained, emphasizing the techniques most widely used at present for the feature selection, and its application in the text mining, particularly the induction of decision trees in the feature selection. A flexible conceptual model is developed that justifies the conception and later application of each of the stages of the general proposed procedure: discretization of the features that describe documents, construction of the linguistic variables associated to each term, application of hard ID3 or Fuzzy ID3 algorithms, and extraction of keywords of homogenous textual clusters. Finally, the viability of the model developed is shown in two study cases by using the tool CorpusMiner that supports it. The results were verified comparing with implementations in WEKA and CorpusMiner of the ID3 and C4.5 algorithms. The results from the analysis of the keywords obtained and their relations with the topics associated to the textual groups that they characterize were validated. Thus the hypothesis of the research was proved.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9489
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villas.en_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectSelección de Rasgosen_US
dc.subjectGrupos Homogéneosen_US
dc.subjectDocumentos Afinesen_US
dc.subjectMinería de Textosen_US
dc.subjectCorpusMineren_US
dc.subjectWekaen_US
dc.subject.otherDocumentosen_US
dc.subject.otherMinería de Datosen_US
dc.subject.otherProcesador de Textosen_US
dc.subject.otherSoftwareen_US
dc.subject.otherWekaen_US
dc.subject.otherDiseño de Sistemasen_US
dc.titleSelección de rasgos a partir de grupos homogéneos de documentosen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Damny.pdf
Tamaño:
2.26 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: