Selección de rasgos a partir de grupos homogéneos de documentos

Magdaleno Guevara, Damny

Selección de rasgos a partir de grupos homogéneos de documentos

dc.contributor.advisor	Arco García, Leticia
dc.contributor.advisor	Bello Pérez, Rafael Esteban
dc.contributor.author	Magdaleno Guevara, Damny
dc.coverage.spatial	Santa Clara	en_US
dc.date.accessioned	2018-06-08T20:38:50Z
dc.date.available	2018-06-08T20:38:50Z
dc.date.issued	2006-06-22
dc.description.abstract	El objetivo general de la investigación consiste en desarrollar un modelo para la aplicación de técnicas de selección de rasgos para la extracción de términos relevantes que caractericen los grupos de documentos afines, soportado por un módulo implementado en el software CorpusMiner, que ofrece a los investigadores y desarrolladores en el campo de la minería de textos una herramienta que posibilita la extracción de palabras claves que permiten caracterizar corpus textuales y discernir entre clases. En el contenido del trabajo se expone el marco teórico-referencial de la investigación, enfatizando en las técnicas más empleadas en la actualidad para la selección de rasgos, y su aplicación en la minería de textos, particularmente inducción de árboles de decisión en la selección de rasgos. Se desarrolla un modelo conceptual flexible que justifica la concepción y posterior aplicación de las etapas del procedimiento general propuesto: discretización de los rasgos que describen los documentos, construcción de las variables lingüísticas asociadas a cada término, aplicación de los algoritmos ID3 duro o ID3 borroso, y extracción de palabras claves de grupos textuales homogéneos. Finalmente, se muestra la viabilidad del modelo desarrollado a partir de su aplicación en dos casos de estudio utilizando la herramienta CorpusMiner. Se verificaron los resultados comparando con implementaciones en Weka y CorpusMiner del ID3 y C4.5. Se validaron los resultados a partir del análisis de las palabras claves obtenidas y su relación con los tópicos asociados a los grupos textuales que ellas caracterizan. Se demostró de esta forma la hipótesis de investigación planteada.	en_US
dc.description.abstract	Abstract The general aim of this research is to develop a conceptual model and a procedure supported in the software CorpusMiner, which offers researchers and developers in the field of the text mining a tool that makes possible the extraction of keywords that allow to characterize textual corpus and to discern between classes. In the content of the work the theoretical framework of the research is explained, emphasizing the techniques most widely used at present for the feature selection, and its application in the text mining, particularly the induction of decision trees in the feature selection. A flexible conceptual model is developed that justifies the conception and later application of each of the stages of the general proposed procedure: discretization of the features that describe documents, construction of the linguistic variables associated to each term, application of hard ID3 or Fuzzy ID3 algorithms, and extraction of keywords of homogenous textual clusters. Finally, the viability of the model developed is shown in two study cases by using the tool CorpusMiner that supports it. The results were verified comparing with implementations in WEKA and CorpusMiner of the ID3 and C4.5 algorithms. The results from the analysis of the keywords obtained and their relations with the topics associated to the textual groups that they characterize were validated. Thus the hypothesis of the research was proved.	en_US
dc.description.sponsorship	Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación	en_US
dc.description.status	non-published	en_US
dc.identifier.uri	https://dspace.uclv.edu.cu/handle/123456789/9489
dc.language.iso	es	en_US
dc.publisher	Universidad Central “Marta Abreu” de Las Villas.	en_US
dc.rights	Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License	en_US
dc.subject	Selección de Rasgos	en_US
dc.subject	Grupos Homogéneos	en_US
dc.subject	Documentos Afines	en_US
dc.subject	Minería de Textos	en_US
dc.subject	CorpusMiner	en_US
dc.subject	Weka	en_US
dc.subject.other	Documentos	en_US
dc.subject.other	Minería de Datos	en_US
dc.subject.other	Procesador de Textos	en_US
dc.subject.other	Software	en_US
dc.subject.other	Weka	en_US
dc.subject.other	Diseño de Sistemas	en_US
dc.title	Selección de rasgos a partir de grupos homogéneos de documentos	en_US
dc.type	Thesis	en_US
dc.type.thesis	bachelor	en_US

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Tesis Damny.pdf
Tamaño:: 2.26 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.33 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Tesis de Pregrado - Licenciatura en Ciencias de la Computación