Selección de rasgos a partir de grupos homogéneos de documentos

Fecha

2006-06-22

Autores

Magdaleno Guevara, Damny

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas.

Resumen

El objetivo general de la investigación consiste en desarrollar un modelo para la aplicación de técnicas de selección de rasgos para la extracción de términos relevantes que caractericen los grupos de documentos afines, soportado por un módulo implementado en el software CorpusMiner, que ofrece a los investigadores y desarrolladores en el campo de la minería de textos una herramienta que posibilita la extracción de palabras claves que permiten caracterizar corpus textuales y discernir entre clases. En el contenido del trabajo se expone el marco teórico-referencial de la investigación, enfatizando en las técnicas más empleadas en la actualidad para la selección de rasgos, y su aplicación en la minería de textos, particularmente inducción de árboles de decisión en la selección de rasgos. Se desarrolla un modelo conceptual flexible que justifica la concepción y posterior aplicación de las etapas del procedimiento general propuesto: discretización de los rasgos que describen los documentos, construcción de las variables lingüísticas asociadas a cada término, aplicación de los algoritmos ID3 duro o ID3 borroso, y extracción de palabras claves de grupos textuales homogéneos. Finalmente, se muestra la viabilidad del modelo desarrollado a partir de su aplicación en dos casos de estudio utilizando la herramienta CorpusMiner. Se verificaron los resultados comparando con implementaciones en Weka y CorpusMiner del ID3 y C4.5. Se validaron los resultados a partir del análisis de las palabras claves obtenidas y su relación con los tópicos asociados a los grupos textuales que ellas caracterizan. Se demostró de esta forma la hipótesis de investigación planteada.
Abstract The general aim of this research is to develop a conceptual model and a procedure supported in the software CorpusMiner, which offers researchers and developers in the field of the text mining a tool that makes possible the extraction of keywords that allow to characterize textual corpus and to discern between classes. In the content of the work the theoretical framework of the research is explained, emphasizing the techniques most widely used at present for the feature selection, and its application in the text mining, particularly the induction of decision trees in the feature selection. A flexible conceptual model is developed that justifies the conception and later application of each of the stages of the general proposed procedure: discretization of the features that describe documents, construction of the linguistic variables associated to each term, application of hard ID3 or Fuzzy ID3 algorithms, and extraction of keywords of homogenous textual clusters. Finally, the viability of the model developed is shown in two study cases by using the tool CorpusMiner that supports it. The results were verified comparing with implementations in WEKA and CorpusMiner of the ID3 and C4.5 algorithms. The results from the analysis of the keywords obtained and their relations with the topics associated to the textual groups that they characterize were validated. Thus the hypothesis of the research was proved.

Descripción

Palabras clave

Selección de Rasgos, Grupos Homogéneos, Documentos Afines, Minería de Textos, CorpusMiner, Weka

Citación