Extensión de una metodología para el agrupamiento de documentos no estructurados

Cargando...
Miniatura

Autores

Rodríguez Dosina, Adrián

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En la actualidad existe gran cantidad de información disponible que cada día se incrementa con el avance científico-técnico. Una de las tareas fundamentales que se plantean los investigadores del área de la recuperación de información es crear mecanismos que permitan la utilización de dicha información para la toma de decisiones futuras y la obtención de nuevo conocimiento basado en experiencias pasadas. En el presente trabajo se implementó el sistema Scientific Solr que soporta un esquema de agrupamiento de documentos. El esquema soportado fue concebido inicialmente para agrupar colecciones de documentos semiestructurados con formato XML, sin embargo en esta investigación ha sido extendido, incorporándole un nuevo módulo que permite agrupar documentos no estructurados. La extensión realizada se basa en una técnica de procesamiento de textos conocida como segmentación por tópicos. Específicamente se implementó una variante del algoritmo de segmentación por tópicos TextLec que se ajusta al modelo propuesto y reporta buen desempeño procesando documentos con estructura lineal, como es el caso de los artículos científicos. Los resultados obtenidos fueron satisfactorios luego de aplicar los experimentos, pues se obtuvieron mejores resultados con el nuevo método que con el método clásico de representación global. En el proceso de validación se utilizaron varios corpus de documentos de carácter científico y se aplicaron algunas medidas internas y externas para evaluar la calidad del agrupamiento.
The amount of electronic data with semi-structured format available on the World Wide Web, intranets, and other media increases every day. In consequence, the Information Retrieval investigators have a very important goal. This goal consist of create mechanisms to use the stored information for Knowledge Management. In this thesis an Information Retrieval System named Scientific Solr was implemented. This software contains a clustering documents model that is based on the content and structure existing in documents. The model was originally designed to cluster semi-structured documents, especially XML documents. The present work adds a new module that permits cluster not-structured documents. The module that was added uses a text processing technique named Text Segmentation by Topics. The applied tests showed successful results because the new method had a better behavior compared to the classic method that uses global representation. In validation process were used different scientific document collections and were applied some internal and external measures to evaluate the quality of clustering.

Descripción

Citación

Aprobación

Revisión

Complementado por

Referenciado por