Nuevo modelo de agrupamiento para documentos XML utilizando estructura y contenido

dc.contributor.advisorMagdaleno Guevara, Damny
dc.contributor.advisorGarcía Lorenzo, María Matilde
dc.contributor.authorFuentes Herrera, Ivett Elena
dc.coverage.spatial1016432en_US
dc.date.accessioned2015-12-02T23:02:55Z
dc.date.available2015-12-02T23:02:55Z
dc.date.issued2013-07-04
dc.description.abstractCada día más datos electrónicos en formato semiestructurado se encuentran disponibles en el World Wide Web, intranets corporativas, y otros medios de comunicación. Gestionar el conocimiento a partir de la información encontrada es fundamental en el trabajo científico. La gestión de información científica se vuelve cada vez más compleja y desafiante, sobre todo porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En este trabajo se implementó el sistema LucXML, con un nuevo método de agrupamiento automático de documentos XML a partir del contenido y la estructura existente en los mismos, sustentado en un sistema para la gestión de la información existente en los artículos científicos, que contribuye al descubrimiento de conocimiento relevante. Se definió la función de similitud OverallSimSUX que facilita capturar el grado de semejanza entre los documentos tomando como génesis la relación existente entre la colección como un todo y las sub-colecciones resultantes de las unidades estructurales. La evaluación a través los experimentos y los casos de estudios definidos arrojaron mejores resultados con la metodología propuesta, que con otras variantes existentes en la literatura.en_US
dc.description.abstractThe amount of electronic data with semistructured format available on the World Wide Web, intranets, and other media increases every day. Knowledge Management from the information found is essential in scientific papers. The management of scientific information becomes increasingly complex and challenging, especially since document collections are usually heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists a better position to manage the time needed to process scientific information. In this thesis a system named LucXML was implemented, with a new method of automatic clustering for XML documents based on the content and structure existing in them and supported by a system for information management in scientific papers, which contributes to relevant knowledge discovery. The similarity function OverallSimSUX was defined, which facilitates to capture the degree of similarity between documents using as genesis the entire collection and the relationship between the structural units, when handled as independent collections. The evaluation through defined experiments and data sets achieves better results with the proposed methodology than with other variants of the literature.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento Ciencias de la ComputaciónFacultad de Matemen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/3860
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectGestión de Información Científicaen_US
dc.subjectAlgoritmo de Agrupamientoen_US
dc.subjectDocumentos XMLen_US
dc.subjectMedidas de Similituden_US
dc.subjectSistema LucXMLen_US
dc.subject.otherAgrupamiento Automatico de Textosen_US
dc.subject.otherArtículos Científicosen_US
dc.subject.otherGestión de Información y Conocimientoen_US
dc.subject.otherXMLen_US
dc.subject.otherInteligencia Artificialen_US
dc.titleNuevo modelo de agrupamiento para documentos XML utilizando estructura y contenidoen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis de Diploma (Ivett E. Fuentes Herrera).pdf
Tamaño:
2.16 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: