QtNLP-Diff: Comparador de casos de corpus lingüísticos y resultados de algoritmo de similitud

dc.contributor.advisorMeneses Abad, Abel
dc.contributor.advisorNuñez Arcia, Yaisel
dc.contributor.authorSardiñas Morales, Javier
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-03-31T21:28:02Z
dc.date.available2018-03-31T21:28:02Z
dc.date.issued2016-06-25
dc.description.abstractEl presente trabajo propone el módulo QtNLP-Diff para la herramienta QtNLP, que permite estudiar los casos del XML de resultados de un algoritmo de detección de texto reusado, comparándolos con los del XML del corpus lingüístico original. El documento comprende la elaboración de un diseño de fácil uso por lingüistas con poco conocimiento en informática y por especialistas informáticos que trabajan en el área del Procesamiento del Lenguaje Natural (NLP) en las universidades cubanas. La comparación en pares de casos, provenientes de los XML del corpus y los resultados del algoritmo, es actualmente un proceso complejo e ineficiente. El módulo implementado facilita la caracterización de casos, para la validación de nuevos algoritmos de similitud. Para la gestión y análisis de la herramienta propuesta se utiliza la metodología ágil SXP, un híbrido de SCRUM y XP, poniendo énfasis en el diseño de la arquitectura del software, y la validación mediante pruebas de aceptación. Los resultados muestran que, con la utilización del corpus TNLP y resultados de algoritmos en idioma español, la herramienta permite a los investigadores construir fácilmente nuevos XMLs con casos de interés posteriormente a la revisión de casos.en_US
dc.description.abstractThe work involves the development of QtNLP-Diff module for QtNLP tool, which allows to study cases XML files containing results of a detection algorithm applied to reused text with XML containing the original linguistic corpus. The document includes the development of a user-friendly design to facilitate the work of linguists with little knowledge in computer science and computer specialists working in the area of Natural Language Processing (NLP) in Cuban universities. The pairwise comparison of cases from the XML corpus and the results of the algorithm is currently a complex and inefficient process. The implemented module facilitates the characterization of cases for validation of new similarity algorithms. The SXP agile methodology was used for the management and analysis of the proposed tool. This methodology is a hybrid of SCRUM and XP, with an emphasis on the design of software architecture and validation through acceptance testing. The results show that use of the corpus TNLP and the results of Spanish language algorithms allow researchers to build new XMLs cases of interest easily, after reviewing cases.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9164
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectQtNLPen_US
dc.subjectTexto Reusadoen_US
dc.subjectCorpus Lingüísticoen_US
dc.subjectSXPen_US
dc.subjectRe-used Texten_US
dc.subjectLinguistic Corpusen_US
dc.subjectSXPen_US
dc.subject.otherLenguaje Naturalen_US
dc.subject.otherProcesamientoen_US
dc.subject.otherAlgoritmosen_US
dc.subject.otherMétodos de Detecciónen_US
dc.subject.otherSimilituden_US
dc.subject.otherTextosen_US
dc.subject.otherDesarrollo de Herramientasen_US
dc.titleQtNLP-Diff: Comparador de casos de corpus lingüísticos y resultados de algoritmo de similituden_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Javier.pdf
Tamaño:
1.31 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: